Vermutlich kommt sxp mit ungültigem XML oder seltsamen HTML besser zurecht als die meisten XML-Parser. Manchmal sind die Fehler aber zu gravierend, oder man will Fehlerquellen minimieren. Dann ist JTidy praktisch: Der Fork von HTML Tidy behebt HTML-Fehler schlichtweg und liefert sauberen Code zurück. Wenn man mit Seiten aus der echten Welt arbeitet statt mit vermutlich sauberen API-Ausgaben ist sowas einfach notwendig.
Zwei Beispiele von der "HTML Tidy"-Seite:
<a href="#refs">References<a>
<a href="#refs">References</a>
<h1><i>italic heading</h1>
<p>new paragraph
<h1><i>italic heading</i></h1>
<p>new paragraph
Ich weiß nicht mehr, welche Seite und welche Codestelle so zerschossen war, dass ich es initial gebraucht habe. Ich weiß noch, dass es bei den Arbeiten am Blogzähler war und das jTidy das Problem löste. Seitdem lasse ich es einfach standardmäßig über die Seiten laufen.