Zuerst sollte man einmal ein Wort definieren. Dies tun wir durch
eine Folge von Zeichen, die durch Leerzeichen getrennt sind. Hierbei
ergibt sich allerdings ein Problem bei Dokumenten, die Kommandos für
Formatierungen verwenden. In diesem HTML-Dokument gibt es zum Beispiel
Wörter wie <html> oder <body>. Diese sind für
den Betrachter natürlich nur Sichtbar, wenn er sich den Quelltext
der HTML-Seite anschaut. Will man aber eine Wortliste dieser Datei
erzeugen werden natürlich auch solche Wörter berücksichtigt.
Wenn man dies verhindern möchte kann man solche Formatierungen
natürlich entfernen. |