Donnerstag, Juli 26, 2018

Unmunging von Email-Adressen

Manchmal kann es durchaus vorkommen, dass man legitim 40 Personen am Stück per Email einladen möchte. Nervig ist es dann, wenn die E-Mail-Adressen nicht auf einer Internetseite gelistet sind oder sie zusätzlich von einem vermeintlichen cleveren Seitenbetreuer "gemunged" werden.

Im Quellcode der HTML-Datei sieht ein "gemunged"er Text dann so aus:


info@localhost

Kluge Leute sehen natürlich, dass das nur HTML Code ist. Was machen wir also?

Wir holen uns erst einmal den Quellcode der Seiten per WGET. Limitiert auf rekursiv 1.

wget -e robots=off  -r -l1 --user-agent=FTP -F www.website.de

Dann haben wir alle Quelldateien in einem oder mehreren Verzeichnissen.

Dann schicken wir diese Quellcodes durch HTML2TEXT:

html2text * >> output.txt

Nun haben wir alle konvertierten Dateien in EINER Datei. Reicht aus..
Ja, man könnte wget und html2text pipen. Ich war zu faul.

Die Datei "output.txt" kopiert man sich dann auf einen Windows-Rechner, auf dem das Tool "Easy Email Extractor" läuft. Dann macht man eine Suche per File auf die "output.txt" und schon hat man seine gewünschten E-Mail-Adressen.