Windows Zeichensätze lassen sich relativ komfortabel in UTF-8 umwandeln
Beim Crawlen von Webseiten stoße ich gerade bei älteren Webs auf die damals beliebten länderspezifischen Windows Zeichensätze und dadurch werden Umlaute und Sonderzeichen zu einem äußerst unleserlichen Gut. Was sich spätestens in der späteren Verarbeitung negativ bemerkbar macht. Abhilfe schafft die Umwandlung des Zeichensatzes während dem Crawlen.