Windows Zeichensätze lassen sich relativ komfortabel in UTF-8 umwandeln
Beim Crawlen von Webseiten stoße ich gerade bei älteren Webs auf die damals beliebten länderspezifischen Windows Zeichensätze und dadurch werden Umlaute und Sonderzeichen zu einem äußerst unleserlichen Gut. Was sich spätestens in der späteren Verarbeitung negativ bemerkbar macht. Abhilfe schafft die Umwandlung des Zeichensatzes während dem Crawlen.
Wenn man so wie ich nur UTF-8 als Ergebnis braucht, kann man folgendes versuchen:
if (isset($meta_tags['description'])) {
$beschreibung = $meta_tags['description'];
if(!mb_check_encoding($beschreibung, 'UTF-8') OR !($beschreibung === mb_convert_encoding(mb_convert_encoding($beschreibung, 'UTF-32', 'UTF-8' ), 'UTF-8', 'UTF-32'))) { $beschreibung = mb_convert_encoding($beschreibung, 'UTF-8', 'pass'); }
echo $beschreibung.'<br>'; }
Bei mir klappt das wunderbar!






Keine Kommentare:
Kommentar veröffentlichen