Mittwoch, 7. Januar 2026

Windows Zeichensätze in UTF-8 umwandeln

Windows Zeichensätze lassen sich relativ komfortabel in UTF-8 umwandeln 

Beim Crawlen von Webseiten stoße ich gerade bei älteren Webs auf die damals beliebten länderspezifischen Windows Zeichensätze und dadurch werden Umlaute und Sonderzeichen zu einem äußerst unleserlichen Gut. Was sich spätestens in der späteren Verarbeitung negativ bemerkbar macht. Abhilfe schafft die Umwandlung des Zeichensatzes während dem Crawlen.

Wenn man so wie ich nur UTF-8 als Ergebnis braucht, kann man folgendes versuchen:

if (isset($meta_tags['description'])) {
    $beschreibung = $meta_tags['description']; 
    if(!mb_check_encoding($beschreibung, 'UTF-8') OR !($beschreibung === mb_convert_encoding(mb_convert_encoding($beschreibung, 'UTF-32', 'UTF-8' ), 'UTF-8', 'UTF-32'))) {    $beschreibung = mb_convert_encoding($beschreibung, 'UTF-8', 'pass'); }  
    echo $beschreibung.'<br>'; } 

Bei mir klappt das wunderbar! 

social icon social icon social icon social icon social icon social icon



Keine Kommentare:

Kommentar veröffentlichen

Empfohlener Beitrag

Windows Zeichensätze in UTF-8 umwandeln

Windows Zeichensätze lassen sich relativ komfortabel in UTF-8 umwandeln  Beim Crawlen von Webseiten stoße ich gerade bei älteren Webs auf di...

image