Encoding einer Datei ändern

Da Dateien auf unterschiedlichen Systemen mit verschiedenen Editoren oder per Software erstellt werden, gibt es immer wieder Fehler bezüglich des Encoding. Ein typischer Fehler bei der Ausführung von Python-Skripten ist „UnicodeDecodeError: ‚utf-8‘ codec can’t decode byte in position„. In so einem Fall ist dann der Inhalt der Datei in einem anderen Encoding einzulesen. Das Problem dabei ist, dass man das aktuelle Encoding oft gar nicht kennt. Mit dem folgenden Skript kann eine Datei eingelesen werden, […]

Zeichensatz konvertieren

Unter Linux lässt sich mit dem Befehl iconv auf der Kommandozeile bzw. in einem shell-Skript eine Konvertierung des Zeichensatzes durchführen.Der Befehl iconv ändert zwar die Zeichensatzkodierung, allerdings nicht die Art des Zeilenumbruches.Beispiel:Die Input-Datei wird vom Zeichensatz iso-8859-1 in eine Output-Datei mit Zeichensatz utf-8 konvertiert.iconv -f iso-8859-1 -t UTF-8 input.txt -o output_converted.txt Option Beschreibung -f Name oder –from-code Name Zeichensatz, aus dem konvertiert werden soll -t Name oder –to-code Name Zeichensatz, in den konvertiert werden soll […]