Kapitel 4. Unicode Text Versus Bytes
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Menschen verwenden Text. Computer sprechen Bytes.
Esther Nam und Travis Fischer, "Zeichenkodierung und Unicode in Python"1
Mit Python 3 wurde eine scharfe Unterscheidung zwischen Zeichenketten aus menschlichem Text und Sequenzen aus rohen Bytes eingeführt. Die implizite Konvertierung von Bytefolgen in Unicode-Text gehört der Vergangenheit an. In diesem Kapitel geht es um Unicode-Strings, binäre Sequenzen und die Kodierungen, die zur Konvertierung zwischen ihnen verwendet werden.
Je nachdem, welche Art von Arbeit du mit Python machst, denkst du vielleicht, dass es nicht wichtig ist, Unicode zu verstehen. Das ist zwar unwahrscheinlich, aber trotzdem gibt es keine Möglichkeit, die Kluft zwischen str und byte zu überwinden. Als Bonus wirst du feststellen, dass die spezialisierten binären Sequenztypen Funktionen bieten, die der "Allzweck"-Typ Python 2 str nicht hatte.
Unter werden wir in diesem Kapitel die folgenden Themen besuchen:
-
Zeichen, Codepunkte und Byte-Darstellungen
-
Einzigartige Merkmale von binären Sequenzen:
bytes,bytearray, undmemoryview -
Kodierungen für alle Unicode- und Legacy-Zeichensätze
-
Vermeidung von und Umgang mit Kodierungsfehlern
-
Bewährte Methoden beim Umgang mit Textdateien
-
Die Standard-Kodierungsfalle und Standard-E/A-Probleme
-
Sichere Unicode-Textvergleiche mit Normalisierung ...