Chapitre 4. Texte Unicode et octets
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Les humains utilisent du texte. Les ordinateurs parlent en octets.
Esther Nam et Travis Fischer, "Codage des caractères et Unicode en Python".1
Python 3 a introduit une distinction nette entre les chaînes de texte humain et les séquences d'octets bruts. La conversion implicite des séquences d'octets en texte Unicode appartient au passé. Ce chapitre traite des chaînes Unicode, des séquences binaires et des codages utilisés pour les convertir.
Selon le type de travail que tu fais avec Python, tu peux penser que la compréhension de l'Unicode n'est pas importante. C'est peu probable, mais de toute façon, il n'y a pas moyen d'échapper au clivage str versus byte. En prime, tu découvriras que les types de séquences binaires spécialisés offrent des caractéristiques que le type "tout usage" de Python 2 str n'avait pas.
En ce chapitre, nous visiterons les sujets suivants :
-
Caractères, points de code et représentations d'octets
-
Caractéristiques uniques des séquences binaires :
bytes,bytearray, etmemoryview -
Encodages pour tous les jeux de caractères Unicode et anciens
-
Éviter et traiter les erreurs d'encodage
-
Meilleures pratiques lors de la manipulation de fichiers texte
-
Le piège de l'encodage par défaut et les problèmes d'E/S standard
-
Comparaisons sûres de textes Unicode avec normalisation
-
Fonctions d'utilité ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access