Capítulo 17. Dados de texto
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Eu vivo para o texto. É o meu trabalho.
Ian McKellen
Você viu os conceitos básicos de strings do Python no Capítulo 4. Agora é hora de se aprofundar em strings e dados de texto.
Strings de texto: Unicode
As cadeias de caracteres do Python 3 são sequências de caracteres Unicode, não bytearrays. Essa é, de longe, a maior mudança de linguagem em relação ao Python 2.
Todos os exemplos de texto deste livro até agora foram o velho e simples ASCII. O ASCII foi definido na década de 1960, antes de as mullets existirem, e os computadores daquela época tinham o tamanho de geladeiras e eram apenas um pouco mais inteligentes.
Como mencionei no Capítulo 2, a unidade básica de armazenamento do computador é o byte, que pode armazenar 256 valores exclusivos em seus oito bits. Por vários motivos, o ASCII usava apenas sete bits (128 valores exclusivos): 26 letras maiúsculas, 26 letras minúsculas, 10 dígitos, alguns símbolos de pontuação, alguns caracteres de espaçamento e alguns códigos de controle não impressos.
Infelizmente, o mundo tem mais letras do que o ASCII oferece. Você poderia comer um cachorro-quente em uma lanchonete, mas nunca um Gewürztraminer em um café.1 Muitas tentativas foram feitas para colocar mais letras e símbolos em oito bits, e você as verá algumas vezes.
Aqui estão apenas algumas delas:
-
Latin-1, ou ISO 8859-1
-
Página de ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access