November 2025
Intermediate to advanced
984 pages
16h 17m
Japanese
人間は文字を使い、コンピュータはバイト列で会話します。
—— Esther Nam、Travis Fischer
『Character Encoding and Unicode in Python』†1
[†1] PyCon 2014での講演『Character Encoding and Unicode in Python』(https://fpy.li/4-1)の12ページより。動画(https://fpy.li/4-2)も公開されています。
Python 3から、人間が読む文字列と生のバイトによるシーケンスとが明確に区別されるようになりました。暗黙のうちにバイト列がUnicode文字列に変換されるようなことは、もうなくなりました。この章ではUnicode文字列とバイナリシーケンスを扱い、両者間の変換に使われるエンコード形式について解説します。
読者がPythonで行う作業の種類によっては、Unicodeへの理解はさほど必要ないと思われることもあるかもしれません。しかしいずれにせよ、strとbytesの違いを無視することはできません。両者の違いを学んでゆくと、特化したバイナリシーケンスにはPython 2の言わば汎用的なstr型にはない機能が含まれていることもわかるでしょう。
この章で扱うトピックは以下の通りです。
bytes、bytearray、memoryview)に固有の機能Read now
Unlock full access