Skip to Content
전문가를 위한 파이썬(2판)
book

전문가를 위한 파이썬(2판)

by 루시아누 하말류, 강권학
November 2024
Beginner to intermediate
1064 pages
25h 21m
Korean
Hanbit Media, Inc.
Content preview from 전문가를 위한 파이썬(2판)
181
4
유니코드 텍스트와 바이트
$ chardetect 04-text-byte.asciidoc
04-text-byte.asciidoc: utf-8 with confidence 0.99
인코딩된 텍스트의 이진 시퀀스는 인코딩 정보를 명시적으로 전달하지 않지만,
UTF
포맷은 텍
스트 앞에 바이트 순서 표시
byte
order
mark
(
BOM
)를 추가할 수 있다. 다음 절에서는
BOM
을 알
아보자.
4
.
5
.
5
BOM
: 유용한 깨진 문
[예제
4
-
4
]에서
UTF
-
16
으로 인코딩된 텍스트 앞쪽에 있는 여분의 바이트 두 개를 보았을 것
이다. 해당 부분만 다시 옮겨오면 다음과 같다.
>>> u16 = ‘El Niño’.encode(‘utf_16’)
>>> u16
b’\xff\xfeE\x00l\x00 \x00N\x00i\x00\xf1\x00o\x00’
여분의 두 바이트는 앞에 나온
b’
\
xff
\
xfe’
이다. 이 문자가 바로
바이트 순서 표시 (BOM )
로, 인
코딩한 인텔
CPU
의 리틀 엔디언
little
endian
바이트 순서를 나타낸다.
리틀 엔디언 컴퓨터에서는 코드 포인트의 최하위 바이트가 먼저 나온다. 코드 포인트가
U
+
0045
(십진수
69
)
‘E’
문자는 다음과 같이 바이트 오프셋
2
3
69
0
으로 인코딩되
었다.
>>> list(u16)
[255, 254, 69, ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

전문가를 위한 리액트

전문가를 위한 리액트

테자스 쿠마르
고성능 파이썬(2판)

고성능 파이썬(2판)

오현석, 미샤 고렐릭, 이안 오스발트

Publisher Resources

ISBN: 9791169211772