모든 문자, 숫자, 구두점을 포함) 단일 바이트만 사용하면 되지만, 더 큰 값을 가지는 유니코드의
코드 포인트를 표현하기 위해서는 최대
4
바이트까지 확장 가능하다. 결과적으로 최악의 경우는
UTF
-
32
를 사용하는 것과 동일하다.
UTF
-
8
은 다른 좋은 속성들이 있다.
UTF
-
32
와
UTF
-
16
과 다르게, 리틀 엔디안과 빅 엔디안에 대해 고민할 필요가 없다는 것이다. 또한 바이트 시퀀스
의 모든 바이트를 보고
UTF
-
8
시퀀스의 시작인지 혹은 중간인지를 파악할 수 있다. 이것은 어
떤 경우에도 문자를 잘 못 읽을 수가 없다`는 의미이다.
단 하나의 단점이 있다면,
UTF
-
8
로 인코딩 된 문자열은 임의의 접근으로 읽을 수는 없다. 발견
한 곳이 문자의 중간 부분이라면, 정확히 어느 위치라는 것을 알 수는 없다. 그런 경우에는 문자
의 처음에서 시작하여 세어보아야 한다.
Go
는
UTF
-
8
로 문자열을 만들도록 강제하진 않지만,
그렇게 하기를 권장한다. 다음 장에서
UTF
-
8
문자열을 다루는 방법을 알아보도록 하자.
재밌는 사실은
UTF
-
8
은
Go
언어의 창시자인 켄 톰슨과 롭 파이크가
1992
년에 개발했다는 점
이다.
문자열을 슬라이스와 인덱스 표현법으로 사용하기 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.