파이썬은 문자열이나 텍스트 처리의 용이함 덕분에 원시 데이터를 처리하는 인기 있는 언어가 되
었다. 대부분의 텍스트 연산은 문자열 객체의 내장 메서드로 간단하게 처리할 수 있다. 좀 더 복
잡한 패턴 매칭이나 텍스트 조작은 정규 표현식을 필요로 한다.
pandas
는 배열 데이터 전체에
쉽게 정규 표현식을 적용하고, 누락된 데이터를 편리하게 처리할 수 있는 기능을 포함하고 있다.
7.3.1
문자열 객체 메서드
문자열을 다뤄야 하는 대부분의 애플리케이션은 내장 문자열 메서드만으로도 충분하다. 예를
들어 쉼표로 구분된 문자열은
split
메서드를 이용해서 분리할 수 있다.
In
[
134
]:
val
=
'
a
,
b
,
guido
'
In
[
135
]:
val
.
split
(',')
Out
[
135
]:
['
a
',
'
b
',
'
guido
']
split
메서드는 종종 공백 문자(줄바꿈 문자 포함)를 제거하는
strip
메서드와 조합해서 사용
하기도 한다.
In
[
136
]:
pieces
=
[
x
.
strip
()
for x in val
.
split
(',')]
In
[
137
]:
pieces
Out
[
137
]:
['
a
',
'
b
',
'
guido
']
이렇게 분리된 문자열은 더하기 연산을 사용해서
::
문자열과 합칠 수도 있다.
In
[
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.