Skip to Content
Python 소개, 제 2판
book

Python 소개, 제 2판

by Bill Lubanovic
May 2025
Intermediate to advanced
630 pages
8h 17m
Korean
O'Reilly Media, Inc.
Content preview from Python 소개, 제 2판

12장. 데이터 래글링 및 혼합

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

데이터를 충분히 고문하면 자연은 언제나 자백을 합니다.

로널드 코즈

지금까지는 데이터 유형, 코드 구조, 구문 등 Python 언어 자체에 대해 주로 이야기했습니다. 이 책의 나머지 부분에서는 이를 실제 문제에 적용하는 방법에 대해 설명합니다.

이 장에서는 데이터를 길들이기 위한 많은 실용적인 기술을 배우게 됩니다. 이를 데이터 뭉징이라고도 하고, 데이터베이스 세계에서 더 비즈니스에 가까운 ETL(추출/변환/로드)이라고도 합니다. 프로그래밍 책에서는 일반적으로 이 주제를 명시적으로 다루지 않지만, 프로그래머는 데이터를 목적에 맞는 모양으로 만들기 위해 많은 시간을 할애합니다.

데이터 과학 이라는 전문 분야는 지난 몇 년 동안 큰 인기를 끌었습니다. 하버드 비즈니스 리뷰의 한 기사에서는 데이터 과학자를 '21세기의 가장 섹시한 직업'이라고 불렀습니다. 수요가 많고 보수가 높다는 의미라면 좋지만, 그만큼 힘든 일도 많습니다. 데이터 과학은 데이터베이스의 ETL 요구 사항을 넘어서서 사람의 눈으로 볼 수 없었던 인사이트를 발굴하는 기계 학습을 포함하는 경우가 많기 때문이기도 합니다.

기본적인 데이터 형식부터 시작해서 데이터 과학에 가장 유용한 새로운 도구까지 살펴보겠습니다.

데이터 형식은 크게텍스트와 바이너리의 두 가지 범주로 나뉩니다. 텍스트 데이터에는 Python 문자열이 사용되며, 이 장에서는 지금까지 건너뛴 문자열 정보를 포함합니다:

  • 유니코드 문자

  • 정규식 패턴 일치.

그런 다음 바이너리 데이터와 Python의 기본 제공 유형 두 가지로 이동합니다:

  • 불변 8비트 값의바이트

  • 가변바이트열을 위한바이트열

텍스트 문자열: 유니코드

5장에서 Python 문자열의 기초를 살펴봤습니다. 이제 유니코드에 대해 자세히 알아볼 차례입니다.

Python 3 문자열은 바이트 배열이 아닌 유니코드 문자 시퀀스입니다. 이는 Python 2에서 가장 큰 언어 변경 사항입니다.

지금까지 이 책의 모든 텍스트 예제는 평범한 오래된 ASCII(미국 표준 정보 교환 코드)를 사용했습니다. ASCII는 숭어가 지구를 돌아다니기 전인 1960년대에 정의되었습니다. 당시 컴퓨터는 냉장고 크기였고 약간만 더 똑똑해졌을 뿐이었습니다.

컴퓨터 저장의 기본 단위는 바이트이며, 8비트에 256개의 고유 값을 저장할 수 있습니다. 여러 가지 이유로 ASCII는 대문자 26개, 소문자 26개, 숫자 10자리, 구두점 기호, 공백 문자, 비출력 제어 코드 등 7비트(고유 값 128개)만 사용했습니다.

안타깝게도 세상에는 ASCII가 제공하는 것보다 더 많은 문자가 있습니다. 식당에서 핫도그를 먹을 수는 있어도 카페에서 게뷔르츠트라미너(1 카페에서 핫도그를 먹을 수는 없습니다. 8비트에 더 많은 문자와 기호를 넣으려는 많은 시도가 있었고, 가끔 그런 시도를 볼 수 있습니다. 그 중 몇 가지를 소개합니다: ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Python 학습, 제 5판

Python 학습, 제 5판

Mark Lutz
fastai와 파이토치가 만나 꽃피운 딥러닝

fastai와 파이토치가 만나 꽃피운 딥러닝

박찬성, 김지은, 제러미 하워드, 실뱅 거거

Publisher Resources

ISBN: 9798341653764