Skip to Content
Excel용 생성 AI 도구 학습 (Korean Edition)
book

Excel용 생성 AI 도구 학습 (Korean Edition)

by Angelica Lo Duca
April 2026
Beginner to intermediate
390 pages
6h 35m
Korean
O'Reilly Media, Inc.
Content preview from Excel용 생성 AI 도구 학습 (Korean Edition)

제6장. Copilot을 활용한데이터 준비

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

수년 전, 저는 생애 처음으로 예측 모델링 프로젝트를 맡게 되었습니다. 목표는 유럽우주국(ESA)이 자금을 지원하는 프로젝트의 일환으로 선박 항로를 예측하는 것이었습니다. 또한 이는 역사적 선박 항로 데이터와 관련된 방대한 데이터셋을 실제로 접한 첫 경험이기도 했습니다. 데이터셋은 두 개의 서로 다른 공급자가 제공한 약 8천만 건의 레코드로 구성되어 있었습니다. 당시 저에게는 그 숫자가 엄청나게 느껴졌습니다. 또한 이는 실제 머신러닝 모델을 구축해 본 첫 실전 경험이기도 했습니다.

제가 처음 구축한 모델의 모습이 아직도 생생하게 기억납니다. 약 2천만 건의 레코드를 사용하여 모델을 훈련시킨 후, 나머지 6천만 건의 레코드로 테스트를 진행했습니다. 결과는 완전한 참사였습니다.

우선, 훈련 과정만 한 달이 넘게 걸렸습니다. 하지만 그게 최악은 아니었습니다. 모델의 예측 결과가 완전히 빗나갔기 때문입니다. 선박 경로를 제대로 예측하지 못했던 것입니다. 하지만 저는 포기하지 않았습니다. 데이터에 대해 깊이 파고들어 세밀하게 분석함으로써 실제 상황을 더 깊이 이해하기로 했습니다. 그때서야 모든 것이 이해되기 시작했습니다. 두 데이터 제공업체가 거의 동일한 데이터를 제공했기 때문에, 거의 모든 레코드가 중복되어 있다는 사실을 깨달았습니다. 즉, 실제로는 8천만 개의 레코드가 있었던 것이 아니라 4천만 개 정도밖에 되지 않았던 것입니다. 그러다 다른 문제점들도 발견했습니다. 숫자 형식이 잘못된 경우, 누락된 값, 숫자 값이 아닌 텍스트로 해석된 필드 등... 문제는 끝이 없었습니다.

그래서 저는 소매를 걷어붙이고 데이터셋을 꼼꼼하게 정리하고 준비하는 작업에 착수했습니다. 모든 정리 작업을 마친 후, 약 400만 개의 유효한 레코드만 남게 되었습니다. 저는 이 데이터를 사용하여 모델의 새 버전을 훈련시켰고, 이번에는 실제로 작동했습니다. 선박 경로를 예측하는 데 꽤 정확한 결과를 보여주었습니다.

그 경험은 저에게 소중한 교훈을 주었습니다. 어떤 종류의 데이터 분석에 뛰어들기 전에, 데이터는 제대로 준비되고 정리되어야 한다는 것입니다. 그리고 바로 이것이 이 장의 핵심 주제입니다. 데이터를 활용할 준비를 갖추는 것입니다.

더 구체적으로 말하면, 이 장에서는 데이터 준비를 위한 세 가지 데이터 마이닝( ) 기법을 다룹니다:

  • 중복 제거

  • 누락된 값 처리

  • 데이터 형식 지정

첫 번째 단계인 중복 데이터 제거부터 시작해 봅시다.

중복 제거

데이터 세트의중복은 한 번 이상 나타나며 모든 열에 걸쳐 동일한 값을 포함하는 레코드입니다. 이러한 반복은 수동 데이터 입력 오류, 시스템 가져오기 또는 일관성 없는 데이터 수집 프로세스로 인해 발생할 수 있습니다.

중복 데이터는 언뜻 보기에 무해해 보일 수 있지만, 다음과 같은 문제를 일으켜 데이터 분석의 품질과 신뢰성을 크게 저하시킬 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

What Successful Brick-and-Mortar Retailers Get Right

What Successful Brick-and-Mortar Retailers Get Right

Rob Angell
A Five-Step Guide to Improving Your Employer Brand

A Five-Step Guide to Improving Your Employer Brand

Kimberly A. Whitler, Richard Mosley
What Successful Project Managers Do

What Successful Project Managers Do

W. Scott Cameron, Jeffrey S. Russell, Edward J. Hoffman, Alexander Laufer

Publisher Resources

ISBN: 0642572371555