양한 데이터를 생성하고자 허깅 페이스는 ‘이 주제의 어린이용 교재 만들기’와 ‘이 주제의 전문
가용 교재 만들기’와 같이 주제마다 여러 프롬프트 변형을 사용합니다.
허깅 페이스는 일반적인 웹 데이터를 다루기 위해
RefinedWeb
데이터셋의 일부를
100
개 이
상의 주제로 군집화했습니다. 그런 다음
LLM
에 웹 페이지 스니펫을 제공하고 해당 웹 페이지
가 속한 주제의 맥락 내에서 광범위한 블로그 게시물을 생성하도록 요청했습니다. 이 군집 시
각화는
Nomic
Atlas
39
에서 확인할 수 있습니다.
연습 문제 ●●●
Cosmopedia
데이터셋의 하위 집합인
Cosmopedia
-
100K
40
를 로드하고 프롬프트와 그 결과
로 생성된 합성 데이터를 탐색해 보세요. 합성 데이터의 품질은 어떤가요? 사실적 오류나 추론 오
류가 관찰되나요? 또한 프롬프트를 변형해 더 다양한 데이터를 생성할 수 있는지 시도해 보세요.
2.5
훈련 데이터 전처리
데이터를 수집하거나 확보한 후에는 전처리 파이프라인을 통해 데이터를 필터링하고 정제해야
합니다. 데이터 전처리는
LLM ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.
O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.