Skip to Content
벡터 데이터베이스 (Korean Edition)
book

벡터 데이터베이스 (Korean Edition)

by Nitin Borwankar
April 2026
Intermediate
292 pages
4h 39m
Korean
O'Reilly Media, Inc.
Content preview from 벡터 데이터베이스 (Korean Edition)

제7장. PostgreSQL과 pgvector를 활용한 과학용 RAG 시스템구축

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

과학 논문의 폭발적인 증가는 연구자들에게 압도적인 과제를 안겨줍니다. 바로 수백만 편의 논문에서 관련 지식을 효율적으로 발견하고, 이해하며, 종합하는 방법입니다. ArXiv만 해도 물리학, 수학, 컴퓨터 과학 및 기타 분야에 걸쳐 매달 15,000편 이상의 논문을 발표합니다. 기존의 키워드 검색 방식은 과학적 담론이 지닌 풍부한 의미적 맥락을 포착하지 못합니다. 과학적 담론에서는 동일한 개념이 서로 다른 분야와 연구 커뮤니티에 걸쳐 무수히 다양한 방식으로 표현될 수 있기 때문입니다 .

이 장에서는 과학 문헌을 위해 특별히 설계된 RAG 시스템을 구축합니다. 범용 RAG 시스템과 달리, 과학용 RAG는 다음과 같은 고유한 과제를 해결해야 합니다:

전문 용어

논문은 단순한 키워드 이상의 의미적 이해가 필요한, 정밀하고 분야 특유의 언어를 사용합니다.

구조화된 콘텐츠

과학 논문은 검색 전략 수립에 도움이 될 수 있는 관례(초록, 방법론, 결과, 결론)를 따릅니다.

인용 네트워크

논문은 추가적인 맥락을 제공하는 인용 네트워크 속에 존재한다.

수학적 표기법

수식과 방정식은 이 구현 방식으로는 포착되지 않는 의미를 담고 있다. 수학적 표기법을 처리하려면 LaTeX OCR과 같은 전문 도구가 필요하다.

증거의 품질

모든 출처가 동등한 것은 아닙니다. 동료 평가, 게재지, 인용 횟수가 중요합니다.

시스템 목표 및 기능

당사의 과학 RAG 시스템은 다음을 가능하게 할 것입니다:

의미론적 발견

단순한 키워드 일치뿐만 아니라 개념적 유사성을 기반으로 논문을 찾습니다.

논문 간 통합

여러 논문의 정보가 필요한 질문에 답합니다.

문맥 이해

질문과 관련된 특정 섹션(방법론, 결과)을 검색합니다.

증거 기반 응답

실제 연구를 바탕으로 한 답변을 생성하며, 출처 논문에 대한 인용을 포함합니다(서식 조정은 후처리가 필요합니다).

기술적 심층 분석

해당 분야의 전문 지식이 필요한 복잡한 과학적 쿼리를 처리합니다.

아키텍처 개요

시스템 아키텍처는 서로 연결된 6개의 구성 요소로 이루어져 있습니다( 그림 7-1 참조).

Diagram of a system architecture with six interconnected components: data ingestion, vector processing, storage, retrieval, generation, and user interface.
그림 7-1. 시스템 아키텍처

구성 요소를 좀 더 자세히 살펴보겠습니다:

데이터 수집 계층
ArXiv API 통합

논문 메타데이터 및 PDF 가져오기

PDF 처리

과학 논문 PDF에서 구조화된 텍스트 추출

섹션 감지

논문 섹션(서론, 방법, 결과) 식별

벡터 처리 파이프라인
임베딩 생성

SentenceTransformers를 사용하여 텍스트를 밀도 높은 벡터로 변환

계층적 임베딩

초록과 섹션에 대해 별도의 벡터 생성

차원

품질과 성능의 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

데이터 집약적인 애플리케이션 설계 (Korean Edition), 2nd Edition

데이터 집약적인 애플리케이션 설계 (Korean Edition), 2nd Edition

Martin Kleppmann, Chris Riccomini

Publisher Resources

ISBN: 0642572369835