제7장. PostgreSQL과 pgvector를 활용한 과학용 RAG 시스템구축
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
과학 논문의 폭발적인 증가는 연구자들에게 압도적인 과제를 안겨줍니다. 바로 수백만 편의 논문에서 관련 지식을 효율적으로 발견하고, 이해하며, 종합하는 방법입니다. ArXiv만 해도 물리학, 수학, 컴퓨터 과학 및 기타 분야에 걸쳐 매달 15,000편 이상의 논문을 발표합니다. 기존의 키워드 검색 방식은 과학적 담론이 지닌 풍부한 의미적 맥락을 포착하지 못합니다. 과학적 담론에서는 동일한 개념이 서로 다른 분야와 연구 커뮤니티에 걸쳐 무수히 다양한 방식으로 표현될 수 있기 때문입니다 .
이 장에서는 과학 문헌을 위해 특별히 설계된 RAG 시스템을 구축합니다. 범용 RAG 시스템과 달리, 과학용 RAG는 다음과 같은 고유한 과제를 해결해야 합니다:
- 전문 용어
논문은 단순한 키워드 이상의 의미적 이해가 필요한, 정밀하고 분야 특유의 언어를 사용합니다.
- 구조화된 콘텐츠
과학 논문은 검색 전략 수립에 도움이 될 수 있는 관례(초록, 방법론, 결과, 결론)를 따릅니다.
- 인용 네트워크
논문은 추가적인 맥락을 제공하는 인용 네트워크 속에 존재한다.
- 수학적 표기법
수식과 방정식은 이 구현 방식으로는 포착되지 않는 의미를 담고 있다. 수학적 표기법을 처리하려면 LaTeX OCR과 같은 전문 도구가 필요하다.
- 증거의 품질
모든 출처가 동등한 것은 아닙니다. 동료 평가, 게재지, 인용 횟수가 중요합니다.
시스템 목표 및 기능
당사의 과학 RAG 시스템은 다음을 가능하게 할 것입니다:
- 의미론적 발견
단순한 키워드 일치뿐만 아니라 개념적 유사성을 기반으로 논문을 찾습니다.
- 논문 간 통합
여러 논문의 정보가 필요한 질문에 답합니다.
- 문맥 이해
질문과 관련된 특정 섹션(방법론, 결과)을 검색합니다.
- 증거 기반 응답
실제 연구를 바탕으로 한 답변을 생성하며, 출처 논문에 대한 인용을 포함합니다(서식 조정은 후처리가 필요합니다).
- 기술적 심층 분석
해당 분야의 전문 지식이 필요한 복잡한 과학적 쿼리를 처리합니다.
아키텍처 개요
시스템 아키텍처는 서로 연결된 6개의 구성 요소로 이루어져 있습니다( 그림 7-1 참조).
그림 7-1. 시스템 아키텍처
구성 요소를 좀 더 자세히 살펴보겠습니다:
- 데이터 수집 계층
-
- ArXiv API 통합
논문 메타데이터 및 PDF 가져오기
- PDF 처리
과학 논문 PDF에서 구조화된 텍스트 추출
- 섹션 감지
논문 섹션(서론, 방법, 결과) 식별
- 벡터 처리 파이프라인
-
- 임베딩 생성
SentenceTransformers를사용하여 텍스트를 밀도 높은 벡터로 변환- 계층적 임베딩
초록과 섹션에 대해 별도의 벡터 생성
- 차원
품질과 성능의 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access