Skip to Content
Spark를 사용한 데이터 알고리즘
book

Spark를 사용한 데이터 알고리즘

by Mahmoud Parsian
May 2025
Beginner to intermediate
438 pages
6h 57m
Korean
O'Reilly Media, Inc.
Book available
Content preview from Spark를 사용한 데이터 알고리즘

6장. 그래프 알고리즘

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

지금까지는 주로 플랫 파일이나 관계형 데이터베이스에 저장되며 행렬(이름이 지정된 열이 있는 행의 집합)로 표현할 수 있는 레코드 데이터에 중점을 두었습니다. 이제 두 개 이상의 데이터 포인트 간의 관계를 나타내는 그래프 기반 데이터에 주목해 보겠습니다. 예를 들어, 'Alex'가 'Jane'의 '친구'이고 'Jane'이 'Bob'의 '친구'인 경우, 이러한 관계는 그래프를 형성하는 소셜 네트워크 데이터를 예로 들 수 있습니다. 항공사/항공권 데이터는 그래프 데이터의 또 다른 일반적인 예이며, 이 장에서는 이 두 가지(그리고 다른 데이터)를 모두 살펴보겠습니다.

데이터 구조는 데이터를 효과적으로 사용할 수 있도록 컴퓨터에서 데이터를 구성하고 저장하는 특정한 방식입니다. 이전 장에서 주로 다루었던 배열, 목록, 튜플 등의 선형 데이터 구조 외에도 트리, 해시 맵, 그래프와 같은 비선형 구조도 데이터 구조에 포함됩니다.

이 장에서는 방향성 및 비방향성 그래프를 표현하고, 그래프를 쿼리 및 분석하고, 그래프에서 알고리즘을 실행하기 위한 API를 제공하는 강력한 Spark용 외부 패키지인 GraphFrames를 소개합니다. 먼저 그래프와 그래프의 용도에 대해 살펴본 다음 PySpark에서 GraphFrames API를 사용하여 그래프를 작성하고 쿼리하는 방법을 살펴보겠습니다. 삼각형 찾기와 모티프 찾기 등 GraphFrames가 지원하는 몇 가지 알고리즘을 살펴본 다음 몇 가지 실용적인 실제 애플리케이션을 살펴봅니다.

그래프 소개

그래프는 데이터의 관계를 시각적으로 설명하는 데 사용되는 비선형 데이터 구조입니다. 비공식적으로 그래프는 (V, E) 의 한 쌍입니다:

  • V 는 정점이라고 하는 노드 집합입니다.

  • E 는 에지라고 하는 정점 쌍의 모음입니다.

  • V (정점) 및 E (가장자리)는 위치 및 저장소 요소입니다.

일반적으로 각 노드는 고유 식별자와 연관된 속성 집합으로 식별됩니다. 에지는 두 개의 노드 식별자(소스 및 대상 노드)와 연관된 속성 집합으로 식별됩니다. 경로는 두 정점 사이의 에지 시퀀스를 나타냅니다. 예를 들어, 항공사 네트워크의 경우:

  • 꼭지점은 공항을 나타내며 세 글자로 된 공항 코드와 기타 중요한 정보(도시, 주 등)를 저장합니다.

  • 에지는 두 공항 사이의 비행 경로를 나타내며 해당 경로의 마일리지를 저장합니다.

에지는 그림 6-1과 같이 방향이 지정되거나 지정되지 않을 수 있습니다. 방향 에지는 정렬된 정점 쌍 (u, v) 으로 구성되며, 첫 번째 정점(u)은 소스이고 두 번째 정점(v)은 목적지입니다. 방향이 없는 에지는 정렬되지 않은 한 쌍의 정점 (u, v) 으로 구성됩니다.

그림 6-1. 지시 및 비지시 에지

마찬가지로 그래프는 방향성(방향성 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

데이터 엔지니어를 위한 97가지 조언

데이터 엔지니어를 위한 97가지 조언

Tobias Macey, 임혜연(Lim Hye Yeon)
클라우드 엔지니어를 위한 97가지 조언

클라우드 엔지니어를 위한 97가지 조언

Emily Freeman, Nathen Harvey, 정기훈(Jung Ki Hun)
프로그래머의 길 멘토에게 묻다

프로그래머의 길 멘토에게 묻다

David Hoover, Adewale Oshineye, Kang Jung Bin

Publisher Resources

ISBN: 9798341655317Supplemental Content