Skip to Content
Spark를 사용한 데이터 알고리즘
book

Spark를 사용한 데이터 알고리즘

by Mahmoud Parsian
May 2025
Beginner to intermediate
438 pages
6h 57m
Korean
O'Reilly Media, Inc.
Book available
Content preview from Spark를 사용한 데이터 알고리즘

8장. 랭킹 알고리즘

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

이 장에서는 다음 두 가지 랭킹 알고리즘을 소개하고 PySpark에서 관련 구현을 소개합니다:

제품 순위

이 알고리즘은 모든 항목 중에서 항목(예: 유전자)의 순위를 찾습니다. 원래는 복제된 마이크로어레이 실험에서 차등 발현되는 유전자를 검출하기 위해 개발되었지만, 이후 널리 받아들여져 현재는 머신 러닝을 포함해 더 광범위하게 사용되고 있습니다. Spark에서는 순위 제품에 대한 API를 제공하지 않으므로 사용자 정의 솔루션을 소개합니다.

PageRank

페이지랭크는 주어진 그래프에서 노드의 중요도를 측정하기 위한 반복 알고리즘입니다. 이 알고리즘은 모든 웹 페이지(문서 집합)에 대한 각 웹 페이지(문서)의 중요도를 찾기 위해 검색 엔진(예: Google)에서 많이 사용합니다. 간단히 말해, 일련의 웹 페이지가 주어지면 PageRank 알고리즘은 각 페이지의 품질 순위를 계산합니다. Spark API는 PageRank 알고리즘을 위한 여러 가지 솔루션을 제공합니다. 그 중 하나인 GraphFrames API를 사용하는 솔루션과 두 가지 사용자 정의 솔루션을 소개하겠습니다.

제품 순위

순위 산물은 계산 생물학이라고도 하는 생물 정보학 분야에서 일반적으로 사용되는 알고리즘입니다. 원래는 복제된 마이크로 어레이 실험에서 차등적으로 발현되는 유전자를 검출하기 위한 생물학적 동기를 가진 테스트로 개발되었습니다. 발현 프로파일링뿐만 아니라 통계적 메타 분석 및 일반적인 특징 선택과 같은 다른 애플리케이션 영역에서 순위 목록을 결합하는 데에도 사용할 수 있습니다. 생물 정보학 및 머신 러닝 분야에서 순위 제품은 간단하고 직관적이면서도 강력한 순위 지정 방법으로 부상했습니다.

이 알고리즘은 평균이나 분산과 같은 통계를 사용하지 않고 여러 비교에서 순위에 따라 항목(예: 유전자)에 점수를 매깁니다. 이 알고리즘은 복제본이 거의 없거나(유전자 분석의 경우) 두 연구의 결과가 얼마나 잘 일치하는지 분석하려는 경우에 특히 유용합니다.

순위 곱 알고리즘은 모든 항목의 순서가 무작위라는 귀무가설 하에서 목록의상위 r개 항목 중 특정 항목을 찾을 확률(p)은 다음과 같다는 가정을 기반으로 합니다:

p = r n

이 확률을 곱하면 순위 곱의 정의가 나옵니다:

R P = ( i r i n i )

여기서 RI는 ith리스트에 있는 항목의 순위, NI는 ith리스트에 있는 항목의 총 개수입니다. RP 값이 작을수록 관찰된 항목이 목록의 맨 위에 배치된 것이 우연에 의한 것일 확률이 작아집니다. 순위 곱은 기하평균 순위를 계산하는 것과 같으며, 곱을 합으로 대체하면 이상값 데이터에 약간 더 민감하고 다양한 목록의 순위 간 일관성에 더 높은 프리미엄을 부여하는 통계(평균 순위)가 생성됩니다. ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

데이터 엔지니어를 위한 97가지 조언

데이터 엔지니어를 위한 97가지 조언

Tobias Macey, 임혜연(Lim Hye Yeon)
클라우드 엔지니어를 위한 97가지 조언

클라우드 엔지니어를 위한 97가지 조언

Emily Freeman, Nathen Harvey, 정기훈(Jung Ki Hun)
프로그래머의 길 멘토에게 묻다

프로그래머의 길 멘토에게 묻다

David Hoover, Adewale Oshineye, Kang Jung Bin

Publisher Resources

ISBN: 9798341655317Supplemental Content