
Data Science
130
정의해 주지는 않을 것이다. 필요한 데이터를 갖고 오기 위해 주어진
HTML
을
꼼꼼히 살펴보고 예외를 고려해서 논리적인 방법을 선택하도록 하자. 예시를 살
펴보자.
9.3.2
예시: 의회 감시하기
데이텀의 정책 부사장은 데이터 과학 산업에 가해질 잠재적인 규제에 대해 걱정
하고 있으며, 의회가 해당 주제에 대해 어떤 논의를 하고 있는지 정량화하길 원
한다. 특히 ‘데이터’에 대한 보도자료를 공개한 모든 의원을 알고 싶어한다.
출판 시점 기준으로
https://www.house.gov/representatives
에서 모든 의원의 웹사
이트로 연결해 주는 링크를 찾을 수 있다.
‘소스 보기’ 기능을 사용하면 웹사이트로 연결해 주는 모든 링크는 다음과 같
은 형태를 지니고 있는 것을 확인할 수 있다.
<td>
<a href="https://jayapal.house.gov">Jayapal, Pramila</a>
</td>
해당 페이지의 모든
URL
링크를 수집해 보는 것으로 시작하자.
from bs4 import BeautifulSoup
import requests
url = "https://www.house.gov/representatives"
text = requests.get(url).text
soup = BeautifulSoup(text, ...