
72 |
第
3
章
事实验证网站
出现在来源列表里的一些事实验证网站:
•
www.politifact.com
•
www.snopes.com
•
www.factcheck.org
•
factcheck.afp.com
•
www.washingtonpost.com/news/fact-checker
•
www.realclearpolitics.com
•
www.glennbeck.com
这些网站包含声明信息,每个网站可作为一个弱信号。这些信息在每个网站
的表现方式都不一样。使用网站上的信息要先阅读网站的内容。
我们可以使用
urllib
包中的
package utilities
读取站点内容,使用
Python
中
的
BeautifulSoup
库解析站点内容:
from urllib.request import Request, urlopen
from bs4 import BeautifulSoup
import json
#
链接
url,
下载网站的内容并返回解析
#
def get_parsed_html(url):
req = Request(url, headers={"User-Agent": "Mozilla/5.0"})
webpage = urlopen(req).read()
parsed_html = BeautifulSoup(webpage)
return parsed_html
接下来是以
PolitiFact
为例,学习如何利用每一个来源网站。
PolitiFact ...