
425
10
장
자연어 처리
JSON
형식이 알고리즘에 적합하지 않음을 알 수 있다.
JSON
에서 뉴스를 얻어야 한다.
Regex
는 이 단계에서 중요한 부분이다.
Regex
는 원시적이고 지저분한 텍스트에서 패턴을
찾아 그에 따라 작업을 수행할 수 있다. 다음 함수는
JSON
파일에 인코딩된 정보를 사용해
HTML
구문 분석을 수행한다.
def jsonParser(json_data):
xml_data = json_data[‘content’]
tree = etree.parse(StringIO(xml_data), parser=etree.HTMLParser())
headlines = tree.xpath(“//h4[contains(@class, ‘media-heading’)]/a/text()”)
assert len(headlines) == json_data[‘count’]
main_tickers = list(map(lambda x: x.replace(‘/symbol/’, ‘’),\
tree.xpath(“//div[contains(@class, ‘media-left’)]//a/@href”)))
assert len(main_tickers) == json_data[‘count’]
final_headlines = [‘’.join(f.xpath(‘.//text()’)) ...