
118
|
第
4
章
df.rename(columns={'text': 'raw_text', 'clean_text': 'text'}, inplace=True)
df.drop(columns=['impurity'], inplace=True)
con = sqlite3.connect(db_name)
df.to_sql("posts_cleaned", con, index=False, if_exists="replace")
con.close()
4.5
分词
我们曾在第
1
章中介绍过正则表达式分词,不过我们只是使用了一个简单的规则。
实际上,如果我们想正确处理所有内容,那么分词可能会非常复杂。我们来看一看
如下示例文本:
text = """
2019-08-10 23:32: @pete/@louis - I don't have a well-designed
solution for today's problem. The code of module AC68 should be -1.
Have to think a bit... #goodnight ;-) """
很显然,定义单词和句子边界的规则并不是那么简单。那么究竟词语(
token
)是什么?
不幸的是,没有明确的定义。
我们可以说词语是语言单元,它们可以从语义方面为
分析提供帮助。这个定义表明,分词的过程在某种程度上取决于具体的应用。例如,
在许多情况下,我们只需简单地丢弃标点符号,但是在情感分析中,我们希望保留 ...