
支持向量机
|
115
语料库和语料是什么意思?
Corpus
(语料库)像
corpse
(尸体)一样,意思是一个身体,但在这种情况下,它
是一种文字信息。这个词在自然语言处理社区中经常使用,表明可以用来推断知识
的大量的已知文字。在例子中,我们所使用的语料库是围绕某种情绪的一系列文字。
Corpora
是
Corpus
的复数。
SVM
中的测试主要涉及准确设置接受阈值,然后调整模型,直到其工作效果足够好。
我们将在本章中应用这个思路。
SVM
测试策略
我们要做一些正常的
TDD
事务,包括针对模块接缝写单元测试,建立坚实的代码基础,
此外,还有对
SVM
的其他测试考虑:
•
在配置更改之前和更改之后训练模型的速度
•
混淆矩阵以及准确率和召回率
•
灵敏度分析(校正级联、配置债务)
我将在本节讨论这些问题。
Corpus
类
我们的
Corpus
类将处理以下内容:
•
令牌化文本
•
确定情绪倾向,是负面还是正面
•
从情绪倾向映射到数值
•
从语料库返回一组唯一的单词
当我们为此编写接缝测试时,会得到以下结果:
What Do Corpus and Corpora Mean?
Corpus, like corpse, means a body, but in this case it’s a body of
writings. This word is used heavily in the natural-language process‐
ing community to signal a big group of previous writings ...