术语表
- 聚合
-
聚合聚类是分层聚类的一种类型,它从单个实例开始产生聚类,通过相似性迭代聚合,直到所有实例都属于一个组。
- 应用编程接口 (API)
-
应用编程接口正式定义了软件组件的通信方式。数据 API 可以为用户提供从互联网上读取或获取信息的系统方法。Scikit-Learn API 提供了通过类继承实现的机器学习算法的通用访问。
- 词袋(BOW)/连续词袋(CBOW)
-
词袋是一种对文本进行编码的方法,它将语料库中的每一份文档都转换成一个向量,该向量的长度等于语料库的词汇量。词袋表示法的主要观点是,意义和相似性是由词汇编码的。
- 包络
-
Baleen 是一种开源的博客自动摄取服务,用于构建自然语言处理研究的语料库。
- 介度中心性
-
给定图
G中的节点N,其间度中心性表示G与N的连接程度。间度中心性的计算方法是G中包含N的最短路径与G中最短路径总数之比。 - 偏差
-
偏差是监督学习问题中的两个误差来源之一,计算方法是估计值与真实值之间的差值。偏差大表明估计值与正确答案的偏差很大。
- 典型化
-
典型化是实体解析的三大主要任务之一,它需要将具有多种可能表示形式的数据转换为标准形式。
- 中心性
-
在网络图中,中心性是衡量节点相对重要性的指标。重要节点直接或间接连接到最多的节点,因此中心度较高。
- 聊天机器人
-
聊天机器人是一种参与轮流对话的程序,其目的是解释输入的文本或语音,并输出适当、有用的回复。
- 分类
-
分类是一种有监督的机器学习,它试图学习由独立变量组成的实例之间的模式及其与给定分类目标变量之间的关系。可以对分类器进行训练,以尽量减少训练数据中预测类别与实际类别之间的误差,一旦适合,就可以根据训练过程中检测到的模式为新实例分配分类标签。
- 分类报告/分类热图
-
分类报告显示了每个类别的主要分类指标(精确度、召回率和 F1 分数)。
- 接近度中心性
-
接近中心度计算的是从图
G中的节点N到所有其他节点的平均路径距离,按图的大小归一化。接近中心度描述了源自N的信息在整个G传播的速度。 - 聚类
-
无监督学习或聚类是发现无标签数据中隐藏结构的一种方法。聚类算法旨在发现无标签数据中的潜在模式,利用特征将实例组织成有意义的不同组别。
- 混淆矩阵
-
混淆矩阵是评估分类器准确性的一种方法。在对分类器进行拟合后,混淆矩阵就是一份报告,说明每个预测类别的单个测试值与其实际类别的比较情况。
- 联结语言模型
-
语言的连接主义模型认为,语言单位之间以有意义的方式相互作用,这些方式不一定由顺序上下文编码,但可以通过神经网络方法学习。
- 语料库
-
语料库是包含自然语言的相关文档或语句的集合。
- 语料库阅读器
-
语料库阅读器是一个程序界面,用于读取、搜索、流式处理和过滤文档,并为需要访问语料库内数据的代码提供编码和预处理等数据处理技术。
- 交叉验证/k 折交叉验证
-
交叉验证(或k 倍交叉验证)是在数据集的k 个片段(训练和测试片段)上独立拟合监督学习模型的过程,它允许我们比较模型,并预先估计哪个模型在处理未见数据时性能最佳。交叉验证有助于平衡偏差/方差之间的权衡。
- 数据产品
-
数据产品是指从数据中获得价值并反过来生成新数据的软件应用程序。
- 重复数据删除
-
重复数据删除是实体解析所涉及的三项主要任务之一,需要消除重复数据的重复(精确或虚拟)副本。
- Deep Learning
-
Deep Learning 广义上描述了包含多个交互式隐藏层的神经网络架构大家族。
- 度
-
图
G中节点N的度是G中接触N的边的数量。 - 度中心性
-
度中心性衡量的是图 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access