面向机器学习的自然语言标注

Book description

创建读者自己的面向机器学习的自然语言训练语料库。无论是以英文、中文,还是以其他任何自然语言为处理对象,这本实践型专著都可以引导读者完成整个标注的开发:向训练语料库中添加元数据信息以帮助机器学习算法更有效地工作。学习本书时不需要读者具备任何编程或语言学经验。

通过各步骤的详细示例,可以学习到MATTER标注开发过程如何帮助读者建模、标注、训练、测试、评价和修改训练语料库。同时,读者还可以亲自实践一个实际的标注项目,了解其完整流程。

  • 在收集数据集(语料库)前确定清晰的标注目标。
  • 学习用于分析语料库语言内容的工具。
  • 为标注项目建立模型和规格说明。
  • 从基本的XML到语言标注框架,考查各种标注格式。
  • 创建可用于训练和测试机器学习算法的黄金标准语料库。
  • 选择用于处理标注数据的机器学习算法。
  • 评价测试结果并修改标注任务。
  • 学习使用轻量级软件来标注文本及审核标注结果。

Table of contents

  1. 封面
  2. 版权页
  3. O'Reilly介绍
  4. 译者序
  5. 目录 (1/2)
  6. 目录 (2/2)
  7. 前言
    1. 面向机器学习的自然语言标注
    2. 读者
    3. 内容安排
    4. 软件需求
    5. 本书约定
    6. 使用代码示例
    7. Safari®图书在线
    8. 联系方式
    9. 致谢
    10. James的致谢
    11. Amber的致谢
  8. 第1章 基础知识
    1. 1.1 语言标注的重要性
      1. 1.1.1 语言学描述的层次
      2. 1.1.2 什么是自然语言处理
    2. 1.2 语料库语言学简史
      1. 1.2.1 什么是语料库
      2. 1.2.2 语料库的早期应用
      3. 1.2.3 当今的语料库
      4. 1.2.4 标注类型 (1/2)
      5. 1.2.4 标注类型 (2/2)
    3. 1.3 语言数据和机器学习
      1. 1.3.1 分类
      2. 1.3.2 聚类
      3. 1.3.3 结构化模式归纳
    4. 1.4 标注开发循环
      1. 1.4.1 现象建模
      2. 1.4.2 按照规格说明进行标注
      3. 1.4.3 在语料库上训练和测试算法
      4. 1.4.4 对结果进行评价
      5. 1.4.5 修改模型和算法
    5. 总结
  9. 第2章 确定目标与选择数据
    1. 2.1 定义目标
      1. 2.1.1 目标陈述
      2. 2.1.2 提炼目标:信息量与正确性
    2. 2.2 背景研究
      1. 2.2.1 语言资源
      2. 2.2.2 机构与会议
      3. 2.2.3 自然语言处理竞赛
    3. 2.3 整合数据集
      1. 2.3.1 理想的语料库:代表性与平衡性
      2. 2.3.2 从因特网上收集数据
      3. 2.3.3 从人群中获取数据
    4. 2.4 语料库的规模
      1. 2.4.1 现有语料库
      2. 2.4.2 语料库内部的分布
    5. 总结
  10. 第3章 语料库分析
    1. 3.1 语料库分析中的基本概率知识
      1. 3.1.1 联合概率分布
      2. 3.1.2 贝叶斯定理
    2. 3.2 计算出现次数
      1. 3.2.1 齐普夫定律(Zip's Law)
    3. 3.2.2 n元语法
    4. 3.3 语言模型
    5. 总结
  11. 第4章 建立模型与规格说明
    1. 4.1 模型和规格说明示例
      1. 4.1.1 电影题材分类
      2. 4.1.2 添加命名实体
      3. 4.1.3 语义角色
    2. 4.2 采用(或不采用)现有模型
      1. 4.2.1 创建模型和规格说明:一般性与特殊性
      2. 4.2.2 使用现有模型和规格说明
      3. 4.2.3 使用没有规格说明的模型
    3. 4.3 各种标准
      1. 4.3.1 ISO标准
      2. 4.3.2 社区驱动型标准
      3. 4.3.3 影响标注的其他标准
    4. 总结
  12. 第5章 选择并应用标注标准
    1. 5.1 元数据标注:文档分类
      1. 5.1.1 单标签标注:电影评论
      2. 5.1.2 多标签标注:电影题材
    2. 5.2 文本范围标注:命名实体
      1. 5.2.1 内嵌式标注
      2. 5.2.2 基于词例的分离式标注
      3. 5.2.3 基于字符位置的分离式标注
    3. 5.3 链接范围标注:语义角色
    4. 5.4 ISO标准和你
    5. 总结
  13. 第6章 标注与审核
    1. 6.1 标注项目的基本结构
    2. 6.2 标注规格说明与标注指南
    3. 6.3 准备修改
    4. 6.4 准备用于标注的数据
      1. 6.4.1 元数据
      2. 6.4.2 数据预处理
      3. 6.4.3 为标注工作分割文件
    5. 6.5 撰写标注指南
      1. 6.5.1 例1:单标签标注——电影评论
      2. 6.5.2 例2:多标签标注——电影题材
      3. 6.5.3 例3:范围标注——命名实体
      4. 6.5.4 例4:链接范围标注——语义角色
    6. 6.6 标注人员
    7. 6.7 选择标注环境
    8. 6.8 评价标注结果
      1. 6.8.1 Cohen的Kappa(κ)算法
      2. 6.8.2 Fleiss的Kappa(κ)算法
      3. 6.8.3 解释Kappa系数
      4. 6.8.4 在其他上下文中计算κ值
    9. 6.9 创建黄金标准(审核)
    10. 总结
  14. 第7章 训练:机器学习
    1. 7.1 何谓学习
    2. 7.2 定义学习任务
    3. 7.3 分类算法
      1. 7.3.1 决策树学习
      2. 7.3.2 朴素贝叶斯学习
      3. 7.3.3 最大熵分类器
      4. 7.3.4 其他需要了解的分类器
    4. 7.4 序列归纳算法
    5. 7.5 聚类和无监督学习
    6. 7.6 半监督学习
    7. 7.7 匹配标注与算法
    8. 总结
  15. 第8章 测试与评价
    1. 8.1 测试算法
    2. 8.2 评价算法
      1. 8.2.1 混淆矩阵
      2. 8.2.2 计算评价得分
      3. 8.2.3 解释评价得分
    3. 8.3 可能影响算法评价的问题
      1. 8.3.1 数据集太小
      2. 8.3.2 算法过于适合开发数据
      3. 8.3.3 标注中的信息过多
    4. 8.4 最后测试得分
    5. 总结
  16. 第9章 修改与报告
    1. 9.1 修改项目
      1. 9.1.1 语料库分布和内容
      2. 9.1.2 模型和规格说明
      3. 9.1.3 标注
      4. 9.1.4 训练和测试
    2. 9.2 报告工作
      1. 9.2.1 关于语料库
      2. 9.2.2 关于模型和规格说明
      3. 9.2.3 关于标注任务和标注人员
      4. 9.2.4 关于ML算法
      5. 9.2.5 关于修改
    3. 总结
  17. 第10章 标注:TimeML
    1. 10.1 TimeML的设计目标
    2. 10.2 相关研究
    3. 10.3 建设语料库
    4. 10.4 模型:初步的标注规格说明
      1. 10.4.1 时间
      2. 10.4.2 信号
      3. 10.4.3 事件
      4. 10.4.4 链接
    5. 10.5 标注:最初的尝试
    6. 10.6 模型:TimeBank中的TimeML标注规格说明
      1. 10.6.1 时间表达式
      2. 10.6.2 事件
      3. 10.6.3 信号
      4. 10.6.4 链接
      5. 10.6.5 可信度
    7. 10.7 标注:TimeBank的产生
    8. 10.8 TimeML成为ISO-TimeML
    9. 10.9 对未来建模:TimeML的发展方向
      1. 10.9.1 叙事容器
      2. 10.9.2 将TimeML扩展到其他领域
      3. 10.9.3 事件结构
    10. 总结
  18. 第11章 自动标注:生成TimeML
    1. 11.1 TARSQI组件
      1. 11.1.1 GUTime:时间标志识别
      2. 11.1.2 EVITA:事件识别及分类
      3. 11.1.3 GUTenLINK
      4. 11.1.4 Slinket
      5. 11.1.5 SputLink
      6. 11.1.6 TARSQI组件中的机器学习
    2. 11.2 TTK的改进
      1. 11.2.1 结构变化
      2. 11.2.2 时间实体识别改进:BTime
      3. 11.2.3 时间关系识别
      4. 11.2.4 时间关系验证
      5. 11.2.5时间关系可视化
    3. 11.3 TimeML竞赛:TempEval-2
      1. 11.3.1 TempEval-2:系统概述
      2. 11.3.2 成果综述
    4. 11.4 TTK的未来
      1. 11.4.1 新的输入格式
      2. 11.4.2 叙事容器/叙事时间
      3. 11.4.3 医学文档
      4. 11.4.4 跨文档分析
    5. 总结
  19. 第12章 后记:标注的未来发展趋势
    1. 12.1 众包标注
      1. 12.1.1 亚马逊土耳其机器人
      2. 12.1.2 有目的的游戏
      3. 12.1.3 用户生成内容
    2. 12.2 处理大数据
      1. 12.2.1 Boosting算法
      2. 12.2.2 主动学习
      3. 12.2.3 半监督学习
    3. 12.3 NLP在线和在云端
      1. 12.3.1 分布式计算
      2. 12.3.2 语言资源共享
      3. 12.3.3 语言应用共享
    4. 结语
  20. 附录A 可利用的语料库与标注规格说明列表 (1/5)
  21. 附录A 可利用的语料库与标注规格说明列表 (2/5)
  22. 附录A 可利用的语料库与标注规格说明列表 (3/5)
  23. 附录A 可利用的语料库与标注规格说明列表 (4/5)
  24. 附录A 可利用的语料库与标注规格说明列表 (5/5)
  25. 附录B 软件资源列表 (1/4)
  26. 附录B 软件资源列表 (2/4)
  27. 附录B 软件资源列表 (3/4)
  28. 附录B 软件资源列表 (4/4)
  29. 附录C MAE用户指南 (1/2)
  30. 附录C MAE用户指南 (2/2)
  31. 附录D MAI用户指南 (1/2)
  32. 附录D MAI用户指南 (2/2)
  33. 附录E 参考文献 (1/3)
  34. 附录E 参考文献 (2/3)
  35. 附录E 参考文献 (3/3)
  36. 作者介绍
  37. 封面介绍

Product information

  • Title: 面向机器学习的自然语言标注
  • Author(s): James Pustejovsky, Amber Stubbs
  • Release date: January 2017
  • Publisher(s): China Machine Press
  • ISBN: 9787111555155

You might also like

book

数据库系统内幕

by Alex Petrov

当我们选择、使用并维护一个数据库系统时,理解它的原理至关重要。但是现今有太多的分布式数据库和工具可供使用,要想弄明白每一种工具的作用以及它们之间的区别往往并不容易。在这本实用指南中,作者讲解了现代数据库和存储引擎背后的概念。 通过本书,你将领略到从众多书籍、论文、博客和多个开源数据库源代码中精心选取的相关材料,并且了解到众多现代数据库之间最重要的区别在于决定存储结构和数据分布的子系统。 你将深入了解如下内容: 存储引擎:学习存储的种类、分类依据,理解基于B树和不可变日志存储结构的存储引擎。 存储构建块:理解数据库文件如何使用诸如页缓存、缓冲池等辅助数据结构来组织构建高效的存储。 分布式系统:逐步学习节点和进程间如何连接并构建复杂的通信模式。 数据库集群:深入探究现在数据库中常用的一致性模型,并了解分布式存储系统是如何实现一致性的。

book

Python机器学习基础教程

by Andreas C. Müller, Sarah Guido

机器学习已成为许多商业应用和研究项目不可或缺的一部分,海量数据使得机器学习的应用范围远超人们想象。本书将向所有对机器学习技术感兴趣的初学者展示,自己动手构建机器学习解决方案并非难事! 书中重点讨论机器学习算法的实践而不是背后的数学,全面涵盖在实践中实现机器学习算法的所有重要内容,帮助读者使用Python和scikit-learn库一步一步构建一个有效的机器学习应用。 机器学习的基本概念及其应用 常用机器学习算法的优缺点 机器学习所处理的数据的表示方法,包括重点关注数据的哪些方面 模型评估和调参的高级方法 管道的概念 处理文本数据的方法,包括文本特有的处理方法 进一步提高机器学习和数据科学技能的建议

book

Terraform:多云、混合云环境下实现基础设施即代码:第2 版

by Yevgeniy Brikman

Terraform工具已经成为DevOps领域的关键角色。在各种云平台和虚拟化环境(如AWS、Goolge Cloud、Azure等)中,可以对基础设施即代码(IaC)进行定义、部署和管理。作为Terraform: Up & Running的第2版,本书针对Terraform 0.12版本的重大升级,进行了内容的拓展和更新,展示了如何快速学习和使用Terraform的优秀实践。 Gruntwork公司的联合创始人Yevgeniy(Jim)Brikman将通过丰富的代码示例展示Terraform作为一种声明性编程语言,如何用简单的执行命令部署和管理基础设施。 无论你是经验丰富的系统管理员、DevOps工程师,还是初出茅庐的开发人员,都可以通过学习本书,迅速掌握Terraform的基础知识,并能够部署一整套支持大量并发访问的全栈环境,同时学到如何支持大型开发团队的协同工作。 介绍Terraform 0.9版本到0.12版本的升级变化,包括后端、工作区和第一类表达式 学习如何编写产品级的Terraform模块 深入研究如何手动和自动测试Terraform代码 将Terraform与Chef、Puppet、Ansible、CloudFormation和Salt Stack进行比较 部署服务器集群、负载均衡器和数据库 通过Terraform管理基础设施的不同状态 …

audiobook

Sidetracked

by Francesca Gino

Psychologist and Harvard Business School professor Francesca Gino has long studied the factors at play when …