面向机器学习的自然语言标注

Book description

创建读者自己的面向机器学习的自然语言训练语料库。无论是以英文、中文,还是以其他任何自然语言为处理对象,这本实践型专著都可以引导读者完成整个标注的开发:向训练语料库中添加元数据信息以帮助机器学习算法更有效地工作。学习本书时不需要读者具备任何编程或语言学经验。

通过各步骤的详细示例,可以学习到MATTER标注开发过程如何帮助读者建模、标注、训练、测试、评价和修改训练语料库。同时,读者还可以亲自实践一个实际的标注项目,了解其完整流程。

  • 在收集数据集(语料库)前确定清晰的标注目标。
  • 学习用于分析语料库语言内容的工具。
  • 为标注项目建立模型和规格说明。
  • 从基本的XML到语言标注框架,考查各种标注格式。
  • 创建可用于训练和测试机器学习算法的黄金标准语料库。
  • 选择用于处理标注数据的机器学习算法。
  • 评价测试结果并修改标注任务。
  • 学习使用轻量级软件来标注文本及审核标注结果。

Table of contents

  1. 封面
  2. 版权页
  3. O'Reilly介绍
  4. 译者序
  5. 目录 (1/2)
  6. 目录 (2/2)
  7. 前言
    1. 面向机器学习的自然语言标注
    2. 读者
    3. 内容安排
    4. 软件需求
    5. 本书约定
    6. 使用代码示例
    7. Safari®图书在线
    8. 联系方式
    9. 致谢
    10. James的致谢
    11. Amber的致谢
  8. 第1章 基础知识
    1. 1.1 语言标注的重要性
      1. 1.1.1 语言学描述的层次
      2. 1.1.2 什么是自然语言处理
    2. 1.2 语料库语言学简史
      1. 1.2.1 什么是语料库
      2. 1.2.2 语料库的早期应用
      3. 1.2.3 当今的语料库
      4. 1.2.4 标注类型 (1/2)
      5. 1.2.4 标注类型 (2/2)
    3. 1.3 语言数据和机器学习
      1. 1.3.1 分类
      2. 1.3.2 聚类
      3. 1.3.3 结构化模式归纳
    4. 1.4 标注开发循环
      1. 1.4.1 现象建模
      2. 1.4.2 按照规格说明进行标注
      3. 1.4.3 在语料库上训练和测试算法
      4. 1.4.4 对结果进行评价
      5. 1.4.5 修改模型和算法
    5. 总结
  9. 第2章 确定目标与选择数据
    1. 2.1 定义目标
      1. 2.1.1 目标陈述
      2. 2.1.2 提炼目标:信息量与正确性
    2. 2.2 背景研究
      1. 2.2.1 语言资源
      2. 2.2.2 机构与会议
      3. 2.2.3 自然语言处理竞赛
    3. 2.3 整合数据集
      1. 2.3.1 理想的语料库:代表性与平衡性
      2. 2.3.2 从因特网上收集数据
      3. 2.3.3 从人群中获取数据
    4. 2.4 语料库的规模
      1. 2.4.1 现有语料库
      2. 2.4.2 语料库内部的分布
    5. 总结
  10. 第3章 语料库分析
    1. 3.1 语料库分析中的基本概率知识
      1. 3.1.1 联合概率分布
      2. 3.1.2 贝叶斯定理
    2. 3.2 计算出现次数
      1. 3.2.1 齐普夫定律(Zip's Law)
    3. 3.2.2 n元语法
    4. 3.3 语言模型
    5. 总结
  11. 第4章 建立模型与规格说明
    1. 4.1 模型和规格说明示例
      1. 4.1.1 电影题材分类
      2. 4.1.2 添加命名实体
      3. 4.1.3 语义角色
    2. 4.2 采用(或不采用)现有模型
      1. 4.2.1 创建模型和规格说明:一般性与特殊性
      2. 4.2.2 使用现有模型和规格说明
      3. 4.2.3 使用没有规格说明的模型
    3. 4.3 各种标准
      1. 4.3.1 ISO标准
      2. 4.3.2 社区驱动型标准
      3. 4.3.3 影响标注的其他标准
    4. 总结
  12. 第5章 选择并应用标注标准
    1. 5.1 元数据标注:文档分类
      1. 5.1.1 单标签标注:电影评论
      2. 5.1.2 多标签标注:电影题材
    2. 5.2 文本范围标注:命名实体
      1. 5.2.1 内嵌式标注
      2. 5.2.2 基于词例的分离式标注
      3. 5.2.3 基于字符位置的分离式标注
    3. 5.3 链接范围标注:语义角色
    4. 5.4 ISO标准和你
    5. 总结
  13. 第6章 标注与审核
    1. 6.1 标注项目的基本结构
    2. 6.2 标注规格说明与标注指南
    3. 6.3 准备修改
    4. 6.4 准备用于标注的数据
      1. 6.4.1 元数据
      2. 6.4.2 数据预处理
      3. 6.4.3 为标注工作分割文件
    5. 6.5 撰写标注指南
      1. 6.5.1 例1:单标签标注——电影评论
      2. 6.5.2 例2:多标签标注——电影题材
      3. 6.5.3 例3:范围标注——命名实体
      4. 6.5.4 例4:链接范围标注——语义角色
    6. 6.6 标注人员
    7. 6.7 选择标注环境
    8. 6.8 评价标注结果
      1. 6.8.1 Cohen的Kappa(κ)算法
      2. 6.8.2 Fleiss的Kappa(κ)算法
      3. 6.8.3 解释Kappa系数
      4. 6.8.4 在其他上下文中计算κ值
    9. 6.9 创建黄金标准(审核)
    10. 总结
  14. 第7章 训练:机器学习
    1. 7.1 何谓学习
    2. 7.2 定义学习任务
    3. 7.3 分类算法
      1. 7.3.1 决策树学习
      2. 7.3.2 朴素贝叶斯学习
      3. 7.3.3 最大熵分类器
      4. 7.3.4 其他需要了解的分类器
    4. 7.4 序列归纳算法
    5. 7.5 聚类和无监督学习
    6. 7.6 半监督学习
    7. 7.7 匹配标注与算法
    8. 总结
  15. 第8章 测试与评价
    1. 8.1 测试算法
    2. 8.2 评价算法
      1. 8.2.1 混淆矩阵
      2. 8.2.2 计算评价得分
      3. 8.2.3 解释评价得分
    3. 8.3 可能影响算法评价的问题
      1. 8.3.1 数据集太小
      2. 8.3.2 算法过于适合开发数据
      3. 8.3.3 标注中的信息过多
    4. 8.4 最后测试得分
    5. 总结
  16. 第9章 修改与报告
    1. 9.1 修改项目
      1. 9.1.1 语料库分布和内容
      2. 9.1.2 模型和规格说明
      3. 9.1.3 标注
      4. 9.1.4 训练和测试
    2. 9.2 报告工作
      1. 9.2.1 关于语料库
      2. 9.2.2 关于模型和规格说明
      3. 9.2.3 关于标注任务和标注人员
      4. 9.2.4 关于ML算法
      5. 9.2.5 关于修改
    3. 总结
  17. 第10章 标注:TimeML
    1. 10.1 TimeML的设计目标
    2. 10.2 相关研究
    3. 10.3 建设语料库
    4. 10.4 模型:初步的标注规格说明
      1. 10.4.1 时间
      2. 10.4.2 信号
      3. 10.4.3 事件
      4. 10.4.4 链接
    5. 10.5 标注:最初的尝试
    6. 10.6 模型:TimeBank中的TimeML标注规格说明
      1. 10.6.1 时间表达式
      2. 10.6.2 事件
      3. 10.6.3 信号
      4. 10.6.4 链接
      5. 10.6.5 可信度
    7. 10.7 标注:TimeBank的产生
    8. 10.8 TimeML成为ISO-TimeML
    9. 10.9 对未来建模:TimeML的发展方向
      1. 10.9.1 叙事容器
      2. 10.9.2 将TimeML扩展到其他领域
      3. 10.9.3 事件结构
    10. 总结
  18. 第11章 自动标注:生成TimeML
    1. 11.1 TARSQI组件
      1. 11.1.1 GUTime:时间标志识别
      2. 11.1.2 EVITA:事件识别及分类
      3. 11.1.3 GUTenLINK
      4. 11.1.4 Slinket
      5. 11.1.5 SputLink
      6. 11.1.6 TARSQI组件中的机器学习
    2. 11.2 TTK的改进
      1. 11.2.1 结构变化
      2. 11.2.2 时间实体识别改进:BTime
      3. 11.2.3 时间关系识别
      4. 11.2.4 时间关系验证
      5. 11.2.5时间关系可视化
    3. 11.3 TimeML竞赛:TempEval-2
      1. 11.3.1 TempEval-2:系统概述
      2. 11.3.2 成果综述
    4. 11.4 TTK的未来
      1. 11.4.1 新的输入格式
      2. 11.4.2 叙事容器/叙事时间
      3. 11.4.3 医学文档
      4. 11.4.4 跨文档分析
    5. 总结
  19. 第12章 后记:标注的未来发展趋势
    1. 12.1 众包标注
      1. 12.1.1 亚马逊土耳其机器人
      2. 12.1.2 有目的的游戏
      3. 12.1.3 用户生成内容
    2. 12.2 处理大数据
      1. 12.2.1 Boosting算法
      2. 12.2.2 主动学习
      3. 12.2.3 半监督学习
    3. 12.3 NLP在线和在云端
      1. 12.3.1 分布式计算
      2. 12.3.2 语言资源共享
      3. 12.3.3 语言应用共享
    4. 结语
  20. 附录A 可利用的语料库与标注规格说明列表 (1/5)
  21. 附录A 可利用的语料库与标注规格说明列表 (2/5)
  22. 附录A 可利用的语料库与标注规格说明列表 (3/5)
  23. 附录A 可利用的语料库与标注规格说明列表 (4/5)
  24. 附录A 可利用的语料库与标注规格说明列表 (5/5)
  25. 附录B 软件资源列表 (1/4)
  26. 附录B 软件资源列表 (2/4)
  27. 附录B 软件资源列表 (3/4)
  28. 附录B 软件资源列表 (4/4)
  29. 附录C MAE用户指南 (1/2)
  30. 附录C MAE用户指南 (2/2)
  31. 附录D MAI用户指南 (1/2)
  32. 附录D MAI用户指南 (2/2)
  33. 附录E 参考文献 (1/3)
  34. 附录E 参考文献 (2/3)
  35. 附录E 参考文献 (3/3)
  36. 作者介绍
  37. 封面介绍

Product information

  • Title: 面向机器学习的自然语言标注
  • Author(s): James Pustejovsky, Amber Stubbs
  • Release date: January 2017
  • Publisher(s): China Machine Press
  • ISBN: None