第3章 词语形态学——试一试
我们将词语形态学定义为使用词素(morpheme)研究单词组合。词素是具有意义的最小语言单位。本章将讨论词根还原和词形还原,非英语语言的词根还原器和词形还原器,使用机器学习工具、搜索引擎和许多此类的概念,开发词语形态分析器和词语形态生成器。
简而言之,本章包括以下主题。
- 词语形态学。
- 词根还原器。
- 词形还原。
- 开发用于非英语语言的词根还原器。
- 词语形态分析器。
- 词语形态生成器。
- 搜索引擎。
3.1 词语形态学
我们将词语形态学定义为,在词素的帮助下,研究标记的生成。词素是承载意义的语言基本单位。有两种类型的词素:词根和词缀(后缀、前缀、中缀和环缀)。
由于词根可以在不添加词缀的情况下存在,因此词根也称为自由语素。由于词缀不能以自由形式存在,它们总是与自由语素一起存在,因此词缀也称为黏着语素。思考单词unbelievable。此处,believe是词根或自由语素,可以单独存在。词素un和able是词缀或黏着语素。虽然它们不能以自由形式存在,但是它们可以与词根一起存在。
有三种类型的语言,即孤立语、黏着语和屈折语。在所有这些语言中,词语形态学有不同的含义。孤立语是只有自由语素的那些语言,这些自由语素不携带任何时态(过去时,现在时和未来时)和数量(单数或复数)的信息。中文普通话是孤立语的一个示例。黏着语是将小单词结合在了一起,传达复合信息的那些语言。土耳其语是黏着语的一个示例。屈折语是将单词分解成较简单的单位的语言,但是所有较简单的单位表现出了不同的含义。拉丁语就是屈折语的一个示例。
形态变化的处理有以下几种:变形、派生、类词缀、组合形式和附缀化。变形指的是将单词转化为某种形式,这样它就可以表示人称、数量、时态、性别、名词所有格、动词的体和情绪。
Get Python和NLTK实现自然语言处理 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.