第3章 形态学:在实践中学习
形态学可以定义为使用语素对单词的构成进行研究,语素是具有意义的最小语言单位。本章中,我们将会介绍词干提取和词形还原,以及有关非英文语言的词干提取器和词形还原器,使用机器学习工具开发形态分析器和形态生成器,还会介绍搜索引擎及其他诸如此类的概念。
简而言之,本章将包含以下主题:
- 形态学简介。
- 理解词干提取器。
- 理解词形还原。
- 为非英文语言开发词干提取器。
- 形态分析器。
- 形态生成器。
- 搜索引擎。
3.1 形态学简介
形态学可以定义为在语素的帮助下对标识符的构成进行研究。语素是承载意义的基本语言单位。语素有两种类型:词根和词缀(后缀、前缀、中缀和环缀)。
词根也被称作自由语素,因为它们甚至可以在不添加词缀的情况下而存在。词缀被称作粘着语素,因为它们不能以自由的形式而存在,总是与自由语素共存。考虑单词unbelievable
,在这里,believe
是词根或者叫自由语素,它可以独立地存在。语素un
和able
是词缀或者叫粘着语素,它们不能以自由的形式而存在,但是可以与词根共存。语言可分为三类,即孤立语(isolating languages)、粘着语(agglutinative languages)和屈折语(inflecting languages)。形态学在这些语言中有着不同的含义。在孤立语中,单词仅由自由语素构成并且它们不具备任何时态(过去,现在和将来)和数(单数或复数)的信息,其中汉语是孤立语的一个例子。在粘着语中,是将短词结合在一起以传达复合的信息,其中土耳其语是粘着语的一个例子。在屈折语中,单词被分解成更简单的语言单位,但是所有这些语言单位表达了不同的含义,其中拉丁语是屈折语的一个例子。形态学过程包括以下几种类型:屈折、派生、半词缀、组合形式和复缀化。屈折意味着将单词转换为某种形式,以便它可以代表人称、数、时态、性别、所有格、语态和语气,这里,单词的句法类型保持不变。在派生词中,单词的句法类型也被改变了。半词缀是呈现单词的粘着语素,例如quality、noteworthy、antisocial、anticlockwise等词。 ...
Get 精通Python自然语言处理 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.