
74
第
5
章
Android 上使用 ML Kit 的文本
处理应用程序
也许机器学习中最大的两个领域是计算机视觉和自然语言处理。在第 4 章,你了解了一
些常见的计算机视觉场景,其中包含已在 ML Kit 中为你定义的模型。在本章中,你将
探索一些自然语言处理,包括如何从数字墨迹中识别文本、对信息进行智能回复以及从
文本中提取地址等实体。这些都是针对这些特定场景的现成模型。如果你想创建使用其
他自然语言处理模型(例如文本分类)的应用程序,你必须使用 TensorFlow Lite 创建你
自己的模型,然后在移动设备上实现它们。我们将在后面的章节中探讨这一点。
5.1
实体提取
当给定大量文本时,从中提取重要信息可能是一项艰巨的任务。通常遵循特定结构的信
息(例如地址)在一个国家 / 地区可能是可预测的,但在另一个国家 / 地区的工作方式却
大不相同,因此采用基于规则的方法来获取信息可能会导致大量编码。
例如,考虑图 5-1,我向我的朋友 Nizhoni 发送了一条消息,其中包含一些详细信息。作
为人类,我们可以从中提取有价值的信息,例如“明天下午 5 点”,了解这是一个日期
和时间。但是编写代码来做到这一点真的很困难。尝试编写代码来理解不同国家可以以
不同方式构造日期的格式化日期已经够难了
—
5/2 可以是 5 月 2 日或 2 月 5 日,这取
决于你住的地方
—
试图从文本中提取(比如“明天”)就更难了!虽然 ML 可能不是一
个完美的解决方案,但它确实有助于减少你需要为常见场景编写的代码量。
正如你在文本下方看到的 ...