第 10 章. 基于 AutoGluon 的计算机 视觉
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
2023 年末 ,我曾与一家大型电商平台合作,该平台在其拥有数百万商品的市场中,正苦于产品分类问题。 店长和商品目录团队耗费了无数时间,手动对新上架的商品进行分类、审核产品图片,并确保元数据的准确性。这一耗时的流程不仅容易出错,而且成本高昂。即便配备了专职人员,他们也只能实时处理约60%的新商品提交,导致商品上架延迟,商家们对此深感沮丧。
该平台以往的做法是,由产品目录专家团队手动审核产品图片和描述,将商品分类到数百个不同的产品类别中,并验证商家提供的信息。这一过程不仅耗时,不同审核人员之间的处理结果也不一致,经常造成瓶颈,导致新产品发布延迟数天甚至数周。
如今,同一家电商平台利用基于 AutoGluon 构建的计算机视觉系统,能够实时自动地对商品列表进行分类和验证。过去需要数小时人工审核的工作,现在只需几秒钟即可完成。 具体而言:该平台的人工目录专家在标准产品分类法上的准确率约为82%,而基于AutoGluon的系统则能稳定保持91%–93%的准确率——在大多数产品类别中已超越人类水平。此外,自动化系统每秒可处理50件商品,而人工平均每分钟仅能处理4件。 这一转变令人瞩目:产品目录团队如今专注于处理边界案例和完善分类体系,而非基础的产品分类工作,从而加速了商户入驻流程并提升了客户体验。
这一转变彰显了现代 AutoML 在计算机视觉任务中的普惠力量。AutoGluon 的 MultiModalPredictor 现已包含全面的“Bag of Tricks”更新,在处理图像、文本和表格数据的组合时,能显著提升多模态 AutoML 的性能。构建复杂的产品分类和推荐系统,不再需要深厚的卷积神经网络、迁移学习或计算机视觉架构专业知识。
在本章中,我们将探讨 AutoGluon 如何让各级从业者都能轻松掌握计算机视觉技术,同时仍能为专家提供所需的功能和灵活性。我们将涵盖图像分类、目标检测,以及将视觉与其他数据类型相结合的多模态应用。读完本章后,您将能够为自己的电子商务和零售应用构建可投入生产的计算机视觉系统。
注
本章中的所有代码示例均已在 AutoGluon 1.4.0 版本上经过测试和验证。如需完整的实现方案、详细输出结果、实验变体以及其他高级技术,请参阅配套的 Jupyter 笔记本Chapter10.ipynb。
了解 AutoGluon 的计算机视觉能力
AutoGluon 的计算机视觉方法 以 MultiModalPredictor 为核心,该组件为各类视觉任务提供统一接口,同时自动处理那些传统上需要专业知识才能解决的复杂技术细节。这种方法标志着计算机视觉工作流的重大演进,其取代了以往需要手动架构设计、大量超参数调优以及精细数据预处理管道的传统流程。
自定义模型与托管服务之间的选择
在深入研究MultiModalPredictor 之前,值得考虑是否可以通过托管计算机视觉服务以更少的开发工作量满足您的需求。Amazon Rekognition 为常见的视觉任务(如物体和场景检测、人脸分析、图像文本提取以及内容审核)提供了预构建功能。对于这些内置功能与您的需求相符的应用场景,Rekognition 完全消除了模型训练的必要,如示例 10-1 所示。
示例 10-1. Amazon Rekognition 用于常见视觉任务
# Amazon Rekognition ...Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access