第9章 机器学习实战
本章主要内容
- 拟合数据
- 模式识别
- 聚类分析
我们在第1章中谈到,最基础的机器学习算法是通过人工标注的样本进行学习的。例如,对于分类问题,研究人员在数据集中已经就每个样本属于哪个类别标注了分类标签,机器学习算法通过学习这些样本,从中拟合出相应的分类边界,即识别出每种类型的模式。这与最直观的人类学习方法是相同的,粗略地讲,人们也是通过不断重复学习样例来从中总结归纳经验知识的。
在前面的8章中,我们研究了多种机器学习算法,现在是时候将它们应用到实际数据集上了。最后一章作为本书的总结,我们会以非常简炼的语言带领大家应用目前学习到的多种机器学习技术,并展示如何使用回归、分类、聚类等算法解决实际问题。我们将把之前学到的诸多概念应用于实际当中。当需要强化、回忆这些概念时,我们会作简要回顾。我们将试图尽可能多地采取各种方法,对真实数据集进行最大程度的学习。
在本章中,我们将解决真实世界中的问题,引导读者学习如何使用人工神经网络解决分类问题,并在最后进行聚类分析。通过这种方式,我们能够同时回顾之前学习过的监督学习方法和非监督学习方法。
在本章结尾,我们将理解如何针对一系列问题的具体情景和数据集的具体特征,选用合适的拟合、模式识别和聚类分析算法,将会学习如何为MATLAB的机器学习工具箱进行数据预处理。我们将看到在MATLAB中提供了哪些拟合、模式识别和聚类分析工具,以及如何使用这些工具完成数据预处理、模型建立、模型拟合、模型评估、结果可视化和提高算法的计算效率。
9.1 用于预测混凝土质量的数据拟合
在土木工程中,混凝土是构筑建筑物最基本的材料。混凝土可承受的强度与其寿命、制造所使用的材料、测试时的温度等因素息息相关。混凝土的制造过程十分复杂,涉及水泥、熔炉产出的煤渣和灰烬、水、强度塑化剂、粗聚合剂、细聚合剂等多种化工原料。我们用一个压力达2000kN的液压测试机采集混凝土承重能力的指标,对混凝土方块或圆柱体进行压力测试。这个测试是破坏性的,并且可能会持续很长时间,因此如果我们能够脱离实际测试,直接使用制作原料对其承重能力进行预测,则将具备非常高的商业价值。图9.1显示了一次承重能力测试。 ...
Get MATLAB机器学习 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.