第1章 无监督学习入门
在本章中,我们将介绍基本的机器学习概念,并假设你已经具备统计学和概率论的一些基础知识。你将从本章了解机器学习的用途,并增强关于数据集本质和属性知识的逻辑过程。整个过程旨在构建可以支持业务决策的描述性以及预测性模型。
无监督学习的目的是为数据探索、挖掘和生成提供工具。在本书中,你将通过具体的示例和分析探索不同的场景,并且学习应用基本的以及更复杂的算法来解决特定问题。
在这个导论性的章节中,我们将讨论以下内容。
- 为什么我们需要机器学习?
- 描述性、诊断性、预测性和规范性分析。
- 机器学习的类型。
- 我们为什么要使用Python?
1.1 技术要求
本章中的代码需求如下。
- Python 3.5+(强烈推荐Anaconda发行版)。
- 库。
- SciPy 0.19+。
- NumPy 1.10+。
- scikit-learn 0.19+。
- pandas 0.22+。
- Matplotlib 2.0+。
- seaborn 0.9+。
示例代码可在本书配套的代码包中找到。
1.2 为什么需要机器学习
数据无处不在。此时此刻,成千上万的系统正在收集构成特定服务的历史记录、日志、用户交互数据,以及许多其他相关元素。仅在几十年前,大多数公司甚至无法有效地管理 1%的数据。出于这个原因,数据库会被定期清理,只有重要数据才能永久存储在服务器中。
而现如今,几乎每家公司都可以利用可扩展的云基础架构来应对不断增长的数据量。Apache Hadoop或Apache Spark等工具允许数据科学家和工程师实现大数据的复杂传输。在这一点上,所有的障碍都被扫除,大众化的进程已经到位。然而,这些大数据集合的真正价值又是什么呢?从商业角度看,信息只有在有助于做出正确决策、减少不确定性并提供更好的情境洞察时才有价值。这意味着,没有合适的工具和知识,一堆数据对于公司来说只会增加成本,需要限制以增加利润。 ...
Get Python无监督学习 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.