第13章 数据科学
“如果我们有数据,那么就观察数据。如果我们都有自己的思路,那么就按我的思路来。”
——吉姆·巴克斯戴尔(Jim Barksdale),Netscape前CEO
数据科学是一个范围极广的术语,根据不同的上下文、不同的理解和不同的工具等具有几种不同的含义。有无数的书籍是围绕这个主题编写的,心志不够坚强的人是不适合探索这个主题的。
为了在程序中实现适当的数据科学功能,我们至少需要熟悉数学和统计学。然后,我们还可能需要深入挖掘其他主题,如模式识别和机器学习。当然,我们可以从大量的语言和工具中进行选择。
我不会在这里讨论所有的概念。因此,为了让本章的内容更有意义,我们打算围绕一个非常酷的项目展开讨论。
大约是在2012年或2013年,我在伦敦的一家顶级社交媒体公司工作。我在那里得了两年,我有幸与一些履历极为耀眼的人士共事。我们可能是世界上第一批接触到Twitter Ads API的人,我们与Facebook也是伙伴关系。这意味着我们会接触到大量的数据。
我们的分析师的工作就是处理海量的推广活动,他们挣扎于忙不完的工作,因此我所在的开发队伍向他们介绍了Python以及Python用于处理数据的工具,以帮助他们从繁忙的工作中解脱出来。这是一段非常有趣的经历。我在公司中指导了一些人,最终导致我被派往马尼拉,在两个星期的时间内为当地的分析师提供Python和数据科学的高强度训练。
我们在本章中将要完成的项目是我在马尼拉向我的学生所展示的最后一个例子的轻量级版本。我对它进行了改写使之适应本章的篇幅,并出于教学的目的做了一些调整。但是,所有的主要概念依然存在,因此它应该非常有趣,并且很有教学意义。
具体地说,我们将探索下面这些主题。
- Jupyter Notebook。
- Pandas和NumPy:Python中用于数据科学的主要程序库。 ...
Get Python编程入门与实战 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.