book

数据科学实战手册

Name: 数据科学实战手册
ISBN: 9781836206774

by Posts & Telecom Press, Tony Ojeda, Sean Patrick Murphy, Bengfort Benjamin

May 2024

Intermediate to advanced

357 pages

5h 3m

Chinese

Packt Publishing

Read now

Unlock full access

版权信息
版权声明
内容提要
关于作者
关于译者和中文版审稿人
关于英文版审稿人
前言
本书内容阅读本书，你需要什么本书面向读者读者反馈用户支持下载示例代码下载彩色图片勘误版权问题问答
第1章准备你的数据科学环境
简介理解数据科学管道处理流程工作原理在Windows、Mac OS X、Linux上安装R准备工作处理流程工作原理参考资料在R和RStudio中安装扩展包准备工作处理流程工作原理更多内容参考资料在Linux和Mac OS X上安装Python准备工作处理流程工作原理更多内容参考资料在Windows上安装Python处理流程工作原理参考资料在Mac OS X和Linux上安装Python数据分析库准备工作处理流程工作原理更多内容参考资料安装更多Python包准备工作处理流程工作原理更多内容参考资料安装和使用virtualenv准备工作处理流程工作原理更多内容参考资料
第2章汽车数据的可视化分析（R）
简介获取汽车燃料效率数据准备工作处理流程工作原理为了你的第一个项目准备好R准备工作处理流程工作原理参考资料将汽车燃料效率数据导入R准备工作处理流程工作原理更多内容参考资料探索和描述燃料效率数据准备工作处理流程工作原理更多内容进一步分析汽车燃料效率数据准备工作处理流程工作原理参考资料研究汽车的产量以及车型准备工作处理流程工作原理更多内容参考资料
第3章模拟美式橄榄球比赛数据（R）
简介准备工作获取和清洗美式橄榄球比赛数据准备工作处理流程工作原理参考资料分析和理解美式橄榄球比赛数据准备工作处理流程工作原理更多内容参考资料构建度量攻防能力的指标准备工作处理流程工作原理参考资料模拟单场由程序决定胜负的比赛准备工作处理流程工作原理模拟多场由计算决定胜负的比赛准备工作处理流程工作原理更多内容

第4章建模分析股票市场数据（R）
简介准备工作获取股票市场数据处理流程描述数据准备工作工作原理更多内容清洗和研究数据准备工作处理流程工作原理参考资料形成相对估值法准备工作处理流程工作原理分析历史价格筛选股票准备工作处理流程工作原理
第5章就业数据的可视化探索（R）
简介分析前的准备准备工作处理流程工作原理参考资料将就业数据导入R准备工作处理流程工作原理更多内容参考资料就业数据探究准备条件处理流程工作原理参考资料获取和合并添加附加信息准备工作处理流程工作原理添加地理信息准备工作处理流程工作原理参考资料获取州和县级水平的薪资和就业信息准备工作处理流程工作原理参考资料可视化薪资的地理分布特性准备工作处理流程工作原理参考资料探究各行业工作的地理分布情况处理流程工作原理更多内容参考资料绘制地理空间的时间序列地图准备工作处理流程工作原理更多内容函数性能测试和比较准备工作处理流程工作原理更多内容参考资料
第6章运用税务数据进行应用导向的数据分析（Python）
简介应用导向方法简介准备高收入数据集的分析准备工作处理流程工作原理导入并熟悉世界各国高收入数据集准备工作处理流程工作原理更多内容参考资料分析并可视化美国的高收入数据集准备工作处理流程工作原理进一步分析美国的高收入阶层准备工作处理流程工作原理用Jinja2汇报结果准备工作处理流程工作原理更多内容参考资料
第7章运用汽车数据进行可视化分析（Python）
简介IPython入门准备工作处理流程工作原理参考资料熟悉IPython Notebook准备工作处理流程工作原理更多内容参考资料准备分析汽车油耗准备工作处理流程工作原理更多内容参考资料用Python熟悉并描述汽车油耗数据准备工作处理流程工作原理更多内容参考资料用Python分析汽车油耗随时间变化趋势准备工作处理流程工作原理更多内容参考资料用Python调查汽车的制造商和型号准备工作处理流程工作原理参考资料
第8章社交网络分析（Python）
简介理解图和网络准备用Python进行社交网络的分析工作准备工作处理流程工作原理更多内容导入网络准备工作处理流程工作原理探索英雄网络的子图准备工作处理流程工作原理更多内容找出强关联准备工作处理流程工作原理更多内容找出关键人物准备工作处理流程工作原理更多内容调查全网的特征准备工作处理流程工作原理社交网络中的聚类和发现社群准备工作处理流程工作原理更多内容可视化图准备工作处理流程工作原理
第9章大规模电影推荐（Python）
简介对偏好建模处理流程工作原理理解数据准备工作处理流程工作原理更多内容加载电影评分数据准备工作处理流程工作原理寻找高评分电影准备工作处理流程工作原理更多内容参考资料提升电影评分系统准备工作处理流程工作原理更多内容参考资料计算用户在偏好空间中的距离准备工作处理流程工作原理更多内容参考资料计算用户相关性准备工作处理流程工作原理更多内容为特定用户寻找最好的影评人准备工作处理流程工作原理预测用户评分准备工作处理流程工作原理基于物品的协同过滤准备工作处理流程工作原理建立非负矩阵分解模型处理流程工作原理参考资料将数据集载入内存准备工作处理流程工作原理更多内容导出SVD模型至硬盘处理流程工作原理训练SVD模型处理流程工作原理更多内容测试SVD模型处理流程工作原理更多内容
第10章获取和定位Twitter数据（Python）
简介创建Twitter应用准备工作处理流程工作原理参考资料了解Twitter API v1.1准备工作处理流程工作原理更多内容参考资料获取粉丝和朋友信息准备工作处理流程工作原理更多内容参考资料提取Twitter用户档案准备工作处理流程工作原理更多内容参考资料避免Twitter速度限制准备工作处理流程工作原理存储JSON数据至硬盘准备工作处理流程工作原理安装MongoDB准备工作处理流程工作原理更多内容参考资料利用PyMongo将用户信息存入MongoDB准备工作处理流程工作原理探索用户地理信息准备工作处理流程工作原理更多内容参考资料利用Python绘制地理分布图准备工作处理流程工作原理更多内容参考资料
第11章利用NumPy和SciPy优化数值计算（Python）
简介了解优化的步骤处理流程工作原理更多内容识别代码中常见性能瓶颈处理流程工作原理通读代码准备工作处理流程工作原理参考资料利用Unix time函数剖析Python代码准备工作处理流程工作原理参考资料利用Python内建函数剖析Python代码准备工作处理流程工作原理参考资料利用IPython %timeit函数剖析Python代码处理流程工作原理利用line_profiler剖析Python代码准备工作处理流程工作原理更多内容参考资料摘取低处的（经过优化的）果实准备工作处理流程工作原理测试NumPy带来的性能提升准备工作处理流程工作原理更多内容参考资料用NumPy重写函数准备工作处理流程工作原理用NumPy优化最内层循环准备工作处理流程工作原理更多内容
欢迎来到异步社区！
异步社区的来历社区里都有什么？购买图书下载资源与作译者互动灵活优惠的购书纸电图书组合购买社区里还可以做什么？提交勘误写作会议活动早知道加入异步

Content preview from 数据科学实战手册

第9章　大规模电影推荐（Python）

本章介绍如下内容。

对偏好建模
理解数据
加载电影评分数据
寻找高评分电影
提升电影评分系统
计算用户在偏好空间中的距离
计算用户相关性
为特定用户寻找最好的影评人
预测用户评分
基于物品的协同过滤
建立非负矩阵分解模型
将数据集载入内存
导出SVD模型至硬盘
训练SVD模型
测试SVD模型

简介

从图书到电影再到Twitter上的关注，推荐系统把我们从洪水般泛滥的信息中解放出来，为我们定制了个性化的信息流。电子商务、网络以及社交应用都从推荐系统中获益颇多。鉴于亚马逊推荐系统以及Netfix Prize所带来的成功，没有人会对在个性化以及基于数据的预测中需要一个推荐系统而感到惊奇。令人们感到惊奇的是，推荐系统的实现是如此简单，但是在数据量稀疏时很容易产生怪异的结果和过拟合。

首先让我们想一下不用算法该如何提供推荐。最简单的方法是看一下所信赖的人有哪些偏好，从中得到我们的推荐。潜意识中我们会将自己的偏好与他人做对比，如果彼此之间已有的共同偏好越多，那么彼此之间就越有可能发现更多新的共同偏好。但是每个人都是独特的，我们的偏好也是各种各样的，并且可能分布在多个不同的领域。如果能够将所信赖人之外的其他大量人的偏好和我们的偏好做比较，又会怎样呢？汇总的结果是你可能会发现一些模式，不只是发现那些和你相似的人，还会发现那些和你相反的不相似的人。你能从这些人中找到那些最好不要被推荐的物品，还有可能从那些拥有共同偏好空间的人身上发现你们有着共同的特殊经历。

协同过滤是这一类推荐系统技术的基础。简单来说，它是基于这样一个假设：那些和你有共同偏好的人将来也会和你拥有共同的偏好。这是从人的角度来看。从这个假设出发的另一个推论是基于物品的角度——那些被同一个人所喜爱的物品和有可能同时出现在另一个人喜爱的物品中。这就是在文献中通常所说的基于人的协同过滤以及基于物品的协同过滤。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781836206774

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

数据科学实战手册

by Posts & Telecom Press, Tony Ojeda, Sean Patrick Murphy, Bengfort Benjamin

第9章　大规模电影推荐（Python）

简介

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.