Skip to Content
Python数据处理
book

Python数据处理

by Jacqueline Kazil, Katharine Jarmul
July 2017
Intermediate to advanced
398 pages
11h 54m
Chinese
Posts & Telecom Press
Content preview from Python数据处理
110
6
Broad
研究所开放数据
人类连接组项目(神经通路映射)
UNC
精神病基因组协会
社会科学数据集
CDC
医学数据
6.4.7
 众包数据和
API
如果你的想法或问题更适合众包,则可以利用互联网及大量的论坛、服务和社交媒体来创
建自己的问题,并用数据挖掘方法找到这些问题的答案。像
Twitter
Instagram
这样的服
务拥有数亿用户,上面还有好用的应用编程接口(
API
)。
API
是一些协议或工具,允许用
软件或代码与另一个系统交互。在我们的例子中,我们使用的一般是基于网络的
API
,可
以发送网络请求并从服务中获取数据。一般来说,不到一个小时的设置,
API
访问就可以
获取数百万条数据记录。
在第
13
章我们会更深入地介绍
API
,现在,我们在表
6-1
中对比了使用
API
的一些基本优
点和缺点。
6-1:使用API
优点 缺点
即时访问可用的数据 大量
API
系统不可靠(选择性偏差)
数据量很大 数据过载
你不必担心存储问题,你可从服务的存储中访问数据 可靠性问题,依赖于
API
访问限制或停机时间
可以看到,
API
的优点和缺点各占一半。如果找到一个你想用的
API
,你可以制定一些规
则,规定如何使用
API
,以及
API
无法访问时应该怎么做(你可能希望把响应内容保存在
本地,避免遇到停机问题)。长时间对响应内容进行采集,也可以消除研究中的一些选择
性偏差。
除了社交网络服务之外,还有许多网站可以发布你的问题和想法,以寻求众包回答。选择
与话题相关的专家论坛,还是自己发布调查并利用自己的频道传播,这由你自己决定 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

数据科学中的实用统计学(第2版)

数据科学中的实用统计学(第2版)

Peter Bruce, Andrew Bruce, Peter Gedeck
Java持续交付

Java持续交付

Daniel Bryant, Abraham Marín-Pérez
解密金融数据

解密金融数据

Justin Pauley

Publisher Resources

ISBN: 9787115459190