第7章 社交网络分析(基于Python)
本章包含以下主要内容。
- 用Python进行社交网络分析的准备工作。
- 导入网络。
- 探索英雄网络的子图。
- 找出强关联。
- 找出关键人物。
- 探索全网特征。
- 社交网络中的聚类和社群发现。
- 可视化图。
- R中的社交网络分析。
7.1 简介
归功于Facebook和Twitter这样的社交网站,社交网络已经成为现代生活必不可少的一部分。然而,社交网络并非一个新概念。关于社交网络的研究早在20世纪初期就开始了,特别是在社会学和人类学领域。它们在主流应用中的流行使得这类研究开始进入数据科学的范畴。
结果显示,社交网络作为人类行为的模型非常有趣。人类文明源自部族社会,邓巴数——假设任意时刻我们扩展的社交网络中人数上限为150人——已经被大多数活跃网络分析所证实。潜在的社交网络无处不在,不仅存在于流行的Web 2.0应用中。我们通过连接各种各样的网络管理我们的生活,因此这产生了大量有关联的、丰富的数据,它们可以预测自己和我们的社会关系。
网络,正如本章即将讨论的,采取一种以关系为中心的世界观。利用人与人之间关系(社交网络)的既有数据结构,我们可以用聚类技术对大型网络进行分析从而发现社群,洞察图中重要成员的作用,甚至通过关系推断来预测行为。这些分析在执法、选举预测、推荐和应用优化等领域中都有大量的实际应用。
这些分析的数学基础源自图论。因此,本章中的分析技术将集中在图的基数、遍历和聚类。为了介绍这些技术,我们会用到一个出色的Python库——NetworkX。我们会在网络的不同层面进行一些分析,比如个体层面的成对比较、组群层面的社群发现以及网络层面的凝聚力分析。最后,使用不同工具进行网络可视化,绘制图和子图。
理解图和网络
本章分析的基础源于图论——对于图的应用和性质的数学研究,最初受赌博概率的启发而研究。一般来讲,这涉及网络编码和图的测量属性。图论可以追溯到1735年欧拉对于七桥问题的研究工作。然而,近几十年以来社交网络的兴起,特别是计算机科学图形数据结构和数据库的发展,深刻地影响了这个学科。 ...
Get 数据科学实战手册(R+Python)(第2版) now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.