第8章 社交网络分析(Python)
这一章包含以下主要内容。
- 准备用Python进行社交网络的分析工作
- 导入网络
- 探索英雄网络的子图
- 找出强关联
- 找出关键人物
- 调查全网的特征
- 社交网络中的聚类和发现社群
- 可视化图
简介
归功于像Facebook和Twitter这样的社交网站,社交网络已经成为现代生活必不可少的一部分。但社交网络本身并不是全新的。关于社交网络的研究早在20世纪初期就开始了,特别是在社会学和人类学领域。它们在主流应用中的流行使得这类研究开始进入数据科学的范畴。
结果显示社交网络作为人类行为的模型非常有趣。人类文明源自部族社会,顿巴数——假设任意时刻我们扩展的社交网络中只有150个人——已经通过对绝大多数活跃网络的分析被证实。潜在的社交网络无处不在,而不仅仅存在于流行的Web 2.0应用中。我们通过接入各种网络的连接管理我们的生活。正因如此,我们产生了大量丰富的能被用于预测我们自己和社会关系的数据。
网络,就像本章讨论的一些例子一样,采取一种关系为中心的世界观。通过利用人与人间关系的现有的数据结构(社交网络),我们可以用聚类的技术对更大型网络进行分析来发现社群,洞察图中重要成员的作用,甚至通过关系推断来进行行为预测。这些分析有一系列实际应用,如执法、选举预测、推荐和应用优化。
这些分析的数学基础源自图论。因此,本章中的分析技术将会集中在图的基数、遍历和聚类。为了介绍这些技术,我们会用到一个出色的Python库——NetworkX。我们会在网络的各个层面进行一些分析,比如在个体层面的成对比较、在分组层面的社群发现以及网络层面的凝聚力分析。最后,我们会使用不同工具进行网络可视化。
理解图和网络
本章分析的基础源于图论——对于图的应用和性质的数学研究(图论最初受赌博概率的研究的启发)。一般来讲,这包括网络编码和图的测量属性。图论起源于1735年欧拉对于七桥问题的研究工作。然而,最近几十年以来,社交网络的兴起,特别是计算机科学图形数据结构和数据库的发展深刻地影响了这个学科。 ...
Get 数据科学实战手册 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.