第13章 案例

本章是全书的最后一章。我们将通过几个案例,增强你对数据科学的理解。

这个案例非常有意思。我们将尝试根据社交媒体情绪,预测上市公司的股票价格。我们不会使用复杂的统计学和机器学习算法。相反,我们会利用探索性数据分析(EDA/exploratory data analysis)和可视化方法,达到预测股价的目的。

当我们说“情感(sentiment)”时,你需要知道它意味着什么。“情感”是一个介于−1~1的量化指标。如果文本情感得分接近−1,说明该文本为负面。如果文本情感得分接近1,说明该文本为正面。如果文本情感得分接近0,说明该文本为中性。我们将使用Python中的Textblob模块计算文本情感得分。

from textblob import TextBlob
import pandas as pd
%matplotlib inline
# use the textblob module to make a function called stringToSentiment
that returns a sentences sentiment
def stringToSentiment(text):
  return TextBlob(text).sentiment.polarity

下面,我们通过stringToSentiment函数调用Textblob模块为文本打分:

stringToSentiment('i hate you')
-0.8

stringToSentiment('i love you')
0.5

stringToSentiment('i see you')
0.0

接着,我们读取本案例需要使用的推文,如图13.1所示。 ...

Get 数据科学原理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.