Kapitel 7. Fallstudie: Twitter-Archive im Vergleich

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Eine Textart, die viel Aufmerksamkeit erhält, ist der Text, der online über Twitter geteilt wird. Tatsächlich wurden mehrere der in diesem Buch verwendeten Sentiment-Lexika (und allgemein verwendete Lexika) für die Verwendung mit Tweets entwickelt und validiert. Beide Autoren dieses Buches sind auf Twitter und nutzen es ziemlich regelmäßig. In dieser Fallstudie vergleichen wir daher die gesamten Twitter-Archive von Julia undDavid.

Datenbeschaffung und Verteilung von Tweets

Jeder kann sein eigenes Twitter-Archiv herunterladen, indem er denAnweisungen auf der Twitter-Website folgt. Wir haben unsere Archive heruntergeladen und werden sie nun öffnen. Mit dem Paket lubridate wandeln wir die Zeitstempel der Strings in Datum-Zeit-Objekte um und sehen uns zunächst unsere Tweet-Muster insgesamt an(Abbildung 7-1).

library(lubridate)
library(ggplot2)
library(dplyr)
library(readr)

tweets_julia <- read_csv("data/tweets_julia.csv")
tweets_dave <- read_csv("data/tweets_dave.csv")
tweets <- bind_rows(tweets_julia %>%
                      mutate(person = "Julia"),
                    tweets_dave %>%
                      mutate(person = "David")) %>%
  mutate(timestamp = ymd_hms(timestamp))

ggplot(tweets, aes(x = timestamp, fill = person)) +
  geom_histogram(position = "identity", bins = 20, show.legend = FALSE) +
  facet_wrap(~person, ncol = 1)
Abbildung 7-1. Alle Tweets von ...

Get Text Mining mit R now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.