Kapitel 9. Fallstudie: Analyse von Usenet-Text
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In unserem letzten Kapitel werden wir das, was wir in diesem Buch gelernt haben, nutzen, um einen Satz von 20.000 Nachrichten, die 1993 an 20 Usenet-Bulletin-Boards gesendet wurden, von Anfang bis Ende zu analysieren. Die Usenet-Bulletin-Boards in diesem Datensatz enthalten Newsgroups zu Themen wie Politik, Religion, Autos, Sport und Kryptografie und bieten eine Fülle von Texten, die von vielen Nutzern geschrieben wurden. Dieser Datensatz ist öffentlich zugänglich unterhttp://qwone.com/~jason/20Newsgroups/ (die Datei 20news-bydate.tar.gz ) und ist für Übungen zur Textanalyse und zum maschinellen Lernen sehr beliebt geworden.
Vorverarbeitung
Wir beginnen damit, alle Nachrichten aus dem Ordner 20news-bydateeinzulesen, die in Unterordnern mit jeweils einer Datei pro Nachricht organisiert sind. Solche Dateien können wir mit einer Kombination ausread_lines()
, map()
und unnest()
einlesen.
Warnung
Beachte, dass dieser Schritt einige Minuten dauern kann, um alle Dokumente zu lesen.
library
(
dplyr
)
library
(
tidyr
)
library
(
purrr
)
library
(
readr
)
training_folder
<-
"data/20news-bydate/20news-bydate-train/"
# Define a function to read all files from a folder into a data frame
read_folder
<-
function
(
infolder
)
{
data_frame
(
file
=
dir
(
infolder
,
full.names
=
TRUE
))
%>%
mutate
(
text
=
map
(
file
,
read_lines
))
%>%
transmute ...
Get Text Mining mit R now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.