Kapitel 8. Fallstudie: Mining von NASA-Metadaten
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Es gibt über 32.000 Datensätze, die von derNASA gehostet und/oder gepflegt werden; diese Datensätze decken Themen von der Geowissenschaft über die Luft- und Raumfahrttechnik bis hin zum Management der NASA selbst ab. Wir können die Metadaten für diese Datensätze nutzen, um die Verbindungen zwischen ihnen zu verstehen.
Hinweis
Was sind Metadaten? Metadaten sind ein Begriff, der sich auf Daten bezieht, die Informationen über andere Daten liefern. In diesem Fall informieren die Metadaten die Nutzer darüber, was in diesen zahlreichen NASA-Datensätzen enthalten ist, aber sie beinhalten nicht den Inhalt der Datensätze selbst.
Die Metadaten enthalten Informationen wie den Titel des Datensatzes, ein Beschreibungsfeld, welche Organisation(en) innerhalb der NASA für den Datensatz verantwortlich ist/sind, Schlüsselwörter für den Datensatz, die von einem Menschen vergeben wurden, und so weiter. Die NASA legt großen Wert darauf, ihre Daten offen und zugänglich zu machen, und verlangt sogar, dass alle von der NASA finanzierten Forschungsarbeitenonline offen zugänglich sind. Die Metadaten für alle ihre Datensätze sindonline im JSON-Format öffentlich zugänglich.
In diesem Kapitel werden wir die NASA-Metadaten als Textdatensatz behandeln und zeigen, wie wir verschiedene Ansätze für aufgeräumte Texte mit diesem realen ...
Get Text Mining mit R now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.