book

Datenwissenschaft an der Kommandozeile, 2.

Name: Datenwissenschaft an der Kommandozeile, 2.
Author: Jeroen Janssens
ISBN: 9798341607576

by Jeroen Janssens

October 2024

Intermediate to advanced

282 pages

6h 41m

German

O'Reilly Media, Inc.

Read now

Unlock full access

Vorwort
Vorwort
Was du von diesem Buch erwarten kannstÄnderungen für die zweite AuflageWie man dieses Buch liestFür wen dieses Buch istIn diesem Buch verwendete KonventionenO'Reilly Online LearningWie du uns kontaktierstDanksagungen für die zweite Ausgabe (2021)Danksagungen für die erste Ausgabe (2014)
1. Einführung
Datenwissenschaft ist OSEMNBeschaffung von DatenDaten schrubbenDaten erforschenDaten modellierenDaten interpretierenIntermezzo-KapitelWas ist die Kommandozeile?Warum Data Science an der Kommandozeile?Die Kommandozeile ist agilDie Kommandozeile wird immer umfangreicherDie Kommandozeile ist skalierbarDie Kommandozeile ist erweiterbarDie Kommandozeile ist allgegenwärtigZusammenfassungFür weitere Erkundungen
2. Erste Schritte
Die Daten erhaltenInstallieren des Docker-ImagesGrundlegende Unix-KonzepteDie UmweltAusführen eines BefehlszeilentoolsFünf Arten von Kommandozeilen-ToolsKombinieren von Befehlszeilen-ToolsUmleitung von Input und OutputArbeiten mit Dateien und VerzeichnissenOutput verwaltenHilfe!ZusammenfassungFür weitere Erkundungen
3. Beschaffung von Daten
ÜbersichtKopieren lokaler Dateien in den Docker ContainerHerunterladen aus dem InternetEinführung der LockeSparenAndere ProtokolleFolgende UmleitungenDateien dekomprimierenMicrosoft Excel-Kalkulationstabellen in CSV konvertierenRelationale Datenbanken abfragenAufrufen von Web APIsAuthentifizierungStreaming-APIsZusammenfassungFür weitere Erkundungen
4. Erstellen von Kommandozeilen-Tools
ÜbersichtUmwandlung von Einzeilern in Shell-SkripteSchritt 1: Eine Datei erstellenSchritt 2: Erlaubnis zum Ausführen erteilenSchritt 3: Definiere ein ShebangSchritt 4: Entfernen Sie den festen EingangSchritt 5: Argumente hinzufügenSchritt 6: Erweitere deinen PATHErstellen von Kommandozeilen-Tools mit Python und RPortierung des Shell-SkriptsVerarbeitung von Streaming-Daten aus der StandardeingabeZusammenfassungFür weitere Erkundungen
5. Daten schrubben
ÜbersichtVerwandlungen, Verwandlungen überallKlartextLinien filternWerte extrahierenErsetzen und Löschen von WertenCSVKörper und Überschriften und Spalten, oh je!Ausführen von SQL-Abfragen auf CSVSpalten extrahieren und neu anordnenZeilen filternSpalten zusammenführenKombinieren mehrerer CSV-DateienArbeiten mit XML/HTML und JSONZusammenfassungFür weitere Erkundungen
6. Projektmanagement mit Make
ÜbersichtWir stellen vor: MakeLaufende AufgabenBauen, für RealHinzufügen von AbhängigkeitenZusammenfassungFür weitere Erkundungen
7. Daten erforschen
ÜbersichtPrüfen von Daten und ihren EigenschaftenKopf oder nicht, hier komme ichPrüfe alle DatenNamen und Datentypen von MerkmalenEindeutige Bezeichner, kontinuierliche Variablen und FaktorenBerechnung der deskriptiven StatistikSäulenstatistikR Einzeiler auf der ShellVisualisierungen erstellenBilder über die Kommandozeile anzeigenPlotten im EiltempoBalkendiagramme erstellenHistogramme erstellenErstellen von Density PlotsGlückliche kleine UnfälleStreudiagramme erstellenTrendlinien erstellenBox Plots erstellenHinzufügen von EtikettenMehr als nur einfache GrundstückeZusammenfassungFür weitere Erkundungen
8. Parallele Pipelines
ÜbersichtSerielle VerarbeitungSchleifen über ZahlenSchleifen über LinienDateien überschleifenParallele VerarbeitungEinführung in GNU ParallelEingabe festlegenKontrolle der Anzahl der gleichzeitigen AufträgeProtokollierung und AusgabeParallele Werkzeuge erstellenVerteilte VerarbeitungListe der laufenden AWS EC2-Instanzen abrufenBefehle auf entfernten Rechnern ausführenLokale Daten auf entfernte Rechner verteilenDateien auf entfernten Rechnern verarbeitenZusammenfassungFür weitere Erkundungen

9. Daten modellieren
ÜbersichtMehr Wein, bitte!Dimensionalitätsreduktion mit TapkeeWir stellen vor: TapkeeLineare und nichtlineare ZuordnungenRegression mit Vowpal WabbitAufbereitung der DatenDas Modell trainierenDas Modell testenKlassifizierung mit SciKit-Learn LaboratoryAufbereitung der DatenDurchführung des ExperimentsAnalysieren der ErgebnisseZusammenfassungFür weitere Erkundungen
10. Polyglotte Datenwissenschaft
ÜbersichtJupyterPythonRRStudioApache SparkZusammenfassungFür weitere Erkundungen
11. Fazit
Rekapitulieren wirDrei RatschlägeSei geduldigKreativ seinSei praktischWie geht es weiter?Die KommandozeileShell-ProgrammierungPython, R und SQLAPIsMaschinelles LernenKontaktaufnahme
A. Liste der Kommandozeilen-Tools
aliasawkawsbashFledermausbcKörperKatzecdchmodcolsSpaltecowsaycpcsv2vwcsvcutcsvgrepcsvjoincsvlookcsvquotecsvsortcsvsqlcsvstackcsvstatlockenschneidenanzeigendseqechoenvexportierenfcfinden.faltenfürfxgitgrepgronKopfKopfzeileGeschichteHostnamein2csvjqjson2csvlwenigerlsmachen.MannmkdirmvnanonlparalleleinfügenpbcpipWelpepwdpythonRrevrmEileBeispielscpsedseqservewdshufskllsortierensplitSchwammsql2csvsshsudoSchwanztapkeetarteetelnettldrtrBaumtrimmentsTypuniqAuspackenunrarentpackenvwwcdiexml2jsonxmlstarletxsvzcatzsh
Index

Content preview from Datenwissenschaft an der Kommandozeile, 2.

Kapitel 2. Erste Schritte

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel stelle ich sicher, dass du alle Voraussetzungen erfüllst, um Data Science auf der Kommandozeile zu betreiben. Es gibt drei Voraussetzungen: (1) die gleichen Datensätze, die ich in diesem Buch verwende, (2) eine geeignete Umgebung mit allen Kommandozeilen-Tools, die ich in diesem Buch verwende, und (3) das Verständnis der wesentlichen Konzepte, die bei der Verwendung der Kommandozeile ins Spiel kommen.

Zuerst beschreibe ich, wie man die Datensätze herunterlädt. Dann erkläre ich, wie man das Docker-Image installiert, eine virtuelle Umgebung auf Basis von Ubuntu Linux, die alle notwendigen Kommandozeilen-Tools enthält. Schließlich gehe ich anhand von Beispielen auf die wichtigsten Unix-Konzepte ein.

Am Ende dieses Kapitels hast du alles, was du brauchst, um mit dem ersten Schritt der Datenwissenschaft fortzufahren, nämlich Daten zu beschaffen.

Die Daten erhalten

Die Datensätze, die ich in diesem Buch verwende, können wie folgt bezogen werden: :

Lade die ZIP-Datei von der Website des Buches herunter.
Erstelle ein neues Verzeichnis. Du kannst diesem Verzeichnis einen beliebigen Namen geben, aber ich empfehle dir, dich an Kleinbuchstaben, Zahlen und vielleicht einen Bindestrich oder einen Unterstrich zu halten, damit der Name in der Befehlszeile leichter zu handhaben ist - zum Beispiel dsatcl2. Erinnere ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341607576

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Datenwissenschaft an der Kommandozeile, 2.

by Jeroen Janssens

Kapitel 2. Erste Schritte

Die Daten erhalten

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.