O'Reilly logo

Stay ahead with the world's most comprehensive technology and business learning platform.

With Safari, you learn the way you learn best. Get unlimited access to videos, live online training, learning paths, books, tutorials, and more.

Start Free Trial

No credit card required

Smart Data Analytics

Book Description

Wenn in Datenbergen wertvolle Geheimnisse schlummern, aus denen Profit erzielt werden soll, dann geht es um Big Data. Doch wie schöpft man aus »großen Daten« echte Werte, wenn man nicht gerade Google ist? Um aus Unternehmens-, Maschinen- oder Sensordaten einen Ertrag zu erzielen, reicht Big Data-Technologie allein nicht aus. Entscheidend sind die übergeordneten Innovations prozesse: die smarte Analyse von Big Data. Erst durch den kompetenten Einsatz der richtigen Werkzeuge und Techniken werden aus Big Data tatsächlich Smart Data.

Das Praxishandbuch Smart Data Analytics gibt einen Überblick über die Technologie, die bei der Analyse von großen und heterogenen Datenmengen – inklusive Echtzeitdaten – zum Einsatz kommt. Elf Praxisbeispiele zeigen die konkrete Anwendung in kleinen und mittelständischen Unternehmen. So erfahren Sie, wie Sie Ihr Smart Data Analytics-Projekt in Ihrem eigenen Unternehmen vorbereiten und umsetzen können. Das Buch erläutert neben den organisatorischen Aspekten auch die rechtlichen Rahmenbedingungen. Und es zeigt, wie Sie sowohl den Nutzen bewerten können, der aus den Daten gezogen werden soll, als auch den Aufwand, den Sie dafür betreiben müssen. Denn Smart Data steht für mehr als nur die Untersuchung großer Datenmengen: Smart Data Analytics ist der Schlüssel zu einem smarten Umgang mit Ihren Unternehmensdaten und hilft, bislang unentdecktes Potenzial zu entdecken.

Dr. Andreas Wierse

studierte Mathematik und promovierte in den Ingenieurwissenschaften im Bereich Visualisierung, seit 2011 unterstützt er mittelständische Unternehmen rund um Big und Smart Data Technologie.

Dr. Till Riedel

lehrt als Informatiker am KIT und koordiniert im Smart Data Solution Center Baden-Württemberg und Smart Data Innovation Lab Forschung und Innovation auf industriellen Datenschätzen.

Table of Contents

  1. Cover
  2. Titelseite
  3. Impressum
  4. Vorwort der Autoren
  5. Inhalt
  6. 1 Einleitung
    1. 1.1 Ein motivierendes Beispiel
    2. 1.2 Für wen ist dieses Buch und wie kann man es lesen?
    3. 1.3 Smart Data Solutions statt Big Data
    4. 1.4 Das Smart Data Solution Center Baden-Württemberg
      1. 1.4.1 Warum ein Smart Data Solution Center?
      2. 1.4.2 Ablauf einer Potentialanalyse
      3. 1.4.3 Drei Beispiele
      4. 1.4.4 Die Partner
      5. 1.4.5 Das Smart Data Innovation Lab
  7. 2 Grundlagen
    1. 2.1 Smart Data vs. Big Data
      1. 2.1.1 Die 3Vs: Volume, Velocity, Variety
      2. 2.1.2 Veracity, Validity, Value
      3. 2.1.3 Variability, Venue, Vocabulary
      4. 2.1.4 Das verbliebene V: Vagueness
      5. 2.1.5 Smart Data
    2. 2.2 Datengetriebene Innovation
      1. 2.2.1 Business Intelligence und Verbesserungsprozesse
      2. 2.2.2 Operative Geschäftsdaten für Innovation nutzen
      3. 2.2.3 Vom eingebetteten System zum Datensee
      4. 2.2.4 Kontextsensitive Systeme
    3. 2.3 Data Analytics und Maschinelles Lernen
      1. 2.3.1 Business Analytics
      2. 2.3.2 Klassifikation eines Merkmalsraums
      3. 2.3.3 Supervised Learning
      4. 2.3.4 Prädiktion und prädiktive Analyse
    4. 2.4 Die Bewertung von Vorhersagen
      1. 2.4.1 Fehlermaße als Bewertungsfunktion
      2. 2.4.2 Validierungsschema
      3. 2.4.3 Automatische Verbesserung von Klassifikatoren
    5. 2.5 Merkmale und Datentypen
      1. 2.5.1 Automatische Merkmalsselektion und -bewertung
      2. 2.5.2 Lernen von Merkmalen
      3. 2.5.3 Zeitserien und Sensordaten
      4. 2.5.4 Texte
      5. 2.5.5 Graphen, Linked Data, geographische Daten
      6. 2.5.6 Geographische Daten
  8. 3 Visualisierung und Interpretation
    1. 3.1 Der menschliche Wahrnehmungsapparat
    2. 3.2 Übersicht gebräuchlicher Visualisierungsmethoden
      1. 3.2.1 Balken- und Säulendiagramm
      2. 3.2.2 Histogramm
      3. 3.2.3 Tortendiagramm
      4. 3.2.4 Netzdiagramm
      5. 3.2.5 Kalender-Heat Map
      6. 3.2.6 Raumbezogene Geodaten
      7. 3.2.7 Liniendiagramm
      8. 3.2.8 Mindmap
      9. 3.2.9 Social Media-Netzwerkdiagramm
      10. 3.2.10 Graph
      11. 3.2.11 Kissendiagramm
      12. 3.2.12 Sehnendiagramm
      13. 3.2.13 Box-Plot
      14. 3.2.14 Punkt- oder Streudiagramm, Scatter-Plot
      15. 3.2.15 Dichte-Plot
    3. 3.3 Interaktive Visualisierung
      1. 3.3.1 Das bewegte Bild
      2. 3.3.2 Erkundung des Hypothesenraums
      3. 3.3.3 Höhere Dimensionen
      4. 3.3.4 Exploration
    4. 3.4 Interpretation
  9. 4 Praxisbeipiele
    1. 4.1 Voraussage der Auftragsbearbeitungszeit
      1. 4.1.1 Daten
      2. 4.1.2 Analyse
      3. 4.1.3 Bewertung
    2. 4.2 Zustandsbasierte Wartung
      1. 4.2.1 Daten
      2. 4.2.2 Analyse
      3. 4.2.3 Bewertung
    3. 4.3 Fehler in Protokollen vorhersagen
      1. 4.3.1 Daten
      2. 4.3.2 Analyse
      3. 4.3.3 Bewertung
    4. 4.4 Fehlerursachen lokalisieren
      1. 4.4.1 Daten
      2. 4.4.2 Analyse
      3. 4.4.3 Bewertung
    5. 4.5 Materialnutzung optimieren
      1. 4.5.1 Daten
      2. 4.5.2 Analyse
      3. 4.5.3 Bewertung
    6. 4.6 Energieverbrauch auf die Schliche kommen
      1. 4.6.1 Daten
      2. 4.6.2 Analyse
      3. 4.6.3 Bewertung
    7. 4.7 Qualitätsschwankungen verstehen
    8. 4.8 Schneller den Kunden- oder Partnerpool erweitern
    9. 4.9 Kündigungen verhindern und Kunden binden
    10. 4.10 Mehrfachmeldungen zusammenfassen
    11. 4.11 Den perfekten Moment abpassen
  10. 5 Organisatorische Anforderungen
    1. 5.1 Prozesse
      1. 5.1.1 Ein einfacher Prozess
      2. 5.1.2 Eine andere Sicht auf den Prozess
      3. 5.1.3 Cross Industry Standard Process for Data Mining (CRISP-DM)
    2. 5.2 Teams
      1. 5.2.1 Ausschließlich externer Smart Data Analytics-Partner
      2. 5.2.2 Zusammenarbeit interner und externer Smart Data Analytics-Experten
      3. 5.2.3 Rein internes Smart Data Analytics Team
    3. 5.3 Geschäftsmodelle
      1. 5.3.1 Vom Kauf zur Abrechnung nach Nutzung
      2. 5.3.2 Wertschöpfung aus den Daten
      3. 5.3.3 Smart Data als eigenes Geschäftsfeld
    4. 5.4 Fallstricke und Gefahren
      1. 5.4.1 Smart Data Analytics ist anders
      2. 5.4.2 Alles in den Data Lake?
      3. 5.4.3 Hidden Biases
      4. 5.4.4 Big Data - Inklusion oder Exklusion?
      5. 5.4.5 Seien Sie skeptisch
      6. 5.4.6 Maßnahmen
  11. 6 Datenschutz und Schutzrechte
    1. 6.1 Datenschutz gilt bei personenbezogenen Daten
      1. 6.1.1 Welche Regelungen zum Datenschutz gibt es?
      2. 6.1.2 Der Schutz der Daten schützt Menschen
      3. 6.1.3 Grundsätze des Datenschutzrechts
      4. 6.1.4 Datenschutzrecht greift nur bei persönlichen Daten und bestimmten Handlungen
      5. 6.1.5 Die Einwilligung im Datenschutzrecht
      6. 6.1.6 Welche Rechte hat die Betroffene?
      7. 6.1.7 Pflichten für Unternehmen
      8. 6.1.8 Sanktionen bei Verstößen gegen das Datenschutzrecht
    2. 6.2 Arbeitnehmerdatenschutz/Beschäftigtendatenschutz
      1. 6.2.1 Rechtliche Grundlagen
      2. 6.2.2 „Erlaubnis“ bei Begründung oder Durchführung des Beschäftigungsverhältnisses
      3. 6.2.3 Neue europarechtliche Regelungen
      4. 6.2.4 Fallkonstellationen des Beschäftigtendatenschutzes
      5. 6.2.5 Mitbestimmung
      6. 6.2.6 Die Einwilligung in die Erhebung, Verarbeitung und Nutzung von Beschäftigtendaten
    3. 6.3 Der Datenschutzbeauftragte im Unternehmen
      1. 6.3.1 Wann ist ein Datenschutzbeauftragter zu bestellen?
      2. 6.3.2 Welche Aufgaben hat der Datenschutzbeauftragte?
      3. 6.3.3 Bestellung und Eingliederung
      4. 6.3.4 Die neuen europarechtlichen Vorgaben
    4. 6.4 Auftragsdatenverarbeitung
      1. 6.4.1 Was ist Auftragsdatenverarbeitung?
      2. 6.4.2 Neue europarechtliche Vorgaben
    5. 6.5 Der Schutz des Datenbankherstellers
      1. 6.5.1 Was ist eine Datenbank und unter welchen Voraussetzungen ist sie geschützt?
      2. 6.5.2 Welche Rechte hat der Datenbankhersteller?
      3. 6.5.3 Der Datenbankhersteller wird nicht schrankenlos geschützt
      4. 6.5.4 Grenzen der Vertragsfreiheit
  12. 7 Technologie
    1. 7.1 Von Lambda und Kappa Architekturen
      1. 7.1.1 Batchverarbeitung
      2. 7.1.2 Echtzeitverarbeitung
      3. 7.1.3 Lambda-Architektur: das Beste beider Welten
      4. 7.1.4 Scoring von maschinellem Lernen
      5. 7.1.5 Kappa-Architektur
    2. 7.2 Skalierung mit Apache Hadoop
      1. 7.2.1 Verteilte Dateisysteme
      2. 7.2.2 Verteilte Berechnung
      3. 7.2.3 Spark
    3. 7.3 Big Data und Datenbanken
      1. 7.3.1 NewSQL, BeyondSQL, SAP HANA
      2. 7.3.2 Analytics Datenbanken
      3. 7.3.3 Zeitserien- und Log-Datenbanken
    4. 7.4 Streaming
      1. 7.4.1 Complex Event Processing
      2. 7.4.2 Distributed Streaming System
    5. 7.5 Plattformunabhängigkeit und GPU-Frameworks
    6. 7.6 Analyseumgebungen
      1. 7.6.1 Excel
      2. 7.6.2 SPSS Modeler
      3. 7.6.3 RapidMiner
      4. 7.6.4 KNIME
      5. 7.6.5 Orange, Weka
      6. 7.6.6 Spezialisierte Werkzeuge zum unüberwachten Lernen
    7. 7.7 Programmiersprachen und Notebooks
      1. 7.7.1 R
      2. 7.7.2 Python und scikitLearn
      3. 7.7.3 Interaktive Notebooks
      4. 7.7.4 Mehr Programmiersprachen und Beispiel-Code
  13. 8 Wirtschaftliche Betrachtung
    1. 8.1 Kosten
      1. 8.1.1 Software
      2. 8.1.2 Hardware
      3. 8.1.3 Infrastruktur
      4. 8.1.4 Installation und Inbetriebnahme sowie Wartung
      5. 8.1.5 Datenschnittstellen
      6. 8.1.6 Datenaufbereitung
      7. 8.1.7 Prozessanbindung
      8. 8.1.8 Mitarbeiter
      9. 8.1.9 Mitarbeiterschulung/-weiterbildung
      10. 8.1.10 Unterstützung durch Dienstleister
    2. 8.2 Cloud vs. On-Premise
      1. 8.2.1 Wesentliche Charakteristika
      2. 8.2.2 Service-Modelle
      3. 8.2.3 Einsatzmodelle
      4. 8.2.4 Abwägung: Cloud vs. On-Premise
    3. 8.3 Return on Investment
      1. 8.3.1 Das Problem der Skalierung
      2. 8.3.2 Vorgehensweise
      3. 8.3.3 Von anderen lernen
  14. 9 Epilog
  15. Stichwortverzeichnis