O'Reilly logo

Stay ahead with the world's most comprehensive technology and business learning platform.

With Safari, you learn the way you learn best. Get unlimited access to videos, live online training, learning paths, books, tutorials, and more.

Start Free Trial

No credit card required

Kollektive Intelligenz analysieren, programmieren und nutzen

Book Description

Sie wollen wissen, wie Rankings, Produktempfehlungen, Social Bookmarking und Online-Partnerbörsen technisch funktionieren? Dieses außergewöhnliche Buch zeigt Ihnen, wie Sie Web 2.0-Applikationen bauen, mit denen Sie die riesigen Datenmengen durchsuchen und analysieren können, die von den Benutzern aktueller Webanwendungen täglich erzeugt werden. Es nimmt Sie mit in die Welt des maschinellen Lernens und der Statistik und erklärt, wie Sie Schlussfolgerungen aus User Experience, persönlichen Vorlieben und menschlichem Verhalten ziehen.

User-Daten und UGC für Ihre Web 2.0-Apps nutzen:

Dieses Buch erläutert anschaulich, wie aus User Generated Content mit den richtigen Algorithmen "kollektive Intelligenz" destilliert werden kann und wie Sie daraus einen echten Mehrwert für Ihre Web 2.0-Anwendungen generieren. Mit den ausgereiften Algorithmen in diesem Buch können Sie raffinierte Programme schreiben, die Sie direkt für Ihre Website-Projekte nutzen können.

Die Faszination der Algorithmen entdecken:

Toby Segaran geht ganz praktisch an das spannende, aber komplexe Thema heran. Er zeigt an leicht verständlichen Beispielen, wie die Algorithmen zum maschinellen Lernen funktionieren. Er erklärt beispielsweise:

  • kollaborative Filtertechniken, die es Online-Händlern erlauben, Produkte oder Medien zu empfehlen

  • Cluster-Methoden, die Gruppen ähnlicher Objekte in einem größeren Datenbestand entdecken

  • Optimierungs-Algorithmen, die Millionen von möglichen Lösungen eines Problems durchsuchen und die beste auswählen

  • Bayes'sches Filtern, das in Spam-Filtern zum Klassifizieren von Dokumenten genutzt wird

  • Support-Vektor-Maschinen, die Personen in Online-Dating-Sites zusammenzubringen

Jeder Algorithmus ist kurz und prägnant durch gut nachvollziehbaren Python-Code beschrieben. Der Bezug zu realen Sites wie Facebook, ebay oder del.icio.us sowie zahlreiche Übungen machen Lust auf mehr, wecken den Spiel- und Experimentiertrieb - und zeigen Ihnen viele neue Techniken, mit denen Sie Ihre Web 2.0-Website noch interessanter machen.

Table of Contents

  1. Kollektive Intelligenz analysieren, programmieren und nutzen
    1. Einleitung
      1. Voraussetzungen
      2. Form der Beispiele
      3. Warum Python?
      4. Offene APIs
      5. Überblick über die Kapitel
      6. Konventionen
      7. Die Codebeispiele zu diesem Buch
      8. Die Codebeispiele verwenden
      9. Danksagung
    2. 1. Einführung in die kollektive Intelligenz
      1. Was ist kollektive Intelligenz?
      2. Was ist maschinelles Lernen?
      3. Grenzen des maschinellen Lernens
      4. Beispiele aus dem richtigen Leben
      5. Andere Anwendungen für lernende Algorithmen
    3. 2. Empfehlungen geben
      1. Kollaboratives Filtern
      2. Vorlieben sammeln
      3. Ähnliche Benutzer finden
      4. Dinge empfehlen
      5. Produkte finden
      6. Link-Empfehlungen mit del.icio.us erstellen
      7. Elementbasiertes Filtern
      8. Verwenden der MovieLens-Daten
      9. Benutzerbasiertes oder elementbasiertes Filtern?
      10. Übungen
    4. 3. Gruppen bilden
      1. Überwachtes versus unüberwachtes Lernen
      2. Wortvektoren
      3. Hierarchische Clusteranalyse
      4. Zeichnen des Dendrogramms
      5. Spalten-Clusteranalyse
      6. K-Means-Clusteranalyse
      7. Cluster mit Vorlieben
      8. Daten in zwei Dimensionen betrachten
      9. Andere Dinge in der Clusteranalyse
      10. Übungen
    5. 4. Suchen und Bewerten
      1. Was gehört zu einer Such-Engine?
      2. Ein einfacher Crawler
      3. Aufbauen des Index
      4. Abfragen
      5. Contentbasierte Bewertung
      6. Eingehende Links verwenden
      7. Aus Klicks lernen
      8. Übungen
    6. 5. Optimierung
      1. Gruppenreisen
      2. Lösungen repräsentieren
      3. Die Zielfunktion
      4. Random Search
      5. Bergsteigen
      6. Simulierte Abkühlung
      7. Genetische Algorithmen
      8. Echte Flugsuchen
      9. Optimierung nach Vorlieben
      10. Netzwerkvisualisierung
      11. Andere Möglichkeiten
      12. Übungen
    7. 6. Dokumente filtern
      1. Spam filtern
      2. Dokumente und Wörter
      3. Trainieren des Klassifizierers
      4. Wahrscheinlichkeiten berechnen
      5. Ein naiver Klassifizierer
      6. Die Fisher-Methode
      7. Die trainierten Klassifizierer persistieren
      8. Blog-Feeds filtern
      9. Merkmalserkennung verbessern
      10. Akismet
      11. Alternative Methoden
      12. Übungen
    8. 7. Modellieren mit Entscheidungsbäumen
      1. Anmeldungen vorhersagen
      2. Entscheidungsbäume
      3. Trainieren des Baums
      4. Die beste Aufteilung wählen
      5. Rekursiver Aufbau des Baums
      6. Anzeigen des Baums
      7. Klassifikation neuer Beobachtungen
      8. Zurechtstutzen des Baums
      9. Umgang mit fehlenden Daten
      10. Umgang mit numerischen Ergebnissen
      11. Modellieren von Immobilienpreisen
      12. Modellieren der »Hotness«
      13. Wann nutzt man Entscheidungsbäume?
      14. Übungen
    9. 8. Aufbauen von Preismodellen
      1. Aufbau eine Beispiel-Datenmenge
      2. k-nächste Nachbarn
      3. Gewichtete Nachbarn
      4. Kreuzvalidierung
      5. Heterogene Variablen
      6. Optimieren der Skalierung
      7. Ungleiche Verteilungen
      8. Nutzung echter Daten – die eBay-API
      9. Wann man k-nächste Nachbarn nutzt
      10. Übungen
    10. 9. Komplexe Klassifikation: Kernel-Methoden und SVMs
      1. Datenmenge für Vermittler
      2. Schwierigkeiten mit den Daten
      3. Einfache lineare Klassifikation
      4. Kategoriale Eigenschaften
      5. Skalieren der Daten
      6. Kernel-Methoden verstehen
      7. Support-Vektor-Maschinen
      8. Verwenden der LIBSVM
      9. Anwenden der SVM auf die Vermittler-Datenmenge
      10. Vermitteln bei Facebook
      11. Übungen
    11. 10. Unabhängige Merkmale finden
      1. Eine Nachrichtensammlung
      2. Vorangegangene Ansätze
      3. Nicht-negative Matrix-Faktorisierung
      4. Daten des Aktienmarkts nutzen
      5. Übungen
    12. 11. Entwickeln von Intelligenz
      1. Was ist genetische Programmierung?
      2. Programme als Bäume
      3. Erzeugen der initialen Population
      4. Testen einer Lösung
      5. Mutieren von Programmen
      6. Crossover
      7. Aufbau der Umgebung
      8. Ein einfaches Spiel
      9. Weitere Möglichkeiten
      10. Übungen
    13. 12. Zusammenfassung der Algorithmen
      1. Bayes-Klassifizierer
      2. Entscheidungsbaum-Klassifizierer
      3. Neuronale Netze
      4. Support-Vektor-Maschinen
      5. k-nächste Nachbarn
      6. Clusteranalyse
      7. Multidimensionales Skalieren
      8. Nicht-negative Matrix-Faktorisierung
      9. Optimierung
    14. A. Fremdbibliotheken
      1. Universal Feed Parser
      2. Python Imaging Library
      3. Beautiful Soup
      4. pysqlite
      5. NumPy
      6. matplotlib
      7. pydelicious
    15. B. Mathematische Formeln
      1. Euklidischer Abstand
      2. Korrelationskoeffizient nach Pearson
      3. Gewichtetes Mittel
      4. Tanimoto-Koeffizient
      5. Bedingte Wahrscheinlichkeit
      6. Gini-Index
      7. Entropie
      8. Varianz
      9. Gauß-Funktion
      10. Skalarprodukt
    16. Über den Übersetzer
    17. Kolophon