Kapitel 3. Klassifizierung
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In Kapitel 1 habe ich erwähnt, dass die häufigsten Aufgaben des überwachten Lernens die Regression (Vorhersage von Werten) und die Klassifizierung (Vorhersage von Klassen) sind. In Kapitel 2 haben wir eine Regressionsaufgabe, die Vorhersage von Wohnungswerten, mit verschiedenen Algorithmen wie der linearen Regression, Entscheidungsbäumen und Zufallswäldern (die in späteren Kapiteln näher erläutert werden) untersucht. Jetzt werden wir uns den Klassifizierungssystemen zuwenden.
MNIST
In verwenden wir in diesem Kapitel den MNIST-Datensatz, einen Satz von 70.000 kleinen Bildern mit handgeschriebenen Ziffern von Schülern und Angestellten des US Census Bureau. Jedes Bild ist mit der Ziffer beschriftet, die es darstellt. Dieser Datensatz wurde so oft untersucht, dass er oft als die "Hallo-Welt" des maschinellen Lernens bezeichnet wird: Wann immer ein neuer Klassifizierungsalgorithmus entwickelt wird, sind sie neugierig darauf, wie er bei MNIST abschneidet, und jeder, der maschinelles Lernen lernt, beschäftigt sich früher oder später mit diesem Datensatz.
Scikit-Learn bietet viele Hilfsfunktionen, um beliebte Datensätze herunterzuladen. MNIST ist einer von ihnen. Der folgende Code holt sich den MNIST-Datensatz von OpenML.org.1
fromsklearn.datasetsimportfetch_openmlmnist=fetch_openml('mnist_784',as_frame=False)
Das Paket ...