February 2008
Intermediate to advanced
400 pages
10h
German
Ein Problem beim Trainieren des Baums mit den bisher beschriebenen Methoden ist, dass er überangepasst (overfitted) werden kann – sich also zu sehr an den Trainingsdaten orientiert. Ein überangepasster Baum kann eine Antwort geben, die eindeutiger ist, als sie eigentlich sein sollte. Das kann geschehen, indem er Zweige erstellt, die die Entropie für das Trainingsset zwar ein wenig verringern, aber deren Bedingungen in Wirklichkeit rein willkürlich sind.
Da der oben beschriebene Algorithmus die Zweige so lange weiter unterteilt, bis er die Entropie nicht weiter reduzieren kann, könnte man ihn so anpassen, dass nicht mehr weiter unterteilt wird, wenn die Entropie sich nicht um einen Mindestbetrag reduziert. Diese Strategie ...