
Analysis Services werden übersichtlich in Smith und Clay [SC09] sowie Melo-
med et al. [MBG08] präsentiert.
9.5 Übungen
Übung 9-1 Gegeben sei ein Warenkorb mit den folgenden 10 Transaktionen:
TID Items
1 Anhaltinisch Flüssig, Berliner Bräu, Erfurter Bock, Riesling
2 Anhaltinisch Flüssig, Erfurter Bock, MT, Riesling
3 Ilmenauer Pils, MT
4 Anhaltinisch Flüssig, Dornfelder, Kölnische Weiße, Riesling
5 Berliner Bräu, Dornfelder, Kölnische Weiße, MT, Riesling
6 Ilmenauer Pils, Kölnische Weiße, MT
7 Anhaltinisch Flüssig, Erfurter Bock
8 Dornfelder, Erfurter Bock, Riesling
9 Berliner Bräu, Dornfelder, MT
10 Anhaltinisch Flüssig, Erfurter Bock
• Führen Sie den Apriori-Algorithmus aus und bestimmen Sie mögliche Re-
geln. Betrachten Sie dabei nur Items mit einem Support ≥ 30%.
• Konstruieren Sie für dieses Beispiel den FP-Baum und führen Sie den
FP-Growth-Algorithmus aus. Betrachten Sie dabei ebenfalls nur Items
mit einem Support ≥ 30%.
• Hat der FP-Growth-Algorithmus einen Vorteil gegenüber dem Apriori-
Algorithmus gebracht?
Übung 9-2 Bestimmen Sie grafisch unter Zuhilfenahme des k-means-
Algorithmus jeweils drei Cluster der folgenden Punktmengen. Als Anfangs-
Centroide sind die Punkte (8,8), (8,16) und (16,16) zu nehmen.
• (3,18), (3,20), (4,20), (4,22), (5,19), (5,21), (6,8), (6,10), (6,20), (8,8), (8,9),
(8,10), (10,9), (10,12), (16,15), (16,17), (17,13), (18,16), (19,13), (19,14)
• (6,8), (6,10), (8,8), (8,9), (8,11), (9,9), (10,12), (10,14), (11,13), (12,8),
(12,12), (12,13), (12,14), (13,9), (13,15), (14,8), (14,10), (15,9), (15,11),
(16,16)
• (8,12), (8,13), (8,15), (9,11), (9,15), (10,16), (11,9), (11,13), (11,14), (12,9),
(12,13), (12,14), (12,16), (13,9), (13,14), (13,16), (14,10), (14,15), (15,11),
(15,12)
Wurden alle Cluster gut erkannt? Für welche Datenverteilungen ist ein Auf-
finden der Cluster mit Hilfe von Centroid-basierten Verfahren nicht möglich?
302 9 Business-Intelligence-Anwendungen

Übung 9-3 Erstellen Sie für die Fakten aus der gegebenen Tabelle einen Ent-
scheidungsbaum, der die Ausprägungen der Spalte „Zu teuer?“ bestimmt.
Nehmen Sie dafür an, dass der Jahrgang nur drei mögliche Werte hat und die
Preise im Klassifikationsbaum in folgende Kategorien einteilbar sind: günstig
(0-9 e), mittel (10-29 e), teuer (30-50 e). Bei übereinstimmender Trennschärfe
zweier Attribute sollten sie in der Reihenfolge der korrespondierenden Spalten
in der Tabelle gewählt werden.
TID Weinsorte Jahrgang Preis Zu teuer?
1 Riesling 2010 7 e Ja
2 Merlot 2010 5 e Nein
3 Riesling 1980 30 e Nein
4 Pinot Noir 1980 42 e Ja
5 Müller Thurgau 2002 24 e Nein
6 Merlot 2002 17 e Ja
7 Pinot Noir 2010 8 e Nein
8 Merlot 2002 9 e Nein
9 Pinot Noir 2002 33 e Ja
10 Müller Thurgau 1980 28 e Nein
Welche Entscheidungen würden Sie mit Ihrem Entscheidungsbaum für die
Weine aus der folgenden Tabelle treffen?
TID Weinsorte Jahrgang Preis Zu teuer?
11 Müller Thurgau 2010 45 e ?
12 Merlot 2002 8 e ?
13 Riesling 1980 44 e ?
14 Pinot Noir 2010 22 e ?
Liefert Ihr Entscheidungsbaum immer für Sie nachvollziehbare Ergebnis-
se? Wie kann man die Aufteilung des Entscheidungsbaumes verbessern?
Übung 9-4 Ermitteln von Ausreißer-Werten: Gegeben seien die Datenwerte
aus der folgenden Tabelle. Ermitteln Sie die Ausgleichsgerade für die gegebe-
nen Werte. Wie können anhand der ermittelten Geraden Ausreißer bestimmt
werden?
X Y
1 1
2 10
3 6
4 4
5 3
9.5 Übungen 303
Get Data Warehouse Technologien now with O’Reilly online learning.
O’Reilly members experience live online training, plus books, videos, and digital content from 200+ publishers.