Analysis Services werden übersichtlich in Smith und Clay [SC09] sowie Melo-
med et al. [MBG08] präsentiert.
9.5 Übungen
Übung 9-1 Gegeben sei ein Warenkorb mit den folgenden 10 Transaktionen:
TID Items
1 Anhaltinisch Flüssig, Berliner Bräu, Erfurter Bock, Riesling
2 Anhaltinisch Flüssig, Erfurter Bock, MT, Riesling
3 Ilmenauer Pils, MT
4 Anhaltinisch Flüssig, Dornfelder, Kölnische Weiße, Riesling
5 Berliner Bräu, Dornfelder, Kölnische Weiße, MT, Riesling
6 Ilmenauer Pils, Kölnische Weiße, MT
7 Anhaltinisch Flüssig, Erfurter Bock
8 Dornfelder, Erfurter Bock, Riesling
9 Berliner Bräu, Dornfelder, MT
10 Anhaltinisch Flüssig, Erfurter Bock
Führen Sie den Apriori-Algorithmus aus und bestimmen Sie mögliche Re-
geln. Betrachten Sie dabei nur Items mit einem Support 30%.
Konstruieren Sie für dieses Beispiel den FP-Baum und führen Sie den
FP-Growth-Algorithmus aus. Betrachten Sie dabei ebenfalls nur Items
mit einem Support 30%.
Hat der FP-Growth-Algorithmus einen Vorteil gegenüber dem Apriori-
Algorithmus gebracht?
Übung 9-2 Bestimmen Sie grafisch unter Zuhilfenahme des k-means-
Algorithmus jeweils drei Cluster der folgenden Punktmengen. Als Anfangs-
Centroide sind die Punkte (8,8), (8,16) und (16,16) zu nehmen.
(3,18), (3,20), (4,20), (4,22), (5,19), (5,21), (6,8), (6,10), (6,20), (8,8), (8,9),
(8,10), (10,9), (10,12), (16,15), (16,17), (17,13), (18,16), (19,13), (19,14)
(6,8), (6,10), (8,8), (8,9), (8,11), (9,9), (10,12), (10,14), (11,13), (12,8),
(12,12), (12,13), (12,14), (13,9), (13,15), (14,8), (14,10), (15,9), (15,11),
(16,16)
(8,12), (8,13), (8,15), (9,11), (9,15), (10,16), (11,9), (11,13), (11,14), (12,9),
(12,13), (12,14), (12,16), (13,9), (13,14), (13,16), (14,10), (14,15), (15,11),
(15,12)
Wurden alle Cluster gut erkannt? Für welche Datenverteilungen ist ein Auf-
finden der Cluster mit Hilfe von Centroid-basierten Verfahren nicht möglich?
302 9 Business-Intelligence-Anwendungen
Übung 9-3 Erstellen Sie für die Fakten aus der gegebenen Tabelle einen Ent-
scheidungsbaum, der die Ausprägungen der Spalte Zu teuer? bestimmt.
Nehmen Sie dafür an, dass der Jahrgang nur drei mögliche Werte hat und die
Preise im Klassifikationsbaum in folgende Kategorien einteilbar sind: günstig
(0-9 e), mittel (10-29 e), teuer (30-50 e). Bei übereinstimmender Trennschärfe
zweier Attribute sollten sie in der Reihenfolge der korrespondierenden Spalten
in der Tabelle gewählt werden.
TID Weinsorte Jahrgang Preis Zu teuer?
1 Riesling 2010 7 e Ja
2 Merlot 2010 5 e Nein
3 Riesling 1980 30 e Nein
4 Pinot Noir 1980 42 e Ja
5 Müller Thurgau 2002 24 e Nein
6 Merlot 2002 17 e Ja
7 Pinot Noir 2010 8 e Nein
8 Merlot 2002 9 e Nein
9 Pinot Noir 2002 33 e Ja
10 Müller Thurgau 1980 28 e Nein
Welche Entscheidungen würden Sie mit Ihrem Entscheidungsbaum für die
Weine aus der folgenden Tabelle treffen?
TID Weinsorte Jahrgang Preis Zu teuer?
11 Müller Thurgau 2010 45 e ?
12 Merlot 2002 8 e ?
13 Riesling 1980 44 e ?
14 Pinot Noir 2010 22 e ?
Liefert Ihr Entscheidungsbaum immer für Sie nachvollziehbare Ergebnis-
se? Wie kann man die Aufteilung des Entscheidungsbaumes verbessern?
Übung 9-4 Ermitteln von Ausreißer-Werten: Gegeben seien die Datenwerte
aus der folgenden Tabelle. Ermitteln Sie die Ausgleichsgerade für die gegebe-
nen Werte. Wie können anhand der ermittelten Geraden Ausreißer bestimmt
werden?
X Y
1 1
2 10
3 6
4 4
5 3
9.5 Übungen 303

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.