Data-Mining-Cup 2007

Die Daten des Data-Mining-Cups 2007 bestehen aus einer Trainingsdatei und einer Klassifikationsdatei. Beide enthalten jeweils 50´000 Datensätze. Jeder dieser Datensätze setzt sich zusammen aus einer Kundenkartenidentifikationsnummer („ID“ in Tabelle 1) , die 1- bis 6-stellig und zufällig verteilt ist, sowie 20 Werten, die die jeweilige Anzahl der in der Vergangenheit eingelösten Coupons angibt („C1001“ bis „C10020“  in Tabelle 1). Die letzte angegebene Spalte („Coupon“) zeigt, welcher der zwei möglichen Coupons, „A“ oder „B“, an der Kasse ausgedruckt wurde. Der Eintrag „N“ bedeutet, dass kein Coupon vergeben wurde. Diese Angabe fehlt in der Klassifikationsdatei und die Generierung dieser Spalte ist das Ziel des Data-Mining-Cups.

Daten

Tab. 1:                      3 beispielhafte Datensätze

 

Um einen ersten Eindruck über die gegebenen Daten zu gewinnen, wurden einige Betrachtungen zur Häufigkeit der vergebenen A- und B-Coupons sowie der Kunden, die keinen Coupon erhielten, angefertigt. Dabei stellte sich heraus, dass an die 50´000 Kunden nur rund 17% A-Coupons und 7% B-Coupons ausgegeben wurden und folglich die meisten Kunden ohne Coupon das Geschäft verließen. Genauere Zahlen können folgender Tabelle entnommen werden.

Eine Analyse der Anzahl der von Kunden eingelösten Coupons C10001 bis C10020 ergab, dass C10006 nicht ein einziges Mal genutzt wurde, weder von den Kunden, deren Daten in der Trainingsmenge enthalten sind, noch von den Kunden, die in der Klassifikationsmenge erfasst wurden. Dieser Coupon wurde daher aus sämtlichen folgenden Betrachtungen und Experimenten ausgeschlossen, da offensichtlich kein Zusammenhang zwischen der Anzahl an Einlösungen dieses Coupons und der Vergabe der Kassencoupons A und B besteht.

 

Weiterhin ließ sich aus dieser Analyse erkennen, dass die maximale Anzahl pro Coupon und Kundenkarte bei 5 (in der Klassifikationsmenge) und die maximale Anzahl bei einem Kunden insgesamt bei 16 (ebenfalls in der Klassifikationsmenge) Coupons lag. Weitere Angaben zu den Häufigkeiten der eingelösten Coupons  finden sich in nachfolgender Tabelle.

Tab. 3:                      Häufigkeiten des Einlösens der 20 Coupons in der Trainingsmenge

 

Angaben zur Häufigkeitsverteilung der Summe aller eingelösten Coupons je Kundenkarte in der Trainingsmenge zeigt nachstehende Tabelle.

Tab. 4:     Häufigkeitsverteilung der Summe eingelöster                  Coupons in Trainingsmenge

Anschließend wurde geprüft, ob eine Abhängigkeit zwischen der Anzahl der  eingelösten Coupons und der Ausgabe der A- und B-Coupons besteht. Dies konnte mit einem Korrelationskoeffizienten von 0,046 widerlegt werden. Auch auf Bezüge zwischen den Coupons A und B und den jeweils eingelösten Coupons C10001 bis C10020 wurde geprüft. Die geringen absoluten Werte der errechneten Korrelationskoeffizienten lassen aber keinen Zusammenhang erkennen. Weiterhin wurde eine mögliche Abhängigkeit zwischen den eingelösten Coupons untereinander erforscht. Dabei ergab sich ein maximaler Korrelationskoeffizient von 0,7 als Zeichen einer mittleren Abhängigkeit zwischen den Coupons C10016 und C10018. Dieser ist aber zu gering um einen Anhaltspunkt für die nachfolgenden Experimente zu bilden.

Tab. 2:     Häufigkeiten der verteilten A- und B-                 Coupons absolut und relativ