Data Mining

Aus Byte-Welt Wiki
Version vom 13. Oktober 2007, 10:00 Uhr von EagleEye (Diskussion | Beiträge) (Die Seite wurde neu angelegt: Data Mining ist eine automatische oder semi-automatische Untersuchung von großen Datenmengen um Muster und Regeln zu finden. Diese Aktionen finden oft in Verbindung mi...)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springenZur Suche springen

Data Mining ist eine automatische oder semi-automatische Untersuchung von großen Datenmengen um Muster und Regeln zu finden. Diese Aktionen finden oft in Verbindung mit einem Data Warehouse statt. Diese Analysen werden oft für Einkäuft von großen Firmen, Versicherungen, Banken oder der Forschung gemacht.

Begriffe

Wissensentdeckung - Knowledge Detection in Data Bases - KDD - Prozess zur Identifikation von Mustern in den Daten. Daten - Menge von Fakten, z.B. in einer Datenbank Muster - Ausdruck einer Sprache um eine Teilmenge der Daten zu beschreiben if Kontostand < x then Limit überschritten. Ein Muster ist die Instanziierung eines Modells. Das Muster kann je nach Bedarf auch vereinfacht werden.

Muster: <math>f(x)=3x^2 + x</math>
Modell: <math>f(x)=\alpha x^2 + \beta x + \gamma</math>

Prozess - Besteht aus mehreren Schritten

  • Vorbereitung der Daten
  • Suche nach Mustern (Hypothesen aufstellen)
  • Überprüfung anhand von Beispielen (Evaluation)
  • Bei nichterreichen der Ziele, wiederholen der vorigen Schritte

Gültigkeit - Beschreibt die Sicherheit das die Klassifizierung korrekt vorgenommen wird <math>C(Muster,Daten)</math> Nützlichkeit - Beschreibt ob sich aus den Informationen Entscheidungen oder Aktionen ableiten lassen Verständlichkeit - Beschreibt ob/wie die gefundenen Muster zu verstehen sind

KDD-Prozess

Der KDD-Prozess wird verwendet um z.B. kreditwürdige Bankkunden zu finden oder Kundenprofile für eines Handels zu bestimmt. Er besteht aus mehreren Schritten:

  • Anwendungsgebiet verstehen sowie Vorwissen und Ziele der Endbenutzer herausfinden.
  • Vorauswahl der Daten mit relevanz zum Problem, d.h. es werden nur die Daten verwendet die etwas mit dem Problem zu tun haben.
  • Vorverarbeitung, z.B. Ausreißer, fehlerhafte Daten filtern oder fehlende Daten ergänzen.
  • Datenreduktion und -projektion, Reduzierung der Daten auf die wichtigen Eigenschaften.
  • Data Mining Aufgabe wählen, z.B. Klassifikation oder Clustering.
  • Data Mining Methode anhand des Ziels wählen.
  • Data Mining durchführen um z.B. einen Entscheidungsbaum oder Netz zu erhalten
  • Interpretation der Daten und gegebenenfalls wiederholen der Schritte
  • Anwenden des gefundenen Wissens

Beschreibungsarten

Die Daten können nach verschiedenen Mustern beschrieben bzw. untersucht werden:

  • Klassifikation - Lernen von Funktionen und Daten in verschiedene Klassen abbilden, z.B. Gehalt größer als X und Gehalt kleiner als X
  • Regression - Daten auf Realzalen abbilden, z.B. eine Gerade durch eine Menge von Daten bestimmen, Schuldhöhe in Abhängigkeit vom Lohn
  • Clustering - Bilden von Gruppen anhand der Werte