Data Mining – Erklärung, Aufgaben & Vorteile
Data Mining ist eine computergestützte Anwendung statistischer Methoden auf große Datensätze. Das Ziel von Data Mining besteht im Herausfinden von noch nicht bekannten Zusammenhängen, die sich aus diesen Daten ergeben. Ansätze in diese Richtung gibt es schon sehr lange, stark in Fahrt gekommen ist die Entwicklung mit der heute sehr leistungsfähigen Datenverarbeitung und der umfangreichen Datenerhebung.
Data Mining – Die wichtigsten Fragen & Antworten
Voraussetzung für die Anwendung von Data Mining ist die Verfügbarkeit von Daten. Große Datenmengen müssen gespeichert und für eine Verarbeitung bereitgehalten werden. Damit diese in vernünftiger Zeit durchgeführt werden kann, müssen die Algorithmen und die Geräte leistungsfähig genug sein.
Eine wesentliche theoretische Grundlage ist Statistik und darin besonders die Anpassung dieser Methoden auf die Verarbeitung großer Datenmengen. Die statistische Exaktheit wird oft teilweise aufgegeben, die Ergebnisse werden einfach auf ihre Nützlichkeit überprüft.
Sie führen die Methode in fünf Schritten aus.
1. Sie erheben und sammeln die relevanten Daten.
2. Die gesammelten Daten werden bereinigt, was auf das Verwerfen oder Ergänzen von unvollständigen Datensätzen hinausläuft.
3. Sie bringen Ihre Daten in ein Format, das für die weitere Datenverarbeitung geeignet ist.
4. Im vierten Schritt findet das eigentliche Data Mining statt, indem Muster in den Daten gesucht und, bei erfolgreicher Anwendung, auch gefunden werden.
5. Nicht vergessen dürfen Sie den letzten Schritt, in dem Sie die Ergebnisse mit Fachkenntnis im Anwendungsgebiet überprüfen.
Der Begriff „big“ bezieht sich auf den Umfang, die Geschwindigkeit der Erhebung, die Vielfalt und die Echtheit der Daten. Oft finden Sie wenig strukturierte solche Daten vor, was einen typischen Anwendungsfall für Data Mining darstellt.
Warum sind viele Datensätze heute „big“? Mit Messungen von Sensoren, Sammeln von Daten über kommerzielle Transaktionen und dem Nutzerverhalten wie der Verwendung von Suchbegriffen entstehen große Datenmengen praktisch ganz von selbst.
Data Mining – Erklärung
Der Begriff „Data Mining“ bedeutet wörtlich das Schürfen in Daten. Es geht dabei um das Ermitteln von interessanten Informationen, die in den Daten implizit enthalten sind, aber nur mit einigem Aufwand explizit isoliert werden können. Das erhoffte Ergebnis besteht aus einer höheren Strukturierung der Daten, die Trends klarmacht und die Grundlage für Vorhersagen des Verhaltens komplexer Systeme bieten kann.
Erste Anwendungen systematischer Datenauswertung reichen bis ins Altertum zurück. Sogar die ersten schriftlichen Zeugnisse der frühen Hochkulturen mit Buchhaltungsdaten lassen sich als Urversion von Data Mining ansehen. Im Altertum wurden bereits Steuerlisten angelegt und Volkszählungen sind eine der ersten Anwendungen von Data Mining im heutigen Sinn. Zuerst wurden dafür mechanische Rechenmaschinen eingesetzt, seit dem Ende des Zweiten Weltkriegs sind es elektronische Computer.
Aufgaben des Data Mining
Welche Aufgaben und Methoden spielen im Bereich des Data Mining eine Rolle?
Klassifikation
Sie bezieht sich auf das Erheben von Eigenschaften von Daten, beispielsweise die Wertebereiche von Variablen. Zusammen mit Informationen aus dem jeweiligen Fachgebiet können Sie so Klassen identifizieren, denen die Daten zugeordnet werden können.
Prognose
Wie die Bezeichnung nahelegt, lassen sich aus Beziehungen zwischen Daten Möglichkeiten zur Vorhersage ableiten. Folgt in den Daten auf A sehr oft B, kann das einen entsprechenden Zusammenhang auch beim neuerlichen Auftreten von A nahelegen.
Gruppierung
Sie bezeichnet das Identifizieren von Clustern in den Daten. Dieser Begriff ist aus einer grafischen Darstellung abgeleitet, wenn beispielsweise Punkte in einer Ebene in Häufungen zusammengefasst und so gegliedert werden. Dieselbe Methode können Sie auch anwenden, wenn die Daten einer so anschaulichen Darstellung nicht zugänglich sind. Sie nehmen dann die für anschauliche Beispiele entwickelten mathematischen Methoden und wenden diese auf abstraktere Daten an. Das kann so aussehen, dass Sie einen geeigneten Begriff des Abstands von Punkten definieren, der nicht immer der üblichen geometrischen Bedeutung entsprechen muss. Gruppen von Punkten werden dann rechnerisch ermittelt, die untereinander kleine solche Abstände aufweisen.
Abhängigkeitsanalyse
Die Abhängigkeit bezieht sich auf eine Beziehung zwischen verschiedenen Variablen. Sie versuchen Daten zu finden, die oft gemeinsam auftreten. Solche Assoziationen lassen dann oft von den einen Daten auf die assoziierten Daten schließen.
Abweichungsanalyse
Das Ziel einer Regressionsanalyse ist das Finden eines Zusammenhangs zwischen abhängigen und unabhängigen Variablen. Die Analyse der Abweichungen bestimmt dann quantitativ, wie gut dieser Zusammenhang von den vorhandenen Daten tatsächlich erfüllt wird. Diese Analysen können die Grundlage für das Feststellen einer Kausalbeziehung zwischen diesen Variablen darstellen. Es ist wichtig zu bemerken, dass das nicht notwendigerweise der Fall sein muss. Die Frage muss in jedem Fall individuell beantwortet werden und hängt von den Umständen der Anwendung ab.
Welche Vorteile bietet Data Mining?
Intuitive Bedienbarkeit |
Geringer Suchaufwand |
Unkomplizierte Erfassung von Belegen |
Übersichtliche, zentrale & sichere Ablage von Dokumenten |
Einbezug von Geschäftsprozessen |
Standortübergreifender Zugriff auf Dokumente |
GoBD-konforme Aufbewahrung |
Algorithmen für Data Mining
- Statistik in mehreren Variablen. Sie lässt sich dafür einsetzen, lineare oder auch andere Zusammenhänge von Variablen zu bestimmen und zu quantifizieren, wie genau die gegebenen Daten diese Zusammenhänge erfüllen.
- Bayessche Statistik. Mit diesem Algorithmus können Sie die Wahrscheinlichkeiten bestimmen, die die vorliegenden Daten am besten erklären.
- Viele Datensätze lassen sich als Graphen darstellen, also als abstrakte Netzwerke aus Knoten und Verbindungen. Auf diese Graphen können Sie die Methoden der Graphentheorie anwenden, um etwa die Knoten sinnvoll zu gruppieren.
- Zu den modernsten Methoden im Data Mining gehören genetische Algorithmen und neuronale Netze. Die letzteren modellieren Abläufe, die im menschlichen Gehirn für das Identifizieren von Mustern und Strukturen verantwortlich sind.
Anwendungsbeispiele von Data Mining
- Marketing. Aus der Analyse von Daten über die Käufe von Kunden lassen sich Zusammenhänge ableiten, die Geschäftsprozesse effizienter machen und Sie Werbung zielgerichteter einsetzen lassen. Ein Beispiel ist die aus Data Mining gewonnene Erkenntnis, dass Männer oft auch noch Bier kaufen, wenn sie von der Mutter ihrer Kinder zum Windeln Holen geschickt werden. Sehr bekannt ist auch der Fall, in dem der Algorithmus einer Supermarktkette die Schwangerschaft einer jungen Frau bemerkt hatte, bevor ihr Vater davon informiert war.
- Medizin. Seit Kurzem stehen große Datensätze über die Interaktionen von biochemischen Stoffen mit Zellen und Organen zur Verfügung. Data Mining ermöglicht das Identifizieren von medizinischen Zusammenhängen in diesen Daten wie beispielsweise Unverträglichkeiten bestimmter Stoffe.
- Öffentliche Sicherheit. Ausgangsmaterial für Data Mining sind Daten, die von Überwachungskameras und gezielter Observierung von Verdächtigen gewonnen werden. Data Mining dieser Daten ist so effektiv, dass es ethische Bedenken gegen die Verwendung dieser Methode gibt.
Zusammenfassung
Data Mining stellt bewährte Methoden aus Analyse und Statistik bereit, die zusammen mit den heutigen Möglichkeiten zur Datenverarbeitung sehr vielversprechende Ergebnisse liefern. Wenn die Besonderheiten des jeweiligen Fachgebiets korrekt integriert werden, lassen sich so beträchtliche Fortschritte in allen Gebieten erzielen, in denen große Datenmengen anfallen.
Leave a comment