Data Mining stellt eine Synthese aus der Statistik und Informatik dar. Explizit kommen hier statistische Verfahren zur Anwendung um Wissen aus großen Datenmengen - Big Data - zu generieren. Man unterscheidet im Wesentlichen zwischen zwei Anwendungsbereichen:
Im "Unsupervised Learning" wird versucht, Muster/Strukturen in großen Datenmengen zu finden. Das ist vielen Bereichen hilfreich. So kann man basierend auf den gewonnenen Erkenntnissen Geschäftsentscheidungen treffen - wie es im Bereich Business Intelligence (BI) geschieht - oder es wird nach Auffälligkeiten in medizinischen Daten geforscht um Risikofaktoren zu entdecken.
Auch das "Supervised Learning" findet Anwendung im BI-Umfeld. Hier wird versucht, möglichst präzise Prognosen zu generieren. Diese können dann Entscheidungen im Rahmen von Business Intelligence beeinflussen oder auch direkt praktische Probleme lösen, wie z.B. Texterkennung (OCR). Typische Verfahren, die hier zur Anwendung kommen, sind z.B. Entscheidungsbäume (CART, MARS), Neuronale Netze und Ensemble-Modelle.