Data Mining mit CART
CART ist eines der besten Software Tools für Data Mining. Der CART Algorithmus arbeitet im Wesentlichen mit a-priori Wahrscheinlichkeiten. Profitieren Sie von der Leistungsfähigkeit und Exaktheit von CART bei der Konstruktion eines Klassifikationsbaums oder Regressionsbaums. CART ist ein Entscheidungsbaum Programm mit dem Urheber-Code von Breiman, Olshen und Stone und wird regelmäßig zusammen mit Salford Systems auf den neusten Stand gebracht.
Was CART Ihnen bietet:
- Schnell auch bei grossen Datenbeständen
- Anpassbare Gewichtungen für Fehlklassifikationen
- verarbeitet über 80 verschiedene Dateiformate
- erzeugt SAS®-Code, C, Java, und PMML
CART - Exzellentes Data-Mining
CART ist ein Akronym fuer 'Classification and Regression Trees' (Klassifikations- und Regressionsbäume), eine Prozedur mit Entscheidungsbaeumen, die 1984 von den weltbekannten Statistikern der UC (Universitaet von Kalifornien) in Berkeley und Stanford, Leo Breiman, Jerome Friedman, Richard Olshen, and Charles Stone entwickelt wurde. Ihre bahnbrechende Arbeit schuf das neue Gebiet der hochentwickelten, mathematisch und theoretisch fundierten Entscheidungsbaeume.
Die CART-Methode loest eine Reihe von Problemen hinsichtlich Leistungsfaehigkeit, Exaktheit von Verfahren, mit der viele derzeitige Entscheidungsbaum-Methoden noch immer kaempfen. CART's Neuerungen beinhalten:
- Loesung des Problem von 'wie weit soll der Baum wachsen?'
- ausschliessliche Benutzung von zweifach (binaere) splits
- automatischer Überpruefung und Validierung des Baumes
- voellig neue Methode fuer die Behandlung fehlender Werte
Warum ist Salford Systems' CART das einzig echte CART?
Salford Systems' CART ist das einzige Entscheidungsbaum-Programm, das auf dem Original-Code von Breiman, Friedman, Olshen, and Stone basiert.
Da der Code urheberrechtlich geschuetzt ist, ist CART die einzig wirkliche Umsetzung dieser Klassifikations- und Regressionsbäume-Methode. Zusaetzlich wurde die Prozedur durch neue Merkmale und Fähigkeiten, die in exklusiver Zusammenarbeit mit den Schoepfern entwickelt wurden, wesentlich verbessert. Die Urheber arbeiten auch weiterhin mit Salford Systems zusammen, um CART zu verbessern und die naechste Generation von Data Mining Programmen zu entwickeln.
Waehrend einige andere Produkte zur Erstellung von Entscheidungsbaeumen- fuer sich in Anspruch nehmen, Merkmale dieser Technologie zu beinhalten, sind sie dennoch nicht faehig echte CART-Baeume zu reproduzieren. Ausserdem fehlen diesen meist wichtige grundlegende Komponenten, die die Leistungsfaehigkeit und Genauigkeit gewaehrleisten.
Warum ist CART unter Entscheidungsbaum-Programmen einzigartig?
Ein volles Jahrzehnt Forschung bildet die Basis für stabile Leistung und verlaessliche Resultate mit CART. Die fundierte Methodik von CART ist gekennzeichnet durch: Verlaessliche Beschneidungs-Strategie - CART's Entwickler haben festgestellt, dass keine Stop-Regel verlaesslich genug waere, um einen optimalen Baum zu erhalten; deshalb hatten sie die Idee, Baeume zunaechst 'wuchern' zu lassen um sie anschliessend zurueckzuschneiden. Diese fuer CART fundamentale Idee sorgt dafür, dass wichtige Strukturen nicht durch zu fruehes Stoppen des Wachstums uebersehen werden. Maechtiger binaerer Split-Suche-Ansatz - CART's binaere Entscheidungsbaeume gehen sparsam mit Daten um und finden viele Struktur bevor zu wenig Daten uebrig sind, um aus ihnen zu lernen. Andere Entscheidungsbaum-Ansaetze benutzen Mehrweg-Splits, die die Daten schnell fragmentieren und es hierdurch schwierig machen, Regeln aufzuspueren, deren Entdeckung groessere Datenmengen erfordern. Automatische Selbstueberprueufung - bei der Suche nach Mustern in Datenbanken ist es wesentlich, der 'Ueberanpassungs'-Falle zu entgehen und zu vermeiden, Muster zu finden, die lediglich auf die Trainingsdaten zutreffen. CART's eingebaute Testprozeduren stellen sicher, dass die gefundenen Muster auch auf neue Datensaetze zutreffen. Ausserdem sind die Testprozeduren und Auswahl des optimalen Baumes ein integraler Teil des CART-Algorithmus, wohingegen in anderen Entscheidungsbaum-Techniken die Ueberpruefung erst anschliessend erfolgt und die Baumauswahl dem Anwender ueberlassen wird. Zusaetzlich loest CART viele verschiedene angewandte modellierungs Probleme durch eine einzigartige Kombination automatisierter Verfahren:
- Ersatz-Teiler (surrogates) gehen intelligent mit fehlenden Werten um
- Anpassbare 'Strafen' fuer fehl Klassifikation helfen, teure Irrtuemer zu vermeiden
- Mehrfache Baeume, die "Committee of expert"-Methode steigert die Genauigkeit der Ergebnisse
- Alternative Teilungskriterien bringen Fortschritt wenn andere Kriterien versagen
Wann ist die Nutzung von CART als Einzelloesung vorteilhaft?
Die meisten data-mining-Projete beinhalten Klassifizierungen, um Einblick in die Strukturen vorhandener Daten zu gewinnen, sowie die Erstellung eines Vorhersagemodells aus diesen Strukturen. Typische Klassifizierungsprojekte sind das Trennen von Profitablem und Unprofitablem, das Entdecken von fehlerhaften Behauptungen, die Identifizierung von Mehrfachkaeufern, die Beschreibung wertvoller Kunden oder das Markieren von riskanten Kreditantraegen. CART ist ein Klassifizierungsinstrument auf dem neuesten Stand der Technik, das als Einzelloesung jegliche Klassifizierungsaufgabe loesen und robuste, akkurate Vorhersagemodelle liefern kann. Das Programm bewaeltigt die zentralen Herausforderungen des data-mining indem es Klassifizierung fuer kategoriale Variablen (z.B. Ja - Nein) und Regressionen fuer kontinuierliche Variablen (z.B. Umsatzzahlen) ermöglicht. Zusaetzlich zu seiner Genauigkeit bietet CART drei entscheidende Vorteile gegenueber anderen data-mining-Instrumenten. Erstens ist CART auch fuer Anfaenger leicht zugaenglich und erfordert keine uebermaessigen technischen Fertigkeiten vom Benutzer. CART's neue, benutzerfreundliche graphische Oberflaeche und Benutzerhandbuch fuehrt den Anwender schnell durch den Analyseprozess und die Voreinstellungen funktionieren so gut, dass auch viele erfahrene Experten diese nicht aendern. Zweitens sind CART-Resultate extrem einfach zu interpretieren; das baumfoermige Diagramm verdeutlicht die wichtigsten Prädiktoren. Und schliesslich ist CART erheblich preiswerter als andere data-mining-Programmpakete waehrend die Ergebnisse der Projekte vergleichbar sind
CART ist einfach zu Interpretieren
Wie oben beschrieben, werden die Ergebnisse eines Data Mining-Projektes oft in einem baumfoermigen, anschaulichen Diagramm dargestellt. Aufgedeckte Beziehungen und Muster in den Daten - sogar in sehr komplexen Datenbanken mit hunderten von Variablen - werden als Flussdiagramm praesentiert. Vergleicht man dies mit den komplexen Parametern einer logistischen Regressionsanalyse oder dem Ergebnis der Berechnungen eines "neural nets", wird der Reiz von Entscheidungsbaeumen offensichtlich. Die anschauliche Darstellung ermoeglicht die hierarchische Wechselwirkung der Variablen zu erfassen. Oft wird vorher bekanntes Wissen ueber wichtige Datenbeziehungen bestaetigt, was weiteres Vertrauen in die Verlaesslichkeit und Nuetzlichkeit des CART-Modells schafft. Ausserdem sind die Modelle einfach zu verstehen und leicht auf neue Daten anzuwenden weil einfache Wenn-Dann-Regeln vom Baum abgelesen werden koennen.
CART's "Automatische Selbstvalidierung"
CART benutzt zwei Testprozeduren um den 'optimalen' Baum auszuwaehlen. Der optimale Baum ist der Baum mit den geringsten gesamten Fehlklassifikationskosten und damit der hoechsten Genauigkei. Beide Prozeduren, eine fuer kleine und eine fuer grosse Datenmengen, sind voellig automatisiert und stellen sicher, dass der optimale Baum vorhandene Daten genau klassifiziert und zukünftige Resultate möglichst exakt vorhersagt. Fuer kleinere Datenmengen und Faelle, in denen der Analyst keine Daten fuer Testzwecke zurueckhalten möchte, benutzt CART das Verfahren der "Kreuzvalideriung" (cross-validation). Dies wird haeufig in der medizinischen Forschung genutzt, aber ein Mangel an Trainingsdaten kann bei Studien jeglicher rarer Ereignisse vorkommen, wie z.B. spezielle Arten von Betrug. Bei Kreuzvalidierung werden typischerweise zehn verschiedenen Baeume erzeugt, jeder aus verschiedenen 90 Prozent der gesamten Datenmenge. Wenn die Resultate aller zehn Baeume zusammengefuehrt werden, wird eine sehr verlaessliche Bestimmung der optimalen Baumgroesse erreicht. Fuer grosse Datenmengen waehlt CART automatisch Testdaten aus oder benutzt vorab definierte Testdatensaetze oder Testdatengruppen um den Baum zu validieren.
CART kann andere Data Mining-Programmpakete ergaenzen!
CART ist eine hervorragende Ergaenzung von data-mining-Programmpaketen wie SAS®. Im ersten Schritt eines data-mining-Projektes kann CART die wichtigsten Variablen aus einer grossen Liste von potentiellen Prädiktoren finden. Ein Neuronales Netz oder andere data-mining-Techniken werden nachhaltig beschleunigt wenn sie auf die Top-Variablen aus dem CART-Model konzentriert werden kann. Vor allem bei "neural nets" umgeht CART 'das Rauschen' sowie irrelevante Variablen und waehlt schnell und effektiv die besten Variablen fuer den Input aus. Das Ergebnis sind deutliche Verbesserungen der Trainingsgeschwindigkeit eines "neural nets" und ebenfalls genauere bzw. robustere "neural nets". Ausserdem kann der Output von CART- oder die 'vorhergesagten Werte' als Input eines "neural net" genutzt werden.
CART kann ausserdem genutzt werden, um:
- Leistungen zu "Benchmarken"
- Wichtige Wechselwirkungen, die in statistischen Modellen enthalten sein sollten, zu endecken
- Variablen mit fehlenden Werten, Werte zuweisen
CART erzeugt schnell Resultate!
CART's effizienter Algorithmus erzeugt Resultate sehr viel schneller als andere Methoden wie z.B. "neural nets". Auf einem industrieueblichen Server erzeugt CART bei 300.000 Datensaetzen und 1.000 Variablen, Ergebnisse in unter einer Stunde. Ueblichere Probleme mit 100.000 Datensaetzen und 450 Variablen laufen in ca. 10 Minuten waehrend 100 Variablen und eine Million Datensaetze weniger als 30 Minuten benoetigen. Explorative Auswertungen, die auf Teilmengen groesserer Datenbanken basieren, koennen sogar noch schneller durchgefuehrt werden; z.B. werden 30.000 Datensaetzen mit 100 ausgewaehlten Input-Variablen in weniger als fuenf Minuten durchgerechnet.
Weitere Informationen
Systemvoraussetzungen für die Software CART
Windows® | Linux® | |
Andere Voraussetzungen | CD-ROM- oder DVD-Laufwerk | CD-ROM- oder DVD-Laufwerk |
Betriebssystem | Windows 2003, 2008, 7, 8 |
|
Minimum CPU | Pentium 4 (2 GHz) | Pentium 4 (2 GHz) |
Min. RAM | 2 GB (abhängig von Ihrer gekauften CART-Version) | 2 GB (abhängig von Ihrer gekauften CART-Version) |
Festplattenplatz | 40 MB (mind. 2 GB für virtuellen Speicher und Temporärdateien) | 40 MB (mind. 2 GB für virtuellen Speicher und Temporärdateien) |
Funktionen Cart Basic
A reliable pruning strategy
CART's developers determined definitively that no stopping rule could be relied on to discover the optimal tree, so they introduced the notion of over-growing trees and then pruning back. This idea, fundamental to CART, ensures that important structure is not overlooked by stopping too soon. Other decision tree techniques use problematic stopping rules.
A powerful binary split search approach
CART's binary decision trees are more sparing with data and detect more structure before too little data are left for learning. Other decision tree approaches use multi-way splits that fragment the data rapidly, making it difficult to detect rules that require broad ranges of data to discover.
Automatic self-validation procedures
In the search for patterns in databases it is essential to avoid the trap of "overfitting," or finding patterns that apply only to the training data. CART's embedded test disciplines ensure that the patterns found will hold up when applied to new data. Further, the testing and selection of the optimal tree are an integral part of the CART algorithm. In other decision tree techniques, testing is conducted after the fact and tree selection is left up to the user.
In addition, CART accommodates many different types of real world modeling problems by providing a unique combination of automated and/or user-specified solutions
Surrogate splitters intelligently handle missing values
CART handles missing values in the database by substituting "surrogate splitters," which are back-up rules that closely mimic the action of primary splitting rules. The surrogate splitter contains information that is typically similar to what would be found in the primary splitter. Other products' approaches treat all records with missing values as if the records all had the same unknown value; with that approach all such "missings" are assigned to the same bin. In CART, each record is processed using data specific to that record, thus allowing records with different data patterns to be handled differently, resulting in a better characterization of the dat
Adjustable misclassification penalties help avoid the most costly errors
CART can accommodate situations in which some misclassifications, or cases that have been incorrectly classified, are more serious than others. CART users can specify a higher penalty for misclassifying certain data, and the software will steer the tree away from that type of error. Further, when CART cannot guarantee a correct classification, it will try to ensure that the error it does make is less costly. If credit risk is classified as low, moderate, or high, for example, it would be much more costly to classify a high risk person as low risk than as moderate risk. Traditional data mining tools cannot distinguish between these errors.
Alternative splitting criteria make progress when other criteria fail
CART includes seven single variable splitting criteria - Gini, symmetric Gini, twoing, ordered twoing and class probability for classification trees, and least squares and least absolute deviation for regression trees - and one multi-variable splitting criteria, the linear combinations method. The default Gini method typically performs best, but, given specific circumstances, other methods can generate more accurate models. CART's unique "twoing" procedure, for example, is tuned for classification problems with many classes, such as modeling which of 170 products would be chosen by a given consumer. To deal more effectively with select data patterns, CART also offers splits on linear combinations of continuous predictor variables.
Supported File Types
- SAS® und SPSS®
- Diverse Datenbanken wie zum Beispiel: Oracle, Informix, etc.
- Microsoft Excel
- Lotus
Funktionen CART Pro
Tree Controls
- Force splitters into nodes
- Confine select splitters to specific regions of a tree (Structured Tree™)
HotSpot Detector™
- Search data for ultra-high performance segments
- HotspotDetector trees are specifically designed to yield extraordinarily high-lift or high-risk nodes. The process focuses on individual nodes and generally discards the remainder of the tree
Train/Test Consistency Assessment
- Node-by-node summaries of agreement between train and test data on both class assignment and rank ordering of the nodes
- Quickly identifies ideally-performing robust trees
Modeling Automation
- Automatically generates entire collections of trees exploring different control parameters
- Nineteen automated batteries cover exploration of multiple splitting rules, five alternative missing value handling strategies, random selection of alternative predictor lists, progressively smaller (or larger) training sample sizes, and much more
Predictor Refinement
- Includes stepwise backwards predictor elimination using any of three predictor ranking criteria (lowest variable importance rank, lowest loss of area under the ROC curve, highest variable importance rank)
Model Assessment via Monte Carlo Testing
- Measures possible overfitting with automated Monte Carlo randomization tests
Constructed Features
- New tools for automatic construction of new features (as linear combinations of predictors)
- Identification of multiple lists of candidates allows precise control over which predictors may be combined into a single new feature
Unsupervised Learning Mode
- Uses Breiman's column scrambler to automatically detect potential clusters with no need to scale data, address missing values, or select variables for clustering
Supported File Types
- SAS® und SPSS®
- Diverse Datenbanken wie zum Beispiel: Oracle, Informix, etc.
- Microsoft Excel
- Lotus