Der erste Teil des Buches hat zum Ziel, eine Einführung in die Datenqualitätsanalyse zu geben und die Materie Data Profiling fundiert zu erläutern. Die zweite Hälfte beschäftigt sich mit der Konzeption und prototypischen Implementierung eines Data-Profiling-Werkzeugs auf Grundlage des Eclipse Modeling Frameworks.
Die zentrale funktionale Eigenschaft der Lösung soll ein generiertes grafisches Datenmodell sein, das den Ausgangspunkt für typische Data-Profiling-Funktionen bildet. Aber auch der Entwicklungsprozess soll innovativen Charakter haben. So wird das Domänenmodell der Anwendung mithilfe des Eclipse Modeling Frameworks entworfen und in Programmcode transformiert. Der Diagrameditor wird über das Graphical Modeling Framework von Eclipse modelliert und generiert. Die Data-Profiling-Methoden werden per deskriptiver Schnittstellenerweiterung eingebunden.
Die Lösung, der eher technisch/methodisch orientierten Problemstellung, wird mit den theoretischen Grundlagen der Datenqualität, einer ökonomischen Betrachtung und den potentiellen Anwendungsgebieten eingeleitet. Data-Profiling bildet dann den Schwerpunkt des zweiten Kapitels. Nachdem die Definition aus diversen Literaturquellen hergeleitet ist, wird das Vorgehensmodell dargestellt und die einzelnen Analysemethoden beschrieben und systematisiert.
Anschließend wird die Systemumgebung thematisiert. Das Kapitel ist in eine Beschreibung der Eclipse-Plattform, eine Darstellung des modellbasierten Entwicklungsansatzes mit Eclipse und eine Analyse des Eclipse Modeling Frameworks unterteilt. Als Inspirationsquelle für das Werkzeugkonzept wurde eine Evaluation existierender Data-Profiling-Tools vorgenommen.
Die letzten beiden Kapitel beschäftigen sich mit dem Entwurf und der Implementierung des Data-Profiling-Tools. Dargestellt sind unter andrem die modellgetriebene Entwicklung des Diagrammeditors, die Komponentenarchitektur, Aspekte der Pluginentwicklung unter Eclipse und die Implementierung ausgewählter Data-Profiling-Analysemethoden.
Inhaltsverzeichnis
1;Data Profiling mit Eclipse Von den Grundlagen zum Prototypen;1 1.1;Inhaltsverzeichnis;3 1.2;Begleitmaterial;5 1.3;Abkürzungsverzeichnis;6 1.4;1 Einleitung;7 1.5;2 Datenqualität;9 1.5.1;2.1 Definition;9 1.5.2;2.2 Dimensionen der Datenqualität;10 1.5.2.1;2.2.1 Fehlerfreiheit;11 1.5.2.2;2.2.2 Vollständigkeit;12 1.5.2.3;2.2.3 Zeitabhängige Dimensionen;13 1.5.2.4;2.2.4 Konsistenzdimension;14 1.5.2.5;2.2.5 Weitere Dimensionen;15 1.5.3;2.3 Gründe und Folgen schlechter Datenqualität;15 1.5.4;2.4 Ökonomische Betrachtung der Datenqualität;17 1.5.5;2.5 Umfassendes Datenqualitätsmanagement;18 1.5.6;2.6 ETL-Prozess;20 1.5.7;2.7 Metadatenmanagement;22 1.6;3 Data-Profiling;24 1.6.1;3.1 Definition und Abgrenzung;24 1.6.2;3.2 Vorgehensmodell;25 1.6.3;3.3 Analysemethoden;29 1.6.3.1;3.3.1 Syntaktische Analyse;29 1.6.3.2;3.3.2 Strukturanalyse;31 1.6.3.3;3.3.3 Semantische Analyse;33 1.6.3.4;3.3.4 Statistische Analyse;34 1.7;4 Werkzeugumgebung;36 1.7.1;4.1 Eclipse Architektur;36 1.7.2;4.2 Modellierung mit Eclipse;39 1.7.2.1;4.2.1 Modellgetriebene Softwareentwicklung;39 1.7.2.2;4.2.2 Eclipse Modeling Framework;41 1.7.2.3;4.2.3 Graphical Modeling Framework;44 1.7.2.4;4.2.4 Zukunft der Modellierung in Eclipse;46 1.8;5 Konzept;48 1.8.1;5.1 Ausgewählte Funktionalität existierender Werkzeuge;48 1.8.1.1;5.1.1 DATRAS ADO-Profiler;49 1.8.1.2;5.1.2 dfPower Profile;51 1.8.1.3;5.1.3 BDQ Analysis;54 1.8.1.4;5.1.4 InfoZoom;55 1.8.2;5.2 Anforderungsdefinition;57 1.8.2.1;5.2.1 Funktionale Anforderungen;58 1.8.2.2;5.2.2 Nicht-funktionale Anforderungen;61 1.9;6 Systementwurf und -modellierung;63 1.9.1;6.1 Modellgetriebene Entwicklung des Diagrammeditors;63 1.9.1.1;6.1.1 Domänenmodell;64 1.9.1.2;6.1.2 Grafische Definition;66 1.9.1.3;6.1.3 Mapping-Definition;68 1.9.1.4;6.1.4 Codegenerierung;69 1.9.2;6.2 Komponentenmodell;71 1.10;7 Implementierung;74 1.10.1;7.1 Reverse Engineering;74 1.10.2;7.2 Data Profiling Implementierung;79 1.10.2.1;7.2.1 Analyse des Tabellenprofils;79 1.10.2.2;7.2.2 Präsentation des T
abellenprofils in einer View;82 1.10.2.3;7.2.3 Kontextsensitive Musteranalyse;85 1.11;8 Zusammenfassung der Ergebnisse;88 1.12;Literaturverzeichnis;90 1.13;Anhang;93