jeudi, septembre 29, 2005

Système ETL ou The Back Room

Les entreprises, aux débuts des entrepôts de données, avaient mis beaucoup d’emphase sur la présentation et l’utilisation finale d’un DW. Avec l’accroissement du volume de données elles se sont, ensuite, focalisées sur la modélisation dimensionnelle. De nos jours l’accent est plutôt mis sur les systèmes ETL.
Que ce soit un outil commercial ou développé maison, l’ETL n’est pas un simple programme d’extraction, transformation et de chargement et ne doit pas être traité de la sorte. Il s’agit plutôt d’un système complexe. D’ailleurs Kimball (2004), après dix huit mois d’études des ETL, en a définit 38 sous-systèmes et il a même statué, et pour raison, que 70% d’un projet d’entrepôt de données est dédié aux systèmes ETL.

Par le biais du présent blog nous tentons de partager notre expertise et nos connaissances des systèmes ETL. Nous étalons alors les différentes étapes de la réalisation d’un projet de système ETL, partant de la planification du projet jusqu’à l’implantation et la maintenance. On y discutera aussi du choix de l’outil, la dotation en personnel et les différentes notions ayant traits aux systèmes ETL.

Les termes Back Room (la cuisine) ou Data staging area sont souvent utilisés par l'industrie pour décrire les systèmes ETL. Le Back Room ou le staging area est utilisé pour préparer les données pour le Front Room (la salle à manger). Le terme français du back room est "zone de ravitaillement de données", selon le grand dictionnaire (www.granddictionnaire.com) ou encore "zone de transit de données". Personnellement j'utilise souvent le terme "Zone de préparation de données" .

Ce blog n'est pas complètement terminé, par contre nous n'aménageons aucun effort pour le complèter.

Pour des raisons de Copyright, nous devons mentionner que quelques passages dans ce blog ont été traduit librement par Abdel ELOMARI à partir du livre de ralph Kimball et Joe Caserta sur les systèmes ETL dont la référence est la suivante :

Kimball, R., & Caserta, J. (2004). The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data., Wiley.

Fil atom


Copyright © Abdel ELOMARI 2005-2006 . Tous droits réservés.





1 commentaire:

Anonyme a dit...

Bonjour
Je travaille en ce moment sur des modules de transfert de fichiers.
Principe : Des fichiers en provenance du datawarehouse arrivent sur un serveur via transfert FTP. Il y a plusieurs types de fichiers. La volumétrie des fichiers varie de 20 000 à 1 000 000 de lignes. Les fichiers arrivent périodiquement. Un scheduler execute des script shell. Ces script shell executent du Pro*C. Le Pro*C croise les données des fichiers avec les données d'une base de données suivant des règles de gestion précises. Les script shell peuvent merger certains fichiers avant de les transmettre au Pro*C. Le Pro*C peut appeler des procédures stockées. Le résultat du traitement est enregistré dans une base de données Oracle. Une application web Java/J2EE permet de d'afficher les résultats et d'insérer certaines données nécessaires au traitement.
Ma question est la suivante : serait-ce une bonne idée de migrer vers une solution ETL ? Une solution ETL me permet-elle d'implémenter des règles de gestion complexes dans le traitement ? J'ai lu que certaines solutions ETL pouvaient faire appel à des Web services.
Merci d'avance
julien.metais@yahoo.fr