Hadoop, peut-il signer la mort du Data Warehouse ?

| 4 minutes read

Les Data Warehouses sont déployés dans les entreprises depuis des dizaines d’années. Récemment, le Big Data s’est démocratisé.

On peut donc se demander si les nouvelles approches analytics d’Hadoop peuvent changer le paysage de l’analytics traditionnel et quel est l’avenir des Data Warehouses ?

Data Warehouse

Un Data Warehouse, autrement appelé entrepôt de données ou base de données décisionnelle, désigne une base de données dédiée au stockage de données, provenant de bases de données opérationnelles, afin de fournir un socle à l’aide à la décision en entreprise.

Bill Inmon, considéré comme le père du Data Warehouse, définit le Data Warehouse comme:

  • Orienté sujet : Les données sont orientées “métier” et organisées par thème.
  • Intégré : Les données proviennent de sources hétérogènes. Les données sont nettoyées dans un souci de rationalisation et de normalisation.
  • Non Volatile : Les données sont de type “Read-Only”.
  • Historisé : Les données sont datées afin de suivre leurs évolutions au cours du temps. Cependant, toutes les données ne sont pas forcément archivées.

Un Data Warehouse est plus qu’une simple base de données . Il est organisé et structuré et est en général composé de :

  • Operational Data Storage (ODS) : base de données relationnelle intégrant des données structurées provenant de diverses sources de données.
  • EDW (Enterprise Data Warehouse) : base de données où la donnée est nettoyée et transformée afin de créer un modèle normalisé 3FN.
  • La donnée est alors présentée aux data analysts (via des outils d’analytics de Business Intelligence BI), sous la forme de schéma en étoile ou flocon, dans des Datamarts, aussi appelés Cubes ou base de données multidimensionnelles.
  • Metadonnées spécifiant les relations entre les entités.

L’émergence d’Hadoop

Hadoop permet la collecte, le stockage et l’analyse de gros volumes de données (appelés Big Data) afin de découvrir des patterns ou d’autres informations utiles permettant de faire émerger de la valeur à partir de ces données.
Les traitements peuvent être effectués en mode batch, micro batch ou en temps réel.
Hadoop excelle dans le stockage et le traitement de la donnée non structurée et semi-structurée, mais il est aussi en capacité de gérer de la donnée structurée.

Depuis un peu plus de 3 ans, on voit émerger un écosystème Hadoop de plus en plus riche.

  • Arrivée de nouveaux frameworks révolutionnant les performances des traitements distribués comme Spark, de requêtage de données en SQL comme Drill et Impala, de gouvernance et de sécurité des données, etc…
  • De plus en plus de solutions proposant des connecteurs pour accéder aux données stockées dans Hadoop.
  • Sans oublier les promesses d’ «enterprise-ready», de « data lake » ou de « data hub » des éditeurs des distributions Hadoop/Big Data (Cloudera, Hortonworks & MapR).

Comparaison Data Warehouse & Hadoop

Comparatif BigData et Data Warehouses

Evolution de la BI


La BI « classique »
part d’un besoin exprimé par le business qui sait quelle question doit être résolue. L’IT modélise la donnée (données structurées) afin de répondre à ces questions.
BI Classique

Avec l’arrivée du Big Data, le paradigme change. L’IT met à la disposition du business une plateforme permettant de stocker et traiter des données structurées & non structurées. Le Business explore ces données afin d’en dégager de la valeur.
Big Data Discovery

Quel avenir pour le Data Warehouse et Hadoop ?

Hadoop permet d’archiver un grand nombre de données à moindre coût, de stocker et de traiter rapidement, et avec de très bonnes performances, des données structurées et non-structurées en utilisant de l’analytics avancé.

Le Data Warehouse, quant à lui, est basé sur une modélisation, ce qui implique quelques contraintes. Il est optimisé pour créer des modèles de données performants, utilisés par les requêtes interactives des outils de BI. De plus, il supporte très bien la concurrence entre les utilisateurs.

Actuellement, les entreprises possédant des Data Warehouses migrent très rarement totalement vers Hadoop et s’orientent plus sur une solution mixte « Data Warehouse / Hadoop ».

La mise en place d’une plateforme Hadoop en aval du Data Warehouse permet de traiter des données non structurées, d’explorer les données avant de les insérer dans le Data Warehouse et ainsi, de s’affranchir des contraintes du Data Warehouse (éviter des problèmes organisationnels, consommateurs de temps, tout en donnant de l’agilité à la solution).

Les opérateurs Data Warehouse traditionnels, comme Teradata et Oracle, l’ont bien compris en créant des partenariats avec des distributions Hadoop comme Hortonworks et Cloudera.

Bien que les technologies évoluent rapidement chacune de leur côté (le temps réel est implémenté dans certains Data Warehouses ; des requêtes interactives sont possibles dans l’écosystème Hadoop via l’arrivée de Kudu, Impala et Drill), ces deux mondes sont pour l’instant complémentaires.

Alexia Audevart Author: Alexia Audevart

Data & Enthusiasm @ekito;
Co-Organizer of Toulouse Data Science TDS meet-up;
My hashtags: #BigData #DataScience #Spark #DataVizualisation #MachineLearning

Like it?  Share  it!

Share Button
What do  You  think? Write a comment!

Leave a Reply

Required fields are marked *.


CommentLuv badge

This site uses Akismet to reduce spam. Learn how your comment data is processed.