Qu'est-ce que la modélisation de données ?
La modélisation de données est le processus de création d'une représentation visuelle ou d'un plan qui définit les systèmes de collecte et de gestion de l'information de toute organisation. Ce plan ou modèle de données aide différentes parties prenantes, comme les analystes de données, les scientifiques et les ingénieurs, à créer une vue unifiée des données de l'organisation. Le modèle décrit les données que l'entreprise recueille, la relation entre les différents jeux de données et les méthodes qui seront utilisées pour stocker et analyser les données.
Pourquoi la modélisation des données est-elle importante ?
Aujourd'hui, les organisations recueillent une grande quantité de données depuis de nombreuses sources. Cependant, les données brutes ne suffisent pas. Il convient d'analyser les données pour obtenir des informations exploitables permettant de prendre des décisions métier rentables. Une analyse précise des données requiert l'efficacité de la récolte, du stockage et du traitement des données. Il existe plusieurs technologies de bases de données et outils de traitement des données, et différents jeux de données nécessitent différents outils pour une analyse efficace.
La modélisation de données vous permet de comprendre vos données et de faire les bons choix technologiques de stockage et de gestion de ces données. De la même façon qu'un architecte conçoit un plan avant de construire une maison, les parties prenantes de l'entreprise conçoivent un modèle de données avant d'élaborer les solutions de bases de données de leur organisation.
La modélisation de données apporte les avantages suivants :
- Réduction des erreurs au cours du développement de logiciels de bases de données
- Vitesse et efficacité de la conception et de la création de bases de données
- Cohérence de la documentation de données et de la conception des systèmes au sein de l'organisation
- Simplification de la communication entre les ingénieurs de données et les équipes d'informatique décisionnelle
Quels sont les types de modèles de données ?
La modélisation de données commence généralement par la représentation conceptuelle des données, puis par leur représentation dans le contexte des technologies sélectionnées. Les analystes et les parties prenantes créent différents types de modèles de données lors de la phase de conception des données. Voici les trois principaux types de modèles de données :
Modèle conceptuel de données
Les modèles conceptuels de données permettent une vision large et globale des données. Ils expliquent les éléments suivants :
- Les données contenues par le système
- Les attributs et conditions de données ou les contraintes des données
- Les règles métier qui régissent les données
- Comment organiser au mieux les données
- Les exigences de sécurité et d'intégrité des données
En règle générale, les analystes et les parties prenantes de l'entreprise créent le modèle conceptuel. Il s'agit d'une simple représentation schématique qui ne suit pas les règles formelles de la modélisation de données. L'important, c'est qu'elle aide les parties prenantes techniques et non techniques à partager une vision commune et à se mettre d'accord sur l'objectif, la portée et la conception de leur projet de données.
Exemple de modèles conceptuels de données
Par exemple, le modèle conceptuel de données d'une concession automobile peut afficher les entités de données comme suit :
- Une entité Expositions qui représente les informations relatives aux différents points de vente de la concession
- Une entité Voitures qui représente les différentes voitures actuellement stockées par la concession
- Une entité Clients qui représente tous les clients ayant effectué un achat dans la concession
- Une entité Ventes qui représente les informations relatives à la vente concrète
- Une entité Représentant qui représente les informations relatives à tous les représentants travaillant pour la concession
Ce modèle conceptuel inclurait également des exigences métier, par exemple :
- Chaque voiture doit appartenir à une exposition spécifique.
- Chaque vente doit être associée à au moins un représentant et un client.
- Chaque voiture doit avoir un nom de marque et un numéro de produit.
- Chaque client doit fournir son numéro de téléphone et son adresse e-mail.
Ainsi, les modèles conceptuels servent de passerelle entre les règles métier et le système physique de gestion de bases de données (SGBD) sous-jacent. Les modèles conceptuels de données sont également appelés modèles de domaines.
Modèle logique de données
Les modèles logiques de données associent les classes conceptuelles de données aux structures techniques de données. Elles donnent plus de détails concernant les concepts de données et les relations complexes entre les données ayant été identifiés dans le modèle conceptuel de données, tels que :
- Les types de données des différents attributs (par exemple, chaîne ou numéro)
- Les relations entre les entités de données
- Les attributs primaires ou les champs clés des données
Les architectes et analystes de données collaborent afin de créer le modèle logique. Ils suivent l'un des systèmes formels de modélisation de données pour créer la représentation. Il arrive que les équipes agiles sautent cette étape et passent directement des modèles conceptuels aux modèles physiques. Cependant, ces modèles sont utiles pour la conception de grandes bases de données, appelées entrepôts des données, ainsi que pour la conception de systèmes d'informations automatisés.
Exemple de modèles logiques de données
Dans notre exemple de concession automobile, le modèle logique de données étendrait le modèle conceptuel et analyserait de manière plus approfondie les classes de données, comme suit :
- L'entité Expositions est dotée de champs de nom et d'emplacement sous la forme de données textuelles, et d'un champ de numéro de téléphone sous la forme de données numériques.
- L'entité Clients est dotée d'un champ d'adresse e-mail au format [email protected] ou [email protected]. Le nom du champ ne peut pas dépasser 100 caractères.
- L'entité Ventes est dotée de champs de noms pour le client et le représentant. La date de la vente est un type de données de date et la quantité un type de données décimal.
Ainsi, les modèles logiques servent de passerelle entre le modèle conceptuel de données, la technologie sous-jacente et le langage de base de données utilisé par les développeurs pour créer la base de données. Cependant, ils sont indépendants au niveau technologique et peuvent être mis en place dans tout langage de base de données. En général, les ingénieurs de données et les parties prenantes prennent des décisions technologiques après la création d'un modèle logique de données.
Modèle physique de données
Les modèles physiques de données associent les modèles logiques de données à une technologie de SGBD spécifique et utilisent la terminologie du logiciel. Par exemple, ils fournissent des détails relatifs aux éléments suivants :
- Les types de champs de données tels que représentés dans le SGBD
- Les relations entre les données telles que représentées dans le SGBD
- Des détails supplémentaires, comme le réglage des performances
Les ingénieurs de données créent le modèle physique avant la mise en œuvre finale de la conception. Ils suivent également des techniques formelles de modélisation de données afin de s'assurer d'avoir abordé tous les aspects de la conception.
Exemple de modèles physiques de données
Imaginons que la concession automobile a décidé de créer une archive de données dans Amazon S3 Glacier Flexible Retrieval. Son modèle physique de données indique les spécifications suivantes :
- Dans Ventes, le montant de la vente est un type de données flottant, et la date de la vente est un type de données d'horodatage.
- Dans Clients, le nom du client est un type de données de chaîne.
- Dans la terminologie S3 Glacier Flexible Retrieval, un coffre-fort est l'emplacement géographique de vos données.
Votre modèle physique de données inclut également des détails supplémentaires, tels que la région AWS dans laquelle vous créerez votre coffre-fort. Ainsi, le modèle physique de données sert de passerelle entre le modèle logique de données et la mise en œuvre finale de la technologie.
Quels sont les types de techniques de modélisation de données ?
Les techniques de modélisation de données sont les différentes méthodes que vous pouvez utiliser afin de créer différents modèles de données. Au fil du temps, les approches ont évolué en raison des innovations des concepts de base de données et de la gouvernance des données. Voici les principaux types de modélisation de données :
Modélisation hiérarchique des données
Dans le cadre de la modélisation hiérarchique des données, vous pouvez représenter les relations entre les différents éléments de données au format arborescent. Les modèles hiérarchiques de données représentent des relations de type « un à plusieurs », les parents ou les classes de données racines étant associés à plusieurs enfants.
Dans l'exemple de la concession automobile, la classe parent Expositions aurait pour enfants les deux entités Voitures et Représentants, car plusieurs voitures sont exposées et plusieurs représentants travaillent dans une exposition.
Modélisation graphique des données
Au fil du temps, la modélisation hiérarchique des données a évolué afin de devenir la modélisation graphique des données. Les modèles graphiques de données représentent les relations entre les données qui traitent les entités de manière égale. Les entités peuvent se lier entre elles dans le cadre de relations de type « un à plusieurs » ou « many-to-many », sans concept de parent ou d'enfant.
Par exemple, une exposition peut avoir plusieurs représentants, et un représentant peut également travailler dans plusieurs expositions si ses postes varient par emplacement.
Modélisation relationnelle des données
La modélisation relationnelle des données est une approche répandue de la modélisation, qui visualise les classes de données sous la forme de tables. Des tables de données différentes sont réunies ou reliées à l'aide de clés qui représentent la relation réelle entre les entités. Vous pouvez utiliser la technologie de base de données relationnelle afin de stocker des données structurées. Un modèle relationnel de données est une méthode utile de représentation de votre structure de base de données relationnelle.
Par exemple, la concession automobile aurait des modèles relationnels de données qui représentent la table Représentants et la table Voitures, comme indiqué ci-dessous :
ID du représentant | Nom |
1 | Jane |
2 | John |
ID de la voiture | Marque de la voiture |
C1 | XYZ |
C2 | ABC |
L'ID du représentant et l'ID de la voiture sont des clés primaires qui identifient de manière unique des entités individuelles réelles. Dans la table Exposition, ces clés primaires jouent le rôle de clés étrangères qui relient les segments de données.
ID de l'exposition | Nom de l'exposition | ID du représentant | ID de la voiture |
S1 | Exposition NY | 1 | C1 |
Dans des bases de données relationnelles, les clés primaires et étrangères s'associent pour montrer la relation entre les données. La table précédente démontre que les expositions peuvent avoir des représentants et des voitures.
Modélisation entité-association des données
La modélisation entité-association (EA) des données utilise des diagrammes formels pour représenter les relations entre les entités d'une base de données. Les architectes de données utilisent plusieurs outils de modélisation EA pour représenter les données.
Modélisation orientée objet des données
La programmation orientée objet utilise des structures de données appelées objets afin de stocker les données. Ces objets de données sont des abstractions logicielles d'entités réelles. Par exemple, dans un modèle orienté objet de données, la concession automobile aurait des objets de données, tels que les Clients, avec des attributs, tels que le nom, l'adresse et le numéro de téléphone. Vous stockeriez les données clients afin que chaque client réel soit représenté sous la forme d'objet de données clients.
Les modèles orientés objet de données surmontent un grand nombre des limites des modèles relationnels de données, et sont très répandus dans les bases de données multimédias.
Modélisation dimensionnelle des données
L'informatique moderne d'entreprise utilise la technologie d'entrepôt des données pour stocker de grandes quantités de données à des fins analytiques. Vous pouvez utiliser des projets de modélisation dimensionnelle des données pour le stockage de données haut débit et la récupération depuis un entrepôt des données. Les modèles dimensionnels utilisent la duplication ou les données redondantes, et donnent la priorité aux performances plutôt qu'à la réduction de l'espace de stockage des données.
Par exemple, dans le cadre des modèles dimensionnels de données, la concession automobile est dotée de dimensions telles que Voiture, Exposition et Heure. La dimension Voiture est dotée d'attributs comme le nom et la marque, mais la dimension Exposition présente des hiérarchies, comme la région, la ville, le nom de rue et le nom de l'exposition.
Quel est le processus de modélisation des données ?
Le processus de modélisation des données suit un ensemble d'étapes que vous devez effectuer de manière répétée jusqu'à la création d'un modèle de données complet. Dans chaque organisation, de nombreuses parties prenantes se rassemblent pour créer une vue d'ensemble des données. Même si les étapes dépendent du type de modélisation des données, un aperçu général est présenté ci-dessous.
Étape 1 : identification des entités et de leurs propriétés
Identifiez toutes les entités de votre modèle de données. Chaque entité doit être logiquement distincte de toutes les autres entités et peut représenter des personnes, des lieux, des objets, des concepts ou des événements. Chaque entité est distincte, car dotée d'une ou de plusieurs propriétés uniques. Vous pouvez considérer les entités comme les noms et les attributs comme les adjectifs de votre modèle de données.
Étape 2 : identification des relations entre les entités
Les relations entre les différentes entités sont au cœur de la modélisation de données. Les règles métier définissent dans un premier temps ces relations au niveau théorique. Vous pouvez considérer les relations comme les verbes de votre modèle de données. Par exemple, le représentant vend de nombreuses voitures, ou l'exposition emploie de nombreux représentants.
Étape 3 : identification de la technique de modélisation des données
Après avoir compris en théorie vos entités et leurs relations, vous pouvez déterminer la technique de modélisation des données qui correspond le plus à votre cas d'utilisation. Par exemple, vous pouvez utiliser la modélisation relationnelle des données pour les données structurées, mais la modélisation dimensionnelle des données pour les données non structurées.
Étape 4 : optimisation et itération
Vous pouvez optimiser votre modèle de données de manière plus approfondie afin qu'il corresponde à vos exigences technologiques et de performances. Par exemple, si vous avez l'intention d'utiliser Amazon Aurora et un langage de requête structuré (SQL), vous placerez directement vos entités dans des tables et spécifierez les relations à l'aide de clés étrangères. En revanche, si vous décidez d'utiliser Amazon DynamoDB, vous devrez réfléchir aux modèles d'accès avant de modéliser votre table. Puisque DynamoDB donne la priorité à la rapidité, vous déterminez d'abord comment accéder à vos données, puis vous modélisez vos données au format par lequel elles seront consultées.
En règle générale, vous repasserez plusieurs fois par ces étapes à mesure de l'évolution de votre technologie et de vos exigences.
Comment AWS peut-il aider en matière de modélisation de données ?
Vous pouvez également utiliser AWS Amplify DataStore pour bénéficier d'une modélisation des données plus rapide et plus simple afin de concevoir des applications Web et mobiles. Ce service est doté d'une interface visuelle et de code permettant de définir votre modèle de données avec des relations, ce qui va accélérer le développement de votre application.
Démarrez avec la modélisation de données sur AWS en créant un compte gratuit dès aujourd'hui.