Accueil > Sup’technology > Journal’Tech
La Big Data, c’est quoi ?

La Big Data, c’est quoi ?

La Big Data « Mégadonnées », ou encore « Données massives » désigne des ensembles de données trop complexes et volumineuses pour être traitées par les logiciels, applications ou solutions de traitement de données traditionnels. Les données avec un nombre massif de champs nécessitent une plus grande puissance statistique, tandis que les données avec une plus grande complexité (plus d'attributs) peuvent conduire à un taux de d’erreur plus élevé. Les défis de l'analyse des données massives comprennent la capture des données, leur stockage, leur analyse, la recherche et l'interrogation, le partage, le transfert, la visualisation, la mise à jour, la confidentialité et la sécurité des informations et des sources de données.

Les mégadonnées étaient à l'origine associées à trois concepts clés : volume, variété et vélocité. L’échantillonnage est une phase prépondérante dans l’analyse des données massives. Cette dernière ne permettait, préalablement, que des observations sur des échantillons. Le traitement de toute la donnée massive demandait des temps de calcul inacceptables.

Les données massives peuvent être décrites par les caractéristiques suivantes :

Le volume

La quantité de données générées et stockées. Plusieurs attributs participent dans la détermination du caractère Big Data ou non d’un contenu, notamment la taille. La taille des mégadonnées dépasse généralement les téraoctets et les pétaoctets. 1 Téraoctes = 1024 Go.

La Variété

Le type et la nature des données. Avant l’air de la Big Data, les Systèmes de Bases de Données Relationnelles étaient capables de gérer les données structurées. Cependant, le changement de type et de nature de structuré à semi-structuré ou non structuré a remis en question les outils et technologies existants. Les technologies de Big Data ont évolué avec l'intention première de capturer, stocker et traiter les données semi-structurées et non structurées (variété) générées à grande vitesse (vélocité) et de taille énorme (volume). Plus tard, ces outils et technologies ont été explorés et utilisés pour gérer également des données structurées, mais de préférence pour le stockage. Finalement, le traitement des données structurées est resté facultatif, soit à l'aide de mégadonnées, soit de SGBDR traditionnels. Cela aide à analyser les données en vue d'une utilisation efficace des informations cachées exposées à partir des données collectées via les médias sociaux, les fichiers journaux, les capteurs, etc. La Big Data tire du texte, des images, de l'audio, de la vidéo ; De plus, elle complète les pièces manquantes grâce à la fusion de données.

La Vélocité

La vitesse à laquelle les données sont générées et traitées pour répondre aux exigences et aux défis qui se dressent sur la voie de la croissance et du développement. Les mégadonnées sont souvent disponibles en temps réel. Par rapport aux petites données, les grandes données sont produites de manière plus continue. La vitesse est un élément prépondérant de la Big Data. Au cœur de ces éléments on trouve le traitement, l’enregistrement et la visualisation des données.

La Véracité

La véracité ou la fiabilité des données, qui fait référence à la qualité des données et à la valeur des données. Les données volumineuses doivent être fiables afin d'en tirer de la valeur dans la phase d’analyse de celles-ci. L’analyse est considérablement impactée par la qualité des données capturées ou extraites.

La valeur

La valeur de l'information est un attribut pouvant être obtenu par le traitement et l'analyse de grands sets de données. La valeur peut également représenter la rentabilité des informations extraites de l'analyse des données massives.

Variabilité

La caractéristique de l'évolution des formats, de la structure ou des sources de données volumineuses. Une des difficultés de la Big Data est le caractère hétérogène des données qui peuvent structurées ou partiellement ou pas du tout. L'analyse de données massives peut intégrer des données brutes provenant de plusieurs sources.

Plusieurs processus peuvent intervenir dans la transformation de données brutes en données structurées.

D’autres caractéristiques possibles des mégadonnées sont :

La Complétude

Si l'ensemble du système de données est capturé ou enregistré ou non. Les mégadonnées peuvent inclure ou non toutes les données disponibles provenant des sources.

Grain fin et lexical unique

Le grain fin détermine le rapport entre les données spécifiques de chaque élément. Le lexical unique est le niveau et la qualité d’indexation des éléments.

Relations

Si les données collectées contiennent des champs communs, cela permettrait une fusion, ou une méta-analyse, de différents ensembles de données.

Extensionnel

Le niveau de latitude à apporter des champs supplémentaires pour compléter la représentation des données.

Évolutivité

La capacité ou la scalabilité des capacités de stockage.

A Suivre..