Tout d'abord, il faut bien comprendre que Hadoop a été créé comme une alternative plus rapide à SGBDR . Traiter une grande quantité de données à un rythme très rapide, ce qui prenait auparavant beaucoup de temps dans les SGBDR.
Il faut maintenant connaître les deux termes :
-
Données structurées : Ce sont les données que nous utilisons dans les SGBDR traditionnels et qui sont divisées en structures bien définies.
-
Données non structurées : Il est important de comprendre qu'environ 80% des données mondiales sont non structurées ou semi structurées. Ce sont les données qui sont sous leur forme brute et qui ne peuvent pas être traitées à l'aide de RDMS. Exemple : données facebook, twitter. ( http://www.dummies.com/how-to/content/unstructured-data-in-a-big-data-environment.html ).
Ainsi, de grandes quantités de données ont été générées au cours des dernières années et les données étaient pour la plupart non structurées, ce qui a donné naissance à HADOOP. Il était principalement utilisé pour de très grandes quantités de données qui prenaient un temps insupportable avec un SGBDR. Il présentait de nombreux inconvénients, notamment celui de ne pas pouvoir être utilisé pour des données comparativement petites en temps réel, mais ils ont réussi à éliminer ces inconvénients dans la nouvelle version.
Avant d'aller plus loin, je voudrais dire qu'un nouvel outil Big Data est créé lorsqu'on constate un défaut dans les outils précédents. Ainsi, quel que soit l'outil que vous verrez, il a été créé pour surmonter le problème des outils précédents.
Hadoop peut se résumer à deux choses : Mapreduce y HDFS . Mapreduce est l'endroit où le traitement a lieu et HDFS est la base de données où les données sont stockées. Cette structure a suivi WORM principal, c'est-à-dire écrire une fois lire plusieurs fois. Ainsi, une fois que nous avons stocké des données dans HDFS, nous ne pouvons pas les modifier. Cela a conduit à la création de HBASE Un produit NOSQL qui permet de modifier les données même après les avoir écrites une fois.
Mais avec le temps, nous avons vu qu'Hadoop avait de nombreux défauts et pour cela nous avons créé différents environnements sur la structure Hadoop. PIG et HIVE sont deux exemples populaires.
HIVE a été créé pour les personnes ayant SQL le fond. Les requêtes écrites sont similaires à celles de SQL nommées comme HIVEQL . HIVE a été développé pour traiter complètement données structurées . Il n'est pas utilisé pour les données structurées.
COCHON d'autre part, possède son propre langage d'interrogation, à savoir COCHON LATIN . Il peut être utilisé à la fois pour structuré ainsi que données non structurées .
Pour ce qui est de la différence entre HIVE et PIG, je ne pense pas que quelqu'un d'autre que l'architecte de PIG puisse le dire. Suivez le lien : https://developer.yahoo.com/blogs/hadoop/comparing-pig-latin-sql-constructing-data-processing-pipelines-444.html
0 votes
Hadoop : Système de fichiers distribués Hadoop + Modèle de traitement informatique MapReduce. HBase : Stockage clé-valeur, bon pour la lecture et l'écriture en quasi temps réel. Ruche : Utilisé pour l'extraction de données à partir du HDFS en utilisant une syntaxe de type SQL. Cochon : est un langage de flux de données pour la création d'ETL.