Si j'exécute spark sur ec2 (ou dans kubernetes), puis-je utiliser s3/emrfs à la place de hdfs ? Est-ce prêt pour la production et utilise-t-il le parallélisme pour lire/traiter les données de s3 ?
Merci d'avance
Si j'exécute spark sur ec2 (ou dans kubernetes), puis-je utiliser s3/emrfs à la place de hdfs ? Est-ce prêt pour la production et utilise-t-il le parallélisme pour lire/traiter les données de s3 ?
Merci d'avance
Non, EMRFS est réservé à EMR, c'est un moyen simple de faire en sorte que S3 ressemble à une partie de HDFS. Pour EC2, vous vous connectez à S3, mais c'est moins facile qu'avec EMR. S3 n'est pas étroitement couplé à EC2. Oui, le parallélisme est appliqué, mais pas en fonction de la localisation des données MR, c'est-à-dire du travailleur et du nœud de données.
EMR utilise un connecteur S3 à source fermée avec des caractéristiques propriétaires "emrfs". Vous n'avez pas accès à la source, vous ne pouvez pas obtenir de support de qui que ce soit. et vous ne pouvez pas l'utiliser sauf lorsque vous exécutez emr . Pour les applications indépendantes : le connecteur s3a est excellent mais ne remplace pas complètement HDFS.
Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.