Utilisation de AWS EMRFS dans apache spark hébergé sur ec2

Question

Utilisation de AWS EMRFS dans apache spark hébergé sur ec2

Demandé el 24 de Décembre, 2018: Quand la question a-t-elle été
396 affichage: Nombre de visites la question a
2 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Si j'exécute spark sur ec2 (ou dans kubernetes), puis-je utiliser s3/emrfs à la place de hdfs ? Est-ce prêt pour la production et utilise-t-il le parallélisme pour lire/traiter les données de s3 ?

Merci d'avance

Demandé el 24 de Décembre, 2018 par Pragmatic

Answer 1

2 Réponses

Answer 2

2voto

thebluephantom Points 2724

Non, EMRFS est réservé à EMR, c'est un moyen simple de faire en sorte que S3 ressemble à une partie de HDFS. Pour EC2, vous vous connectez à S3, mais c'est moins facile qu'avec EMR. S3 n'est pas étroitement couplé à EC2. Oui, le parallélisme est appliqué, mais pas en fonction de la localisation des données MR, c'est-à-dire du travailleur et du nœud de données.

Répondu el 24 de Décembre, 2018 par thebluephantom (2724 Points )

Answer 3

1voto

Steve Loughran Points 4637

EMR utilise un connecteur S3 à source fermée avec des caractéristiques propriétaires "emrfs". Vous n'avez pas accès à la source, vous ne pouvez pas obtenir de support de qui que ce soit. et vous ne pouvez pas l'utiliser sauf lorsque vous exécutez emr . Pour les applications indépendantes : le connecteur s3a est excellent mais ne remplace pas complètement HDFS.

Répondu el 26 de Décembre, 2018 par Steve Loughran (4637 Points )

Utilisation de AWS EMRFS dans apache spark hébergé sur ec2

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Utilisation de AWS EMRFS dans apache spark hébergé sur ec2

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: