Je suis novice en Scala, et je dois utiliser Scala et SQL, Mllib et GraphX de Spark afin d'effectuer une analyse sur un énorme ensemble de données. Les analyses que je veux faire sont :
- Valeur du cycle de vie du client (CLV)
- Mesures de la centralité (degré, vecteur propre, interdépendance des bords), proximité) Les données sont dans un fichier CSV (60GB (3 ans de données transnationales)) situé dans le cluster Hadoop.
Ma question porte sur l'approche optimale pour accéder aux données et effectuer les calculs ci-dessus ?
- Dois-je charger les données du fichier CSV dans le cadre de données et travailler sur les éléments suivants le cadre de données ? ou
- Dois-je charger les données à partir du fichier CSV et les convertir en RDD ? puis travailler sur le RDD ? ou
- Existe-t-il une autre approche pour accéder aux données et effectuer les analyses ?
Merci beaucoup d'avance pour votre aide