Pour un aperçu et des détails approfondis, vous pouvez vous référer à la documentation. Citant la documentation, "le package sparklyr fournit un backend dplyr complet". Cela reflète que sparklyr n'est PAS un remplacement du spark apache original mais une extension de celui-ci.
Poursuivant, en parlant de son installation (je suis un utilisateur de Windows) sur un ordinateur autonome, vous devrez soit télécharger et installer la nouvelle version de prévisualisation de RStudio, soit exécuter la série de commandes suivante dans le shell de RStudio,
> devtools::install_github("rstudio/sparklyr")
installez les packages readr et digest si vous ne les avez pas déjà installés.
install.packages("readr")
install.packages("digest")
library(sparklyr)
spark_install(version = "1.6.2")`
Une fois les packages installés et que vous essayez de vous connecter en vous connectant à une instance locale de Spark en utilisant la commande;
sc <- spark_connect(master = "local")
Vous pourriez voir une erreur telle que
Répertoire bin hadoop par défaut créé sous: C:\spark-1.6.2\tmp\hadoop Erreur:
Pour exécuter Spark sur Windows, vous avez besoin d'une copie de Hadoop winutils.exe:
- Téléchargez Hadoop winutils.exe ici
- Copiez winutils.exe dans C:\spark-1.6.2\tmp\hadoop\bin
Alternativement, si vous utilisez RStudio, vous pouvez installer la version de prévisualisation de RStudio qui inclut une copie intégrée de Hadoop winutils.exe.
La résolution de l'erreur vous est donnée. Rendez-vous sur le compte Github, téléchargez le fichier winutils.exe et sauvegardez-le à l'emplacement, C:\spark-1.6.2\tmp\hadoop\bin
et essayez de recréer le contexte Spark. L'année dernière, j'ai publié un article complet sur mon blog détaillant l'installation et le travail avec SparkR sur l'environnement Windows.
Cela dit, je recommanderais de ne pas passer par ce chemin douloureux d'installer une instance locale de Spark sur le RStudio habituel, plutôt essayez la version de prévisualisation de RStudio. Cela vous évitera grandement la peine de créer le contexte Spark. Poursuivant, voici un article détaillé sur la manière dont sparklyr peut être utilisé sur R-bloggers.
J'espère que cela vous aidera.
Santé.