C'est la première fois que j'utilise PySpark, (Spark 2), et j'essaie de créer un dataframe pour un modèle Logit. J'ai exécuté avec succès la commande tutoriel et j'aimerais y intégrer mes propres données.
J'ai essayé :
%pyspark
import numpy as np
from pyspark.ml.linalg import Vectors, VectorUDT
from pyspark.mllib.regression import LabeledPoint
df = np.concatenate([np.random.randint(0,2, size=(1000)), np.random.randn(1000), 3*np.random.randn(1000)+2, 6*np.random.randn(1000)-2]).reshape(1000,-1)
df = map(lambda x: LabeledPoint(x[0], Vectors.dense(x[1:])), df)
mydf = spark.createDataFrame(df,["label", "features"])
mais je n'arrive pas à me débarrasser de :
TypeError: Cannot convert type <class 'pyspark.ml.linalg.DenseVector'> into Vector
J'utilise la bibliothèque ML pour les vecteurs et l'entrée est un tableau double, alors quel est le problème, s'il vous plaît ? Cela devrait être correct d'après le la documentation .
Merci beaucoup.