Avec le dataframe pyspark, comment faire l'équivalent de df['col'].unique()
dans Pandas.
Je veux répertorier toutes les valeurs uniques dans une colonne d'un dataframe pyspark.
Je ne veux pas faire la méthode SQL (registertemplate puis requête SQL pour les valeurs distinctes).
Je ne veux pas non plus utiliser groupby
puis countDistinct
, je préfère vérifier les VALEURS distinctes dans cette colonne.