from statistics import mean
import pandas as pd
df = pd.DataFrame(columns=['A', 'B', 'C'])
df["A"] = [1, 2, 3, 4, 4, 5, 6]
df["B"] = ["Feb", "Feb", "Feb", "May", "May", "May", "May"]
df["C"] = [10, 20, 30, 40, 30, 50, 60]
df1 = df.groupby(["A","B"]).agg(mean_err=("C", mean)).reset_index()
# How can I do this in Pyspark .withColumn() instead of the last line of code?
Au lieu de la dernière ligne de code, comment puis-je le faire comme dans Pyspark .withColumn() ?
Ce code ne fonctionnera pas. Je voudrais créer une nouvelle colonne en utilisant la sortie de l'opération en temps réel de la même manière que nous le faisons dans Pyspark avec la méthode withColumn.
Est-ce que quelqu'un a une idée de comment faire cela ?