J'ai un fichier .csv avec environ 5000 lignes et 3757 colonnes. Les 3751 premières colonnes de chaque ligne sont les caractéristiques et les 6 dernières colonnes sont les étiquettes. Chaque ligne est un ensemble de paires caractéristiques-étiquettes.
J'aimerais savoir s'il existe des fonctions intégrées ou des moyens rapides de le faire :
- Analyser les 3751 premières colonnes en tant que caractéristiques (ces colonnes n'ont pas d'en-tête).
- Analyser N'IMPORTE QUELLE des 6 dernières colonnes comme étiquettes, ce qui signifie que j'aimerais prendre n'importe laquelle des 6 dernières colonnes comme étiquette pour la formation.
En gros, je veux former un modèle DNN avec 3751 caractéristiques et 1 étiquette et je voudrais que la sortie de la fonction d'analyse syntaxique soit introduite dans la fonction suivante pour la formation :
train_input_fn = tf.estimator.inputs.numpy_input_fn(
x={"x": np.array(training_set.data)},
y=np.array(training_set.target),
num_epochs=None,
shuffle=True)
Je sais que certaines fonctions comme "tf.contrib.learn.datasets.base.load_csv_without_header" peuvent faire des choses similaires mais elles sont déjà dépréciées.