J'ai un RDD extrait de fichiers contenant des URLs source et destination du format :
google.de/2011/10/Extract-host link.de/2011/10/extact-host
facebook.de/2014/11/photos facebook.de/2014/11/name.jpg
community.cloudera.com/t5/ community.cloudera.com/t10/
Ce sont les URL source et destination. Je voudrais extraire uniquement le nom de l'hôte, par exemple :
google.de link.de
facebook.de facebook.de
community.cloudera.com community.cloudera.com
Je sais comment extraire le nom d'hôte s'il n'y a qu'une seule colonne dans le fichier en utilisant
file.flatMap(_.split("/").take(1)).
Je ne sais pas comment l'appliquer à la fois aux URL source et destination. Voici ce que j'ai essayé :
file.flatMap{case(src + "\t" + dst) =>
((split.take(1).flatMap(line => line.split("/").take(1))),
(split.takeRight(1).flatMap(line => line.split("/").take(1))))}
Veuillez me dire comment extraire ce format en utilisant Scala.
Merci !