J'ai deux fichiers A
-nodes_to_delete
et B
-nodes_to_keep
. Chaque fichier a un nombre de lignes avec des id numériques.
Je veux avoir la liste des id numériques qui sont en nodes_to_delete
mais PAS en nodes_to_keep
, par exemple .
Le faire au sein d'une base de données PostgreSQL est excessivement lent. De toute manière simple de le faire en bash sous Linux avec des outils CLI?
Mise à JOUR: Cela semble être une Pythonic travail, mais les fichiers sont vraiment, vraiment grand. J'ai résolu certains des problèmes similaires à l'aide de uniq
, sort
, et certains de la théorie des ensembles techniques. C'était à propos de deux ou trois ordres de grandeur plus rapide que la base de données équivalents.
Adam