Comment puis-je supprimer les lignes en double ?

Question

Comment puis-je supprimer les lignes en double ?

Demandé el 20 de Août, 2008: Quand la question a-t-elle été
255555 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Quelle est la meilleure façon de supprimer les lignes en double d'un fichier assez volumineux ? SQL Server (c'est-à-dire 300 000+ lignes) ?

Bien entendu, les lignes ne seront pas des doublons parfaits en raison de l'existence de l'élément RowID le champ d'identité.

MaTable

RowID int not null identity(1,1) primary key,
Col1 varchar(20) not null,
Col2 varchar(2048) not null,
Col3 tinyint not null

Demandé el 20 de Août, 2008 par Terrapin

14 votes

Un conseil rapide pour les utilisateurs de PostgreSQL qui lisent ceci (beaucoup, à en juger par la fréquence des liens) : Pg n'expose pas les termes CTE en tant que vues actualisables. DELETE FROM un terme CTE directement. Voir stackoverflow.com/q/18439054/398670

Commenté el 26 de Août, 2013 par Craig Ringer

0 votes

@CraigRinger la même chose est vraie pour Sybase - J'ai rassemblé les solutions restantes ici (elles devraient être valables pour PG et d'autres, aussi : stackoverflow.com/q/19544489/1855801 (il suffit de remplacer le ROWID() par la colonne RowID, le cas échéant)

Commenté el 29 de Octobre, 2013 par maf-soft

13 votes

Juste pour ajouter une mise en garde ici. Lorsque vous exécutez un processus de déduplication, vérifiez toujours d'abord ce que vous supprimez ! C'est l'un des domaines où il est très fréquent de supprimer accidentellement de bonnes données.

Commenté el 4 de Décembre, 2013 par Jeff Davis

Answer 1

5 Réponses

Answer 2

1168voto

Mark Brackett Points 46824

En supposant qu'il n'y ait pas de nulles, vous GROUP BY les colonnes uniques, et SELECT le site MIN (or MAX) RowId comme la ligne à conserver. Ensuite, il suffit de supprimer tout ce qui n'a pas d'ID de rangée :

DELETE FROM MyTable
LEFT OUTER JOIN (
   SELECT MIN(RowId) as RowId, Col1, Col2, Col3 
   FROM MyTable 
   GROUP BY Col1, Col2, Col3
) as KeepRows ON
   MyTable.RowId = KeepRows.RowId
WHERE
   KeepRows.RowId IS NULL

Dans le cas où vous avez un GUID au lieu d'un entier, vous pouvez remplacer

MIN(RowId)

con

CONVERT(uniqueidentifier, MIN(CONVERT(char(36), MyGuidColumn)))

Répondu el 20 de Août, 2008 par Mark Brackett (46824 Points )

340 votes

Cela fonctionnerait-il aussi bien ? DELETE FROM MyTable WHERE RowId NOT IN (SELECT MIN(RowId) FROM MyTable GROUP BY Col1, Col2, Col3);

Commenté el 23 de Septembre, 2010 par Georg Schölly

1 votes

Excellente solution ! Il semble que pour PostgreSQL, il faille une sous-requête de plus comme dans gist.github.com/754805

Commenté el 25 de Décembre, 2010 par mdorseif

0 votes

@Georg : Je pense que oui. Votre solution est plus courte et plus claire. Je ne suis pas sûr des performances, peut-être qu'elle est équivalente à celle de Mark, mais avec des tables vraiment grandes, je m'en tiendrais probablement au LEFT JOIN.

Commenté el 12 de Janvier, 2011 par Andriy M

Afficher 29 autres commentaires

Answer 3

777voto

Martin Smith Points 174101

Une autre façon de procéder est la suivante

; 

--Ensure that any immediately preceding statement is terminated with a semicolon above
WITH cte
     AS (SELECT ROW_NUMBER() OVER (PARTITION BY Col1, Col2, Col3 
                                       ORDER BY ( SELECT 0)) RN
         FROM   #MyTable)
DELETE FROM cte
WHERE  RN > 1;

J'utilise ORDER BY (SELECT 0) ci-dessus car le choix de la ligne à préserver en cas d'égalité est arbitraire.

Pour conserver le dernier en date dans RowID par exemple, vous pourriez utiliser ORDER BY RowID DESC

Plans d'exécution

Le plan d'exécution est souvent plus simple et plus efficace que celui de la réponse acceptée, car il ne nécessite pas de jointure automatique.

Ce n'est cependant pas toujours le cas. Un endroit où le GROUP BY peut être préférée dans les situations où une agrégat de hachage serait choisi de préférence à un agrégat de flux.

En ROW_NUMBER donnera toujours à peu près le même plan, alors que la solution de la GROUP BY est plus flexible.

Les facteurs qui pourraient favoriser l'approche de l'agrégat de hachage seraient les suivants

Pas d'index utile sur les colonnes de partitionnement
relativement moins de groupes avec relativement plus de doublons dans chaque groupe

Dans les versions extrêmes de ce deuxième cas (s'il y a très peu de groupes avec beaucoup de doublons dans chacun d'entre eux), on peut aussi envisager d'insérer simplement les lignes à conserver dans une nouvelle table, alors TRUNCATE -sur l'original et les recopier pour minimiser la journalisation par rapport à la suppression d'une très grande partie des lignes.

Répondu el 29 de Septembre, 2010 par Martin Smith (174101 Points )

31 votes

Si je peux ajouter : La réponse acceptée ne fonctionne pas avec les tables qui utilisent uniqueidentifier . Celui-ci est beaucoup plus simple et fonctionne parfaitement sur n'importe quelle table. Merci Martin.

Commenté el 16 de Novembre, 2010 par BrunoLM

1 votes

C'est la seule solution qui fonctionne sur ma grande table (30 millions de lignes). J'aimerais pouvoir lui donner plus de +1

Commenté el 12 de Juillet, 2011 par Julia Hayward

15 votes

C'est une réponse tellement géniale ! Cela a fonctionné alors que j'avais supprimé l'ancien PK avant de réaliser qu'il y avait des doublons. +100

Commenté el 19 de Juillet, 2011 par Mikael Eliasson

Afficher 13 autres commentaires

Answer 4

153voto

Jon Galloway Points 28243

Il y a un bon article sur suppression des doublons sur le site du support Microsoft. C'est assez conservateur - ils vous demandent de tout faire en plusieurs étapes - mais cela devrait bien fonctionner pour les grandes tables.

J'ai utilisé des auto-joints pour faire cela dans le passé, bien que cela puisse probablement être amélioré avec une clause HAVING :

DELETE dupes
FROM MyTable dupes, MyTable fullTable
WHERE dupes.dupField = fullTable.dupField 
AND dupes.secondDupField = fullTable.secondDupField 
AND dupes.uniqueField > fullTable.uniqueField

Répondu el 20 de Août, 2008 par Jon Galloway (28243 Points )

0 votes

Parfait ! j'ai trouvé que c'est le moyen le plus efficace pour supprimer les lignes en double sur mon ancienne version mariadb 10.1.xx. merci !

Commenté el 11 de Février, 2020 par Drunken M

0 votes

Beaucoup plus simple et plus facile à comprendre !

Commenté el 21 de Février, 2020 par Marc

0 votes

J'ai un doute, dans votre requête sql, pourquoi n'utilisez-vous pas le mot clé 'From' après 'DELETE' ? Je l'ai vu dans de nombreuses autres solutions.

Commenté el 3 de Avril, 2021 par user3065757

Answer 5

100voto

gngolakia Points 654

La requête suivante est utile pour supprimer les lignes en double. La table dans cet exemple a ID comme une colonne d'identité et les colonnes qui ont des données en double sont Column1 , Column2 y Column3 .

DELETE FROM TableName
WHERE  ID NOT IN (SELECT MAX(ID)
                  FROM   TableName
                  GROUP  BY Column1,
                            Column2,
                            Column3
                  /*Even if ID is not null-able SQL Server treats MAX(ID) as potentially
                    nullable. Because of semantics of NOT IN (NULL) including the clause
                    below can simplify the plan*/
                  HAVING MAX(ID) IS NOT NULL)

Le script suivant montre l'utilisation de la fonction GROUP BY , HAVING , ORDER BY en une seule requête, et renvoie les résultats avec la colonne dupliquée et son nombre.

SELECT YourColumnName,
       COUNT(*) TotalCount
FROM   YourTableName
GROUP  BY YourColumnName
HAVING COUNT(*) > 1
ORDER  BY COUNT(*) DESC

Répondu el 23 de Novembre, 2011 par gngolakia (654 Points )

1 votes

Erreur MySQL avec le premier script 'Vous ne pouvez pas spécifier la table cible 'TableName' pour la mise à jour dans la clause FROM'.

Commenté el 13 de Juin, 2012 par D.Rosado

0 votes

Outre l'erreur déjà signalée par D.Rosado, votre première requête est également très lente. La requête SELECT correspondante a pris sur mon installation +- 20 fois plus de temps que la réponse acceptée.

Commenté el 3 de Janvier, 2013 par parvus

8 votes

@parvus - La question est étiquetée SQL Server et non MySQL. La syntaxe est bonne dans SQL Server. De plus, MySQL est notoirement mauvais pour l'optimisation des sous-requêtes. voir par exemple ici . Cette réponse convient parfaitement à SQL Server. En effet NOT IN est souvent plus performant que OUTER JOIN ... NULL . J'ajouterais un HAVING MAX(ID) IS NOT NULL à la requête même si, sémantiquement, cela ne devrait pas être nécessaire car cela peut améliorer le plan. exemple de cela ici

Commenté el 4 de Janvier, 2013 par Martin Smith

Afficher 1 autres commentaires

Answer 6

67voto

SoftwareGeek Points 2899

delete t1
from table t1, table t2
where t1.columnA = t2.columnA
and t1.rowid>t2.rowid

Postgres :

delete
from table t1
using table t2
where t1.columnA = t2.columnA
and t1.rowid > t2.rowid

Répondu el 30 de Septembre, 2010 par SoftwareGeek (2899 Points )

0 votes

Pourquoi poster une solution Postgres sur une question SQL Server ?

Commenté el 8 de Mars, 2016 par Lankymart

3 votes

@Lankymart Parce que les utilisateurs de postgres viennent ici aussi. Regardez le score de cette réponse.

Commenté el 15 de Janvier, 2018 par Gabriel

2 votes

J'ai vu cela dans certaines questions SQL populaires, comme dans aquí , aquí y aquí . Le PO a obtenu sa réponse et tous les autres ont reçu de l'aide. Pas de problème, IMHO.

Commenté el 15 de Janvier, 2018 par Gabriel

Afficher 1 autres commentaires

Comment puis-je supprimer les lignes en double ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment puis-je supprimer les lignes en double ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: