Accélérez l'insertion en vrac à l'aide de l'ORM de Django?

Question

Accélérez l'insertion en vrac à l'aide de l'ORM de Django?

Demandé el 27 de Novembre, 2010: Quand la question a-t-elle été
9645 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'ai l'intention de télécharger un milliard d'enregistrements prises de ~750 fichiers (chaque ~250 MO) pour un db à l'aide de l'ORM de django. Actuellement, chaque fichier ~20min à traiter, et je me demandais si il existe un moyen d'accélérer ce processus.

J'ai pris les mesures suivantes:

Utiliser @transaction.commit_manually et de s'engager une fois tous les 5000 enregistrements
Set DEBUG=False afin que django ne pas accumuler toutes les commandes sql dans la mémoire
La boucle qui s'exécute sur des enregistrements dans un fichier unique est entièrement contenue dans une seule fonction (minimiser les modifications de pile)
S'est abstenu de frapper la base de données pour les requêtes (utilisé un local de hachage des objets déjà dans la base de données au lieu d'utiliser get_or_create)
Ensemble force_insert=True dans la save() dans l'espoir qu'il permettra d'économiser de django, un peu de logique
Définir explicitement l'id dans l'espoir qu'il permettra d'économiser de django, un peu de logique
Général le code de réduction et d'optimisation

Que puis-je faire pour accélérer les choses? Voici quelques-unes de mes pensées:

Utiliser une sorte de compilateur Python ou version qui est plus rapide (Psyco?)
Remplacer l'ORM et l'utilisation de SQL directement
Utiliser certaines 3ème partie du code qui pourrait être mieux (1, 2)
Prie le django de la communauté pour créer un bulk_insert fonction

Tous les pointeurs au sujet de ces articles ou de tout autre idée serait la bienvenue :)

Demandé el 27 de Novembre, 2010 par Jonathan

Answer 1

5 Réponses

Answer 2

35voto

Gary Points 703

Django 1.4 donne un bulk_create() méthode sur l'objet QuerySet, voir:

Répondu el 13 de Février, 2012 par Gary (703 Points )

Answer 3

19voto

caoy Points 894

Ce n'est pas spécifique à l'ORM de Django, mais récemment, j'ai eu à l'instruction bulk insert >60 Millions de lignes de 8 colonnes de données de plus de 2000 fichiers dans une base de données sqlite3. Et j'ai appris que les trois choses suivantes réduction de l'heure d'insertion de plus de 48 heures à ~1 heure:

augmenter la taille du cache de la configuration de votre base de données à utiliser plus de mémoire vive (par défaut sont toujours très petite, j'ai utilisé 3 GO); dans sqlite, ce qui est fait par PRAGMA cache_size = n_of_pages;
faire la journalisation dans la RAM au lieu de disque (ce qui est la cause d'une légère problème si le système échoue, mais quelque chose que je considère être négligeable étant donné que vous avez la source de données sur le disque déjà); dans sqlite, ce qui est fait par PRAGMA journal_mode = MÉMOIRE
la dernière et peut-être le plus important: ne pas construire l'indice, tandis que l'insertion. Cela signifie aussi de ne pas déclarer UNIQUE ou à une autre contrainte qui pourrait provoquer des DB pour construire des index. Construire des index seulement après que vous avez terminé l'insertion.

Comme quelqu'un l'a mentionné précédemment, vous devez également utiliser le curseur.executemany() (ou tout simplement le raccourci conn.executemany()). Pour l'utiliser, faire:

cursor.executemany('INSERT INTO mytable (field1, field2, field3) VALUES (?, ?, ?)', iterable_data)

Le iterable_data pourrait être une liste ou quelque chose de semblable, ou même un fichier ouvert en lecture.

Répondu el 25 de Septembre, 2012 par caoy (894 Points )

Answer 4

14voto

Ignacio Vazquez-Abrams Points 312628

Passez à DB-API et utilisez cursor.executemany() . Voir PEP 249 pour plus de détails.

Répondu el 27 de Novembre, 2010 par Ignacio Vazquez-Abrams (312628 Points )

Answer 5

5voto

Seaux Points 1546

Il existe également un extrait d'insertion en masse sur http://djangosnippets.org/snippets/446/ .

Cela donne à une commande d'insertion plusieurs paires de valeurs (INSERT INTO x (val1, val2) VALUES (1,2), (3,4) --etc etc.). Cela devrait considérablement améliorer les performances.

Il semble également être très documenté, ce qui est toujours un plus.

Répondu el 9 de Février, 2011 par Seaux (1546 Points )

Answer 6

4voto

Seaux Points 1546

De plus, si vous voulez quelque chose de simple et rapide, vous pouvez essayer ceci: http://djangosnippets.org/snippets/2362/ . C'est un simple gestionnaire que j'ai utilisé sur un projet.

L'autre extrait n'était pas aussi simple et était vraiment axé sur les insertions en vrac pour les relations. Il s'agit simplement d'une insertion en bloc simple et utilise simplement la même requête INSERT.

Répondu el 18 de Février, 2011 par Seaux (1546 Points )

Accélérez l'insertion en vrac à l'aide de l'ORM de Django?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Accélérez l'insertion en vrac à l'aide de l'ORM de Django?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: