Comment la commande de tri UNIX peut-elle trier un très gros fichier?

Question

Comment la commande de tri UNIX peut-elle trier un très gros fichier?

Demandé el 30 de Mai, 2009: Quand la question a-t-elle été
27246 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

La commande UNIX sort peut trier un très gros fichier comme suit:

 sort large_file

Comment l'algorithme de tri est-il implémenté?

Comment se fait-il qu'il ne provoque pas une consommation excessive de mémoire?

Demandé el 30 de Mai, 2009 par yjfuk

Answer 1

5 Réponses

Answer 2

124voto

Matthew Points 2160

La commande Algorithmic details of UNIX Sort indique que la commande Unix Sort utilise un algorithme de tri de fusion R-Way externe. Le lien entre dans plus de détails, mais il divise essentiellement l’entrée en parties plus petites (qui entrent dans la mémoire), puis fusionne chaque partie à la fin.

Répondu el 30 de Mai, 2009 par Matthew (2160 Points )

Answer 3

52voto

grawity Points 6338

La commande sort stocke les données de travail dans des fichiers de disque temporaires (généralement sous forme de /tmp ).

Répondu el 30 de Mai, 2009 par grawity (6338 Points )

Answer 4

12voto

Adrian Points 1595

Voici un script que j'ai écrit à cet effet. Sur une machine à 4 processeurs, les performances de tri ont été améliorées de 100%!

 #! /bin/ksh

MAX_LINES_PER_CHUNK=1000000
ORIGINAL_FILE=$1
SORTED_FILE=$2
CHUNK_FILE_PREFIX=$ORIGINAL_FILE.split.
SORTED_CHUNK_FILES=$CHUNK_FILE_PREFIX*.sorted

usage ()
{
     echo Parallel sort
     echo usage: psort file1 file2
     echo Sorts text file file1 and stores the output in file2
     echo Note: file1 will be split in chunks up to $MAX_LINES_PER_CHUNK lines
     echo  and each chunk will be sorted in parallel
}

# test if we have two arguments on the command line
if [ $# != 2 ]
then
    usage
    exit
fi

#Cleanup any lefover files
rm -f $SORTED_CHUNK_FILES > /dev/null
rm -f $CHUNK_FILE_PREFIX* > /dev/null
rm -f $SORTED_FILE

#Splitting $ORIGINAL_FILE into chunks ...
split -l $MAX_LINES_PER_CHUNK $ORIGINAL_FILE $CHUNK_FILE_PREFIX

for file in $CHUNK_FILE_PREFIX*
do
    sort $file > $file.sorted &
done
wait

#Merging chunks to $SORTED_FILE ...
sort -m $SORTED_CHUNK_FILES > $SORTED_FILE

#Cleanup any lefover files
rm -f $SORTED_CHUNK_FILES > /dev/null
rm -f $CHUNK_FILE_PREFIX* > /dev/null

Voir aussi: " Tri plus rapide de gros fichiers avec un script shell "

Répondu el 2 de Mars, 2010 par Adrian (1595 Points )

Answer 5

12voto

Sergio Points 91

#!/bin/bash

usage ()
{
    echo Parallel sort
    echo usage: psort file1 file2
    echo Sorts text file file1 and stores the output in file2
}

# test if we have two arguments on the command line
if [ $# != 2 ]
then
    usage
    exit
fi

pv $1 | parallel --pipe --files sort -S512M | parallel -Xj1 sort -S1024M -m {} ';' rm {} > $2

Répondu el 23 de Octobre, 2012 par Sergio (91 Points )

Answer 6

11voto

pico Points 498

Je ne connais pas bien le programme, mais j'imagine que cela se fait au moyen d'un tri externe (la plupart des problèmes sont conservés dans des fichiers temporaires, tandis qu'une partie relativement petite du problème est conservée en mémoire à la fois). Voir L'art de la programmation informatique de Donald Knuth , vol. 3 Tri et recherche, section 5.4 pour une discussion très approfondie du sujet.

Répondu el 30 de Mai, 2009 par pico (498 Points )

Comment la commande de tri UNIX peut-elle trier un très gros fichier?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment la commande de tri UNIX peut-elle trier un très gros fichier?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: