La plupart des réponses sauf les utilisateurs slayton, rauchen, Paul Amstrong sont tout à fait erronés s'il s'agit d'un stockage pur et simple sans techniques de compression.
Le génome humain, avec ses 3Gb de nucléotides, correspond à 3Gb d'octets et non à ~750MB. Le génome "haploïde" construit selon le NCBI a actuellement une taille de 3436687kb ou 3,436687 Gb. Vérifier aquí pour vous-même.
Haploïde = copie unique d'un chromosome. Diploïde = deux versions d'haploïde. Les humains ont 22 chromosomes uniques x 2 = 44. Le 23e chromosome masculin est X, Y et fait 46 au total. Le 23e chromosome de la femme est X, X, ce qui fait 46 au total.
Pour les hommes, il s'agirait de 23 + 1 chromosomes stockés sur un disque dur et pour les femmes de 23 chromosomes, ce qui explique les petites différences mentionnées de temps à autre dans les réponses. Le chromosome X des mâles est égal au chromosome X des femelles.
Ainsi, le chargement du génome (23 + 1) dans la mémoire se fait en partie par BLAST en utilisant des bases de données construites à partir de fichiers fasta. Indépendamment des versions zippées ou non, les nucléotides sont difficilement compressibles. Au début, l'une des astuces utilisées consistait à remplacer les répétitions en tandem (GACGACGAC par un codage plus court, par exemple "3GAC" ; de 9 octets à 4 octets). La raison était d'économiser de l'espace sur le disque dur (surface des plateaux HDDD 500bm-2GB avec 7.200 rpm et connecteurs SCSI). Pour la recherche de séquences, cela a également été fait avec la requête.
Si "nucléotide codé" le stockage serait de 2 bits par lettre, ce qui correspondrait à un octet :
A = 00
C = 01
G = 10
T = 11
C'est la seule façon de profiter pleinement des positions 1, 2, 3, 4, 5, 6, 7 et 8 pour un octet de codage. Par exemple, la combinaison 00.01.10.11 (en tant qu'octet 00011011
) correspondrait alors à "ACTG" (et apparaîtrait dans un fichier texte comme un caractère méconnaissable). Ce seul élément est responsable d'une réduction de quatre fois la taille du fichier, comme nous l'avons vu dans d'autres réponses. Ainsi, 3,4 Go seront réduits à 0,85917175 Go... ~860MB incluant un programme de conversion alors nécessaire (23kb-4mb).
Mais... en biologie, vous voulez pouvoir lire quelque chose, donc la compression gzippée est plus que suffisante. Une fois décompressé, on peut toujours le lire. Si ce remplissage d'octets a été utilisé, il devient plus difficile de lire les données. C'est pourquoi les fichiers fasta sont en réalité des fichiers en texte brut.