106 votes

Quelle quantité de mémoire serait nécessaire pour stocker le génome humain ?

Je cherche la quantité de stockage en octets (MB, GB, TB, etc.) nécessaire pour stocker un seul génome humain. J'ai lu quelques articles sur Wikipedia à propos de l'ADN, des chromosomes, des paires de bases, des gènes, et j'ai une idée approximative, mais avant de divulguer quoi que ce soit, j'aimerais voir comment d'autres personnes aborderaient cette question.

Une autre question serait de savoir combien d'atomes il y a dans l'ADN humain, mais ce serait hors sujet pour ce site.

Je comprends qu'il s'agit d'une approximation, je cherche donc la valeur minimale qui permettrait de stocker l'ADN de n'importe quel être humain.

4voto

betheguest Points 41

Je viens de le faire aussi. la séquence brute fait ~700 MB. si on utilise une séquence de stockage fixe ou un algorithme de stockage de séquence fixe - et le fait que les changements sont de 1% - j'ai calculé ~120 MB avec un stockage perchromosome-sequenceoffset-statedelta. c'est tout pour le stockage.

3voto

Notre ADN est composé de 4 bases nucléotidiques : A, C, G, T. Chaque base de l'ADN occupe donc 2 bits. Il y a environ 2,9 milliards de bases, soit environ 700 mégaoctets. Ce qui est étrange, c'est que cela remplirait un CD de données normal ! coïncidence ?!?

0voto

ZF007 Points 1624

La plupart des réponses sauf les utilisateurs slayton, rauchen, Paul Amstrong sont tout à fait erronés s'il s'agit d'un stockage pur et simple sans techniques de compression.

Le génome humain, avec ses 3Gb de nucléotides, correspond à 3Gb d'octets et non à ~750MB. Le génome "haploïde" construit selon le NCBI a actuellement une taille de 3436687kb ou 3,436687 Gb. Vérifier aquí pour vous-même.

Haploïde = copie unique d'un chromosome. Diploïde = deux versions d'haploïde. Les humains ont 22 chromosomes uniques x 2 = 44. Le 23e chromosome masculin est X, Y et fait 46 au total. Le 23e chromosome de la femme est X, X, ce qui fait 46 au total.

Pour les hommes, il s'agirait de 23 + 1 chromosomes stockés sur un disque dur et pour les femmes de 23 chromosomes, ce qui explique les petites différences mentionnées de temps à autre dans les réponses. Le chromosome X des mâles est égal au chromosome X des femelles.

Ainsi, le chargement du génome (23 + 1) dans la mémoire se fait en partie par BLAST en utilisant des bases de données construites à partir de fichiers fasta. Indépendamment des versions zippées ou non, les nucléotides sont difficilement compressibles. Au début, l'une des astuces utilisées consistait à remplacer les répétitions en tandem (GACGACGAC par un codage plus court, par exemple "3GAC" ; de 9 octets à 4 octets). La raison était d'économiser de l'espace sur le disque dur (surface des plateaux HDDD 500bm-2GB avec 7.200 rpm et connecteurs SCSI). Pour la recherche de séquences, cela a également été fait avec la requête.

Si "nucléotide codé" le stockage serait de 2 bits par lettre, ce qui correspondrait à un octet :

A = 00
C = 01
G = 10
T = 11

C'est la seule façon de profiter pleinement des positions 1, 2, 3, 4, 5, 6, 7 et 8 pour un octet de codage. Par exemple, la combinaison 00.01.10.11 (en tant qu'octet 00011011 ) correspondrait alors à "ACTG" (et apparaîtrait dans un fichier texte comme un caractère méconnaissable). Ce seul élément est responsable d'une réduction de quatre fois la taille du fichier, comme nous l'avons vu dans d'autres réponses. Ainsi, 3,4 Go seront réduits à 0,85917175 Go... ~860MB incluant un programme de conversion alors nécessaire (23kb-4mb).

Mais... en biologie, vous voulez pouvoir lire quelque chose, donc la compression gzippée est plus que suffisante. Une fois décompressé, on peut toujours le lire. Si ce remplissage d'octets a été utilisé, il devient plus difficile de lire les données. C'est pourquoi les fichiers fasta sont en réalité des fichiers en texte brut.

0voto

ar18 Points 327

Toutes les réponses ne tiennent pas compte du fait que l'ADN nu n'est pas le seul ADN qui définit le génome humain. L'ADNmt est également hérité et contribue à hauteur de 16 500 paires de bases supplémentaires au génome humain, ce qui le rapproche de l'estimation de Wikipédia de 770 Mo pour les hommes et de 756 Mo pour les femmes.

Cela ne signifie pas qu'un génome humain peut facilement être stocké sur une clé USB de 4 Go. Les bits ne représentent pas l'information en eux-mêmes, c'est la combinaison des bits qui représente l'information. Ainsi, dans le cas de l'ADNnu et de l'ADNmt, les bits sont encodés (à ne pas confondre avec la compression) pour représenter des protéines et des enzymes qui, en elles-mêmes, nécessiteraient plusieurs Mo de données brutes pour être représentées, en particulier en termes de fonctionnalité.

Matière à réflexion : 80 % du génome humain est constitué d'ADN "non codant". Avez-vous vraiment cru que l'ensemble du corps et du cerveau humains pouvait être représenté par seulement 151 à 154 Mo de données brutes ?

-3voto

Il n'existe que deux types de paires de bases : la cytosine ne peut se lier qu'à la guanine et l'adénine ne peut se lier qu'à la thymine, Chaque paire de bases peut donc être considérée comme un bit unique. Cela signifie qu'un brin entier d'ADN humain, soit 3 milliards de "bits", représente environ 350 mégaoctets.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X