La molécule d’ADN, support de stockage naturel de notre information génétique, pourrait devenir une alternative plus durable à nos disques durs, clés USB et autres supports de stockage informatique.
Depuis 50 ans, notre société s’est progressivement digitalisée, produisant des données numériques de façon exponentielle. Lors des deux dernières années, nous avons produit plus de données que toutes celles précédemment produites dans l’histoire de l’humanité. On estime qu’à ce jour plus de 64 zettaoctets (64 mille milliards de gigaoctets) de données numériques ont été produites dans le monde entier et on prévoit que ce volume pourrait dépasser 175 zettaoctets en 2025 (1). Face à cette augmentation massive, le stockage de ces informations devient un enjeu majeur de notre société et pose désormais plusieurs problèmes considérables. Tout d’abord, la quantité colossale d’énergie requise pour stocker ces données sur les serveurs a un lourd impact environnemental : la consommation électrique des data centers représente aujourd’hui 2% des émissions de gaz à effet de serre et on estime ce chiffre à 14% en 2040 (2). Ensuite nous sommes confrontés à la faible durée de vie (5 à 7 ans en moyenne (3)) et à l'obsolescence des supports de stockage. Par exemple, les disquettes ne sont aujourd’hui plus compatibles avec les appareils qui nous permettent de lire nos données numériques au quotidien. Il est donc urgent de trouver une solution pour stocker nos données de façon plus durable !
Un support biologique de stockage de données
Une alternative aux supports de stockage de données actuels (mémoire flash, disques dur, CD...) serait un « disque dur naturel » présent dans chacune des cellules des êtres vivants : l’acide désoxyribonucléique, ou ADN.
L’ADN est une longue molécule constituée de 4 briques, appelées nucléotides : l’adénine (A), la cytosine (C), la guanine (G) et la thymine (T). La séquence d’ADN, qui correspond à l’ordre dans lequel se succèdent les différents nucléotides (A, T, C et G), contient l’information génétique qui définit nos caractéristiques héréditaires, telles que la couleur de nos yeux, notre taille, ou notre groupe sanguin. L’ADN est donc un support de stockage d’informations naturel qui perdure au fil de l’évolution depuis des milliards d’années.
Tout comme nous stockons nos photos ou vidéos sur un disque dur en binaire, sous forme de 0 et 1, nous pouvons stocker ces mêmes informations sur une molécule d’ADN. Il suffit d’encoder une séquence de 0 et 1 en une séquence de lettres d’ADN où, par exemple, les nucléotides A et C correspondraient à 0 et G et T à 1 (4).
L’ADN présente plusieurs avantages en ce qui concerne le stockage d’informations. Premièrement, les molécules d’ADN sont très compactes : 455 milliards de gigaoctets peuvent être stockés dans seulement 1 gramme d’ADN (5). En théorie, toutes les données produites dans le monde pourraient donc être encodées dans une tasse à café d’ADN. En plus de ne demander que peu d’espace, la conservation de l’ADN ne nécessite que peu d’énergie car la molécule d’ADN est stable dans le temps à température ambiante. Cette solution serait donc plus durable et respectueuse de l’environnement que nos supports actuels. Enfin, puisque tous les systèmes biologiques l'utilisent depuis plusieurs milliards d'années, l'ADN présente l'avantage majeur d'être un support qui ne peut devenir obsolète avec le temps, contrairement aux supports de stockage traditionnels.
Comment stocker nos données sur une molécule d’ADN ?
Maintenant que nous savons que l’ADN présente de nombreux avantages pour conserver nos données, voyons comment nous procédons pour stocker de l’information sur ce support biologique :
1. Encodage
La première étape est l'encodage qui consiste à traduire une séquence de 0 et 1, contenant de l’information numérique, en une séquence de lettres A, T, C et G. Différents encodages sont possibles. Par exemple, on peut encoder deux bits par lettre en traduisant 00, 01, 10 et 11 en A, T, C et G respectivement; ou encore un bit par lettre en traduisant les 0 en A ou C et les 1 en T ou G. L’encodage à un bit par base est le plus utilisé car il permet de traduire un même message de plusieurs façons différentes, et donc d’éviter les séquences difficiles à lire ou à synthétiser, comme des répétitions d’un même nucléotide, ou une proportion de G et de C trop importante (6).
2. Ecriture de l’information
La séquence d’ADN sous forme de lettres A, T, C et G est ensuite synthétisée par une succession de réactions chimiques, la formation d’un brin d’ADN se faisant en assemblant un à un les nucléotides suivant une séquence donnée.
3. Stockage de l’information
L’information est alors stockée sous forme de molécule d’ADN. Elle peut être conservée in vitro, dans un tube, et restera stable très longtemps à température ambiante tant qu’elle est à l'abri de l’humidité, de l’air et de la lumière (7). On peut aussi conserver l’ADN in vivo, dans une bactérie par exemple, avec l’avantage de le voir naturellement dupliqué lors de la division cellulaire de la bactérie. Cela permet donc de copier l’information sans avoir recours à des techniques de biologie moléculaire coûteuse que l’on utilise dans le cas d’une duplication in vitro.
4. Lecture de l’information
Une fois stockée, il faut ensuite pouvoir accéder à l’information. Cette étape se fait grâce à des techniques de séquençage de l’ADN, largement répandues en biologie moléculaire, qui permettent de « lire » la séquence d’un brin d’ADN. La séquence de lettres A, T, C, G peut enfin être reconvertie en séquence de 0 et 1 pour récupérer l’information numérique.
A partir de ce concept général d’encodage et de décodage d’information numérique sur l’ADN, de nombreuses équipes de recherches ont travaillé sur l’élaboration de méthodes permettant de manipuler les séquences d’ADN plus facilement. Il est par exemple nécessaire d’identifier et de lire uniquement la portion d’ADN contenant l’information qui nous intéresse. Cela est possible grâce à la technique de PCR (polymerase chain reaction) qui permet d’obtenir des copies identiques d'un fragment d’ADN spécifique.
La PCR se base sur l’utilisation de courts fragments d’ADN, appelés amorces, qui vont délimiter la région du brin d’ADN qui sera copiée. Une fois liées au brin d’ADN, les amorces vont recruter une enzyme qui va recopier uniquement la région comprise entre les deux amorces.
De cette manière, on peut ajouter deux courtes séquences spécifiques de part et d’autre de la séquence d’ADN stockant l’information. Ces deux séquences jouent alors le rôle de code-barres permettant de “nommer” et retrouver l'information spécifique au milieu de longs brins d'ADN : en effet, les codes-barres peuvent être reconnus par les amorces de la PCR, permettant l'amplification spécifique de la région d'intérêt. Il suffit enfin de séquencer les copies obtenues par PCR pour retrouver la composition et l'ordre des nucléotides et ainsi reconstituer l'information primaire. Cela permet de retrouver et de lire l’information qui nous intéresse parmi une multitude de brins d’ADN.
Stocker nos données sur de l'ADN: un rêve ou une réalité proche?
Malgré tous les avantages que l’ADN présente pour stocker nos données, si aujourd’hui tous nos disques durs ne sont pas remplacés par des tubes d’ADN, c’est parce que stocker de l’information sur cette molécule présente encore des limites considérables. Les principaux facteurs limitants sont la vitesse et le coût de la synthèse d’ADN. Ce processus est estimé à 3500 US $ par méga-octet d’information (8).
Face à ces limites majeures, de nombreuses équipes de recherche travaillent sur le développement de nouvelles techniques de synthèse d’ADN, telles que des méthodes de synthèse enzymatique permettant une fabrication plus rapide et de fragments d’ADN plus longs que ceux obtenus avec les techniques de synthèse chimique traditionnelles (9).
Aujourd’hui, basculer entièrement vers un mode de stockage d’informations sur l’ADN ou même imaginer un ordinateur basé sur un tel moyen de stockage reste encore une utopie. Cependant, le stockage sur ADN peut être utilisé pour l'archivage de documents que l’on veut conserver dans le temps sans avoir besoin d’y accéder régulièrement. C’est justement le projet que Stéphane Lemaire, directeur de recherche au CNRS, et Pierre Crozet, maître de conférences à Sorbonne Université, ont élaboré ces dernières années : des copies de la Déclaration des Droits de l’Homme et du Citoyen de 1789 et de la Déclaration des Droits de la Femme et de la Citoyenne de 1791 d'Olympe de Gouges ont été encodées dans des molécules d’ADN et sont aujourd’hui conservées dans le coffre-fort des Archives nationales de France. De tels projets sont encore peu répandus, mais compte tenu de l’évolution rapide des techniques de biologie moléculaire, il n’est pas impossible d’imaginer que d’ici quelques années, le stockage de données sur ADN devienne une solution de prédilection pour l’archivage des documents.
Le stockage de données sur l’ADN est un sujet qui m’intéresse personnellement. Étudiante dans un laboratoire de biologie synthétique, j’ai toujours trouvé fascinant l’idée de s’inspirer du vivant pour résoudre des problèmes de notre société. L’idée d’utiliser la molécule d’ADN, support de stockage naturel de notre information génétique, pour stocker nos données comme nous le faisons sur nos disques durs, m’intéresse donc tout particulièrement. De plus, j’utilise au quotidien les techniques de biologie moléculaire, comme le séquençage et la synthèse d’ADN, et suis toujours impressionnée par les innovations dans ce domaine qui nous permettent de manipuler l’ADN avec de plus en plus de facilité.
References
1. IDC (International Data Corporation) report (Novembre 2018).The Digitization of the World From Edge to Core.
2. Datacenters et changement climatique : enjeux et nouvelles limites (Mai 2021). Ostaca Blog. (https://blog.ostraca.fr/datacenters-et-changement-climatique-enjeux-et-nouvelles-limites/)
3. Extance, A. (2016). How DNA could store all the world's data. Nature, 537(7618).
4. Ceze et al (2019). Molecular digital data storage using DNA. Nature Reviews Genetics, https://doi.org/10.1038/s41576-019-0125-3
5. Baker, M. A fresh chapter for organic data storage. Nature (2012).
6. Church, G. M., Gao, Y., & Kosuri, S. (2012). Next-generation digital information storage in DNA. Science, 337(6102), 1628-1628.
7. Bonnet J. (2010). Chain and conformation stability of solid-state DNA: implications for room temperature storage. Nucleic acids research, 38(5), 1531-1546.
8. DNA Data Storage - Integrated information storage technology for writing large amounts of digital information in DNA using an enzyme-driven, sustainable, low-cost approach (https://wyss.harvard.edu/technology/dna-data-storage/)
9. Lee et al (2020). Photon-directed multiplexed enzymatic DNA synthesis for molecular digital data storage. Nature communications. https://doi.org/10.1038/s41587-019-0240-x
Video - DNA Data Storage is the Future! - Simply Explained - Jun 17, 2019 : https://www.youtube.com/watch?v=aPWA-n9oo4k
Cet article a été édité par le spécialiste Pr Pierre Crozet et révisé par Elsa Charifou.
Comments