DNA könnte alle Daten der Welt in einem Raum speichern

Ein neues Verfahren zum Speichern von Daten in den Nukleotidbasen von DNA ist das Speicherschema mit der höchsten Dichte, das jemals erfunden wurde.

Novi Elisa / Shutterstock

DNA könnte alle Daten der Welt in einem Raum speichern

Von Robert F. ServiceMar. 2, 2017, 14:00 Uhr

Die Menschheit hat ein Problem mit der Datenspeicherung: In den letzten zwei Jahren wurden mehr Daten erstellt als in der gesamten vorangegangenen Geschichte. Und dieser Strom von Informationen könnte bald die Fähigkeit von Festplatten übertreffen, diese zu erfassen. Jetzt berichten Forscher, dass sie einen neuen Weg gefunden haben, um digitale Daten in DNA zu kodieren und so das Datenspeicherschema mit der höchsten Dichte zu erstellen, das jemals erfunden wurde. Das System ist in der Lage, 215 Petabyte (215 Millionen Gigabyte) in einem einzigen Gramm DNA zu speichern, und kann im Prinzip jedes einzelne Datum, das jemals von Menschen aufgezeichnet wurde, in einem Container von der Größe und dem Gewicht einiger Kleintransporter speichern. Ob sich die Technologie durchsetzen kann, hängt jedoch von ihren Kosten ab.

DNA hat viele Vorteile für die Speicherung digitaler Daten. Es ist ultrakompakt und kann Hunderttausende von Jahren halten, wenn es an einem kühlen, trockenen Ort aufbewahrt wird. Und solange menschliche Gesellschaften DNA lesen und schreiben, können sie sie entschlüsseln. "DNA verschlechtert sich im Laufe der Zeit nicht wie Kassetten und CDs und wird auch nicht veraltet", sagt Yaniv Erlich, ein Informatiker an der Columbia University. Und im Gegensatz zu anderen Ansätzen mit hoher Dichte, wie der Manipulation einzelner Atome auf einer Oberfläche, können mit neuen Technologien große Mengen von DNA gleichzeitig geschrieben und gelesen werden, sodass sie vergrößert werden können.

Wissenschaftler speichern seit 2012 digitale Daten in DNA. Zu diesem Zeitpunkt haben die Genetiker der Harvard-Universität, George Church, Sri Kosuri, und Kollegen ein Buch mit 52.000 Wörtern in Tausenden von DNA-Ausschnitten unter Verwendung von DNA-Strängen aus vier Buchstaben kodiert von A, G, T und C, um die Nullen und Einsen der digitalisierten Datei zu codieren. Ihr spezielles Codierungsschema war jedoch relativ ineffizient und konnte nur 1, 28 Petabyte pro Gramm DNA speichern. Andere Ansätze haben es besser gemacht. Aber keiner konnte mehr als die Hälfte dessen speichern, was die Forscher für möglich halten, nämlich etwa 1, 8 Datenbits pro DNA-Nukleotid. (Die Zahl beträgt nicht 2 Bit, da seltene, aber unvermeidliche DNA-Schreib- und Lesefehler auftreten.)

Erlich glaubte, dieser Grenze näher zu kommen. Deshalb untersuchten er und Dina Zielinski, eine am New Yorker Genomzentrum beschäftigte Wissenschaftlerin, die Algorithmen, mit denen die Daten codiert und decodiert wurden. Sie begannen mit sechs Dateien, darunter ein vollständiges Computer-Betriebssystem, ein Computervirus, ein französischer Film von 1895 mit dem Titel Ankunft eines Zuges in La Ciotat und eine Studie des Informationstheoretikers Claude Shannon von 1948. Sie konvertierten die Dateien zunächst in Binärzeichenfolgen mit 1 und 0, komprimierten sie in eine Masterdatei und teilten die Daten dann in kurze Zeichenfolgen mit Binärcode auf. Sie entwickelten einen Algorithmus namens DNA-Brunnen, der die Saiten zufällig in sogenannte Tröpfchen verpackte, denen sie zusätzliche Tags hinzufügten, um sie später in der richtigen Reihenfolge wieder zusammenzusetzen. Insgesamt erstellten die Forscher eine digitale Liste von 72.000 DNA-Strängen mit jeweils 200 Basen Länge.

Sie schickten diese als Textdateien an Twist Bioscience, ein in San Francisco, Kalifornien, ansässiges Startup, das dann die DNA-Stränge synthetisierte. Zwei Wochen später erhielten Erlich und Zielinski in der Post ein Fläschchen mit einem DNA-Fleck, der ihre Akten kodierte. Um sie zu entschlüsseln, verwendete das Paar moderne DNA-Sequenziertechnologie. Die Sequenzen wurden in einen Computer eingespeist, der den genetischen Code zurück in eine Binärdatei übersetzte und die Tags verwendete, um die sechs Originaldateien wieder zusammenzusetzen. Der Ansatz hat so gut funktioniert, dass die neuen Dateien keine Fehler enthielten, berichten sie heute in Science. Sie waren auch in der Lage, eine praktisch unbegrenzte Anzahl fehlerfreier Kopien ihrer Dateien durch Polymerasekettenreaktion, eine Standard-DNA-Kopiertechnik, anzufertigen. Erlich zufolge konnten 1, 6 Datenbits pro Nukleotid codiert werden, 60% mehr als jede andere Gruppe zuvor und 85% der theoretischen Grenze.

"Ich liebe die Arbeit", sagt Kosuri, der heute Biochemiker an der University of California in Los Angeles ist. "Ich denke, dies ist im Wesentlichen die endgültige Studie, die zeigt, dass man Daten in großem Maßstab [in DNA speichern] kann."

Kosuri und Erlich stellen jedoch fest, dass der neue Ansatz noch nicht für den großtechnischen Einsatz geeignet ist. Das Zusammenstellen der 2 Megabyte Daten in den Dateien kostete 7000 US-Dollar, und das Lesen kostete 2000 US-Dollar. Die Kosten dürften im Laufe der Zeit sinken, aber es sind noch lange Wege, sagt Erlich. Im Vergleich zu anderen Formen der Datenspeicherung ist das Schreiben und Lesen von DNA relativ langsam. Es ist daher unwahrscheinlich, dass der neue Ansatz erfolgreich ist, wenn Daten sofort benötigt werden, er ist jedoch besser für Archivierungsanwendungen geeignet. Aber wer weiß? Vielleicht werden diese riesigen Rechenzentren von Facebook und Amazon eines Tages durch ein paar DNA-Pickups ersetzt.