6 Dez 2016

Viren: Zurück zu den Wurzeln

Sicherheit Technologie

Erinnern Sie sich daran, woher der Begriff „Virus“ kam? Ja, ich rede von biologischen Viren, nach denen IT-Sicherheitsspezialisten die Computerprogramme benannten, die ihren eigenen Code in andere Objekte eingeben, um sich zu reproduzieren und zu vermehren.

Es ist sehr wahrscheinlich, dass dieser Begriff aus der Informationstechnologie bald seine ursprüngliche Bedeutung wiedererlangen wird — Forschern von Microsoft und der Universität von Washington gelang ein neuer Meilenstein in Datenspeicherung, indem sie ca. 200 MB Daten in Form von synthetischer DNA schrieben.

dna-storage-featured

Sie könnten sich jetzt fragen: Wo liegt die Verbindung zu biologischen Viren? Der Vergleich ist recht direkt — Viren fügen ihren genetischen Code in die DNA des infizierten Organismus ein, wodurch die DNA den Virus reproduziert, anstatt die richtigen Proteine zu bilden, die lebenswichtig sind.

Die aggressivsten Viren stören normale physiologische Prozesse so extrem, dass es dadurch zum Absterben der Zellen und letztendlich – des ganzen Organismus kommt. Ähnlich kann die aggressivste Malware das infizierte Informationssystem absolut nutzlos machen oder es sogar „töten“.

Da die Menschheit nun damit begonnen hat, Informationen in Form von DNA zu schreiben, könnte es sinnvoll sein, sich über den Schutz dieser Daten auf „Hardware-Ebene“ Gedanken zu machen. Aber lassen Sie mich Ihnen zunächst einen Überblick dazu geben, wie diese „Hardware“ funktioniert.

In der DNA

DNA (englische/internationale Abkürzung für Desoxyribonukleinsäure) ist das längste Molekül in unserem Organismus und Träger der genetischen Informationen. Das ähnlichste IT-Gegenstück ist das Bootimage, mit dem der Computer gestartet und das Betriebssystem geladen wird. In den meisten Fällen (mit ein paar Ausnahmen, über die ich in diesem Post nicht sprechen werde) startet der Computer, nachdem das Betriebssystem in den Speicher eingeladen wurde, die ausführbaren Module, die benötigt werden, um die Funktionen auszuführen, für die der Computer programmiert wurde. Genauso verwenden lebende Zellen in den meisten Fällen DNA, um die „ausführbaren Programme“ zu produzieren — RNA- (Ribonukleinsäure) Sequenzen, mit denen die Proteinsynthese ausgeführt wird, um Organismen und Funktionen zu erhalten.

Alle Charakteristiken des Organismus – von der Augen- und Haarfarbe, bis hin zu jeglicher Erbkrankheit, die in der DNA gespeichert ist – sind in einer Nukleotidsequenz verschlüsselt: Molekularblöcke, die (in den meisten bekannten Organismen) nur vier Varietäten stickstoffhaltiger Verbindungen enthalten: Adenin, Guanin, Thymin und Cytosin. Sie können als „biologische Bits“ bezeichnet werden. Wie Sie sehen können, hat Mutter Natur ein Quaternär verwendet, um genetische Informationen zu verschlüsseln, im Gegensatz zu durch Menschenhand erschaffene Computer, die einen Binärcode verwenden.

Es muss erwähnt werden, dass DNA eine eingebaute Code-Korrekturfunktion hat – wie bekannt ist, hat DNA zwei Nucleoidstränge, die sich in einer Doppelhelix umeinander winden.

Diese zwei Stränge sind durch Wasserstoffbrücken zwischen genau definierten Nucleoidpaaren verbunden — die aufeinander abgestimmt sind. Somit wird sichergestellt, dass Informationen, die in einer bestimmten Nukleotidsequenz in einem Strang verschlüsselt sind, mit einer ähnlichen Nukleotidsequenz aus dem zweiten Strang übereinstimmen. So funktioniert dieser Mechanismus zur Codekorrektur — bei Entschlüsselung oder Kopie wird der erste DNA-Strang als Datenquelle verwendet und der zweite als Kontrollsequenz. Dadurch wird angegeben, ob eine Nukleotidsequenz, die genetische Eigenschaften verschlüsselt, in einem der Stränge beschädigt wurde.

Außerdem sind genetische Eigenschaften durch redundante Verschlüsselungsalgorithmen in Nukleotidsequenzen verschlüsselt. Um diese Funktion einfach zu verstehen — stellen Sie sich vor, dass jede erbliche Eigenschaft, die in eine Nukleotidsequenz geschrieben ist, von einer Prüfsumme begleitet wird.

Die Nukleotidsequenzen, die genetische Eigenschaften oder Gene, verschlüsseln, wurden in den 50er Jahren seit der Entdeckung der DNA intensiv erforscht. Heute kann Ihre DNA in vielen Laboratorien oder selbst online gelesen werden – über 23andme oder ähnliche Dienste.

Wie Wissenschaftler DNA lesen

Über die vergangenen Jahrhunderte entwickelten Wissenschaftler Methoden, um die Struktur winziger Objekte zu bestimmen, wie durch Röntgenstrukturanalyse, Massenspektrometrie und verschiedener Spektroskopiemethoden. Sie funktionieren recht gut für Moleküle, die aus zwei, drei oder vier Atomen bestehen, aber die Forschungsergebnisse für längere Moleküle zu verstehen, ist viel komplizierter. Je mehr Atome im Molekül enthalten sind, desto schwerer ist es, seine Struktur zu verstehen.

Bedenken Sie, dass DNA aus gutem Grund als längstes Molekül gilt: DNA aus einer haploiden menschlichen Zelle enthält 3 Milliarden Basenpaare. Die Molekularmasse einer DNA ist viel höher als die Molekularmasse des größten bekannten Proteins.

Kurz gefasst: Es handelt sich um viele Atome; daher kann die Entschlüsselung von experimentellen Daten, die durch klassische Methoden gewonnen wurden, selbst mit Supercomputern von heute leicht Monate oder sogar Jahre dauern.

Aber Wissenschaftler haben eine Sequenzierungsmethode entwickelt, die den Prozess beschleunigt. Der Hauptgedanke dahinter: die lange Basissequenz in viele kürzere Fragmente teilen, die parallel analysiert werden können.

Dafür verwenden Biologen molekulare Maschinen: spezielle Proteine (Enzyme) mit dem Namen Polymerasen. Die Hauptfunktion dieser Proteine ist, die DNA zu kopieren, indem sie die Stränge abgehen und eine Kopie von diesen Basen anfertigen.

Aber wir brauchen keine vollständige Kopie der DNA; stattdessen wollen wir sie in Fragmente teilen, indem wir die sogenannten Primer und Marker hinzufügen – Komponenten, die der Polymerase sagen, wo sie den Klonprozess starten bzw. stoppen muss.

Primer enthalten eine bestimmte Nukleotidsequenz, die sich selbst an eine Stelle in einem DNA-Strang einfügen kann, wo es eine entsprechende Sequenz komplementärer Basen findet. Polymerase findet den Primer und beginnt damit, die Sequenz zu klonen, indem sie die Bausteine von der Lösung kopiert. Wie bei allen lebenden Prozessen, passiert dies in flüssiger Form. Polymerase klont die Sequenz, bis es auf einen Marker stößt: ein modifiziertes Nucleotid, das den Prozess zur Erstellung des Strangs beendet.

Jedoch gibt es ein Problem. Die Polymerase, der DNA-Strang, Primer, Marker und unser Baustein sind alle in der Lösung verteilt. Daher ist es unmöglich, die exakte Position zu finden, wo die Polymerase beginnt. Wir können nur die Sequenzen definieren, die wir kopieren wollen.

Um mit dem IT-Vergleich fortzufahren, können wir es wie folgt veranschaulichen. Stellen Sie sich vor, dass unsere DNA eine Kombination aus Bits ist: 1101100001010111010010111. Wenn wir 0000 als einen Primer und 11 als einen Marker nutzen, erhalten wir die folgenden Fragmente, sortiert nach abnehmender Wahrscheinlichkeit:

0000101011,
00001010111,
0000101011101001011,
00001010111010010111.

Mit unterschiedlichen Primer und Marker gehen wir durch alle möglichen kürzeren Sequenzen und leiten dann die längere Sequenz mit dem Wissen zu ihren Bestandteilen ab.

Das könnte sich kontraintuitiv und kompliziert anhören, aber es funktioniert. In der Tat erreicht diese Methode eine recht hohe Geschwindigkeit, da wir verschiedene Prozesse gleichzeitig ablaufen lassen. D. h., ein paar Stunden im Vergleich zu Monaten und Jahren – jedoch aus IT-Sicht nicht sehr schnell.

DNA und Direktzugriff

Nachdem Wissenschaftler entdeckt hatten, wie DNA gelesen werden kann, lernten sie, wie Nukleotidsequenzen synthetisiert werden können. Die Forscher von Microsoft waren nicht die ersten, die versuchten, Informationen in Form von künstlicher DNA zu schreiben. Vor ein paar Jahren waren Forscher von EMBL-EBI in der Lage, 739 Kilobytes zu verschlüsseln.

Die Arbeit von Microsoft ist aus zwei Gründen ein Durchbruch. Zunächst haben die Forscher das Datenvolumen mit 200 MB deutlich erhöht. Das ist nicht so weit von den 750 MB Daten entfernt, die in jedem Strang menschlicher DNA enthalten sind.

Jedoch ist die wahre Neuigkeit, dass sie einen Weg zum Lesen eines Teils der DNA vorgeschlagen haben – 100 Basen (Bio-Bits) lang, in jeder Sequenzoperation.

Die Forscher konnten dies mithilfe von Primer- und Markerpaaren erreichen, mit denen sie bestimmte Nukleotide mit einem bestimmten Abstand vom Beginn des Strangs lesen konnten. Es ist nicht genau der Direktzugriff auf ein einzelnes Bit, aber die Technologie ist nah dran – an einem Blockspeicherzugriff.

Forscher glauben, dass die Hauptsparte für solch einen DNA-Speicher Langzeitspeichermodule mit hoher Dichte sein könnten. Es macht wirklich Sinn: das beste bekannte Beispiel für Flash-Speicher stellt eine Dichte von ~1016 Bit pro Kubikzentimeter bereit, wohingegen die geschätzte Dichte des DNA-Speichers dreimal höher ist: ~1019 Bits pro Kubikzentimeter.

Gleichzeitig ist DNA ein recht stabiles Molekül. In Verbindung mit integrierter redundanter Verschlüsselung und Fehlerkorrekturschemata können Daten über Jahre oder sogar Jahrhunderte, nachdem sie geschrieben wurden, lesbar bleiben.

Zurück zu den Viren

Aber was bedeutet dies alles aus Sicht der Informationssicherheit? Es bedeutet, dass Informationen, die auf solch eine Art gespeichert sind, durch Organismen, die sich seit Millionen von Jahren auf Datenbeschädigung spezialisiert haben, bedroht werden können: Viren.

Es ist eher unwahrscheinlich, dass wir einen Boom von genetisch modifizierten Viren sehen werden, mit denen verschlüsselte synthetische DNA angegriffen wird. Es wird (für lange Zeit) einfacher sein, Daten zu modifizieren und schädlichen Code einzufügen, wenn Daten digital sind, als sie als DNA zu schreiben.

Aber es ist eine offene Frage, wie man solche Daten vor Schaden durch bereits existierende Viren schützen kann. So wird z. B. Polymerase glücklicherweise jede DNA in der Lösung nachbilden: z. B. die DNA des gemeinen Grippevirus.

Also könnte es nützlich sein, wenn Sie bemerken, dass jemand niest oder hustet, während Sie eine wichtige Datei schreiben…