Was die künstliche Intelligenz kann uns lehren, über Proteine

Intelligente virtuelle Weggefährten wie Alexa, Siri und Google Assistant sind längst integriert in unseren Alltag. Und intelligente computergestützte Programme, so genannte algorithmen, haben sich auch entwickelt als ein integraler Werkzeug in der wissenschaftlichen Forschung. Die riesigen Mengen von Daten generiert, die in der life-science-Forschung kann effizient geprüft, für sich wiederholende Muster mit Hilfe von algorithmen. Bestimmte Programme sind in der Lage, wiederkehrende Strukturen in großen protein-Moleküle, und dann diese Informationen benutzen, um Schlussfolgerungen über das, was die zelluläre Aufgaben dieser Moleküle führen-zum Beispiel, ob Sie die Funktion als gen-Schalter, molekulare Motoren, oder signalstoffe. Die Vorhersagen solcher algorithmen auf der basis von protein-Sequenzen — die bestehen aus einer Reihe von protein-Bausteine, die zusammen aufgereiht wie eine Perlenkette, — sind mittlerweile unglaublich präzise.

Allerdings ein großer Nachteil der bisherigen Verfahren ist, dass die Benutzer sind gehalten, vollkommen im Dunkeln, warum der Algorithmus weist eine bestimmte Funktion, um bestimmte protein-Sequenzen. Der computer ist ein präzises wissen über Proteine ist nicht direkt verfügbar, trotz der Tatsache, dass dieses wissen könnte sich als wertvoll erweisen bei der Förderung der Forschung und Entwicklung von neuen Wirkstoffen.

Ein Studenten-team, gemeinsam unter der Leitung von Roland Eils und Irina Lehmann vom Berlin Institute of Health (BIH) und Charité — Universitätsmedizin Berlin, in Zusammenarbeit mit Dominik Niopek vom Institut für Pharmazie und Molekulare Biotechnologie (IPMB) der Universität Heidelberg, die sich zum Ziel gesetzt, die Erschließung dieser Kenntnisse aus dem computer. Es begann die Arbeit an diesem Thema in 2017, und entwickelte einen Algorithmus namens „DeeProtein,“ eine umfassende und intelligente neuronale Netzwerk kann Vorhersagen, dass die Funktionen der Proteine basiert auf der Reihenfolge der einzelnen Eiweißbausteine, die Aminosäuren. Wie die meisten Lernalgorithmen, DeeProtein ist eine „black box“, was bedeutet, wie Sie funktioniert, bleibt ein Geheimnis der Programmierer als auch die Nutzer. Aber die Schüler haben nun mit einem „trick“ zu entwirren das Geheimnis dieses Netzwerk.

Die Jungen Wissenschaftler haben ein Verfahren entwickelt, um im übertragenen Sinn über die Schulter schauen das Programm tut seine Arbeit. „In der Sensitivitätsanalyse, die wir sukzessive die Maske jede position in der Proteinsequenz und lassen DeeProtein berechnen, oder vielmehr die voraussagen, die die Funktion des proteins von diesem unvollständiger Informationen verursacht wurden“, erklärt Julius Upmeier zu Belzen. Er ist student im Masterstudiengang molekulare Biotechnologie am IPMB und der führende Autor des Papiers, das wurde soeben in der Fachzeitschrift Nature Machine Intelligence*. „Weiter geben wir DeeProtein die vollständige Sequenz Informationen und vergleichen Sie die beiden Sätze von Vorhersagen“, ergänzt Upmeier zu Belzen. „Auf diese Weise berechnen wir, für jede position, die in der protein-Sequenz, wie wichtig diese position ist für die Vorhersage der korrekten Funktion. Dies bedeutet, dass wir jede position oder Aminosäure in der Proteinkette eine Empfindlichkeit Wert für die protein-Funktion.“

Die Wissenschaftler verwenden Sie dann die neue analytische Technik zur Identifizierung der Regionen der Proteine, sind entscheidend für Ihre Funktion. Diese Technik funktioniert für signalproteine, die eine Rolle spielen bei der Krebsentstehung als auch für die CRISPR-Cas9-gen-editing-tool, die bereits getestet in einer Vielzahl von präklinischen und klinischen Studien. „Die Sensitivitätsanalyse ermöglicht uns die Identifikation von Regionen im protein, die tolerieren, dass Veränderungen gut oder nicht so gut“, sagt Dominik Niopek. „Dies ist ein Erster wichtiger Schritt, wenn wir wollen, um gezielte Veränderungen an Proteinen, so statten Sie mit neuen Funktionen oder zum „abschalten“ unerwünschten Eigenschaften“.

„Mit dieser Arbeit zeigen wir, dass nicht nur die Vorhersagen der neuronalen Netzwerke hilfreich sein, aber das können wir nun auch für die erstmalige Verwendung dieses implizite wissen für die Praxis enden“, erklärt Roland Eils. Dieser Ansatz ist relevant für viele Themen in der molekularen Biologie und Medizin. „Wenn, zum Beispiel, wir wollen, zielgerichtete Medikamente entwickeln oder gen-Therapien, die wir brauchen, um genau zu wissen, wo unsere Aufmerksamkeit“, ergänzt Eils. „DeeProtein kann nun helfen, uns zu tun.“