Identifizierung von A- und P-Stellen auf Ribosom-geschützten mRNA-Fragmenten mittels Integer Programming

Integer Programming Algorithm

Bei der Analyse von Ribo-Seq-Daten werden mRNA-Fragmente zunächst am Referenztranskriptom ausgerichtet und ihre Position wird in Bezug auf ihr 5′-Ende angegeben. Das bedeutet, dass ein Fragment einen Read beiträgt, der an der Genomkoordinate angegeben wird, an der das 5′-Endnukleotid des Fragments ausgerichtet ist (Abb. 1A). In Ribo-Seq-Daten werden Fragmente unterschiedlicher Länge beobachtet, die durch einen unvollständigen RNA-Verdau und durch die stochastische Natur der mRNA-Spaltung durch die im Experiment verwendete RNase entstehen können (Abb. 2, ergänzende Abb. S1). Eine zentrale Herausforderung bei der quantitativen Analyse von Ribo-Seq-Daten besteht darin, aus diesen Ribo-Seq-Reads zu identifizieren, wo sich die A- und P-Sites zum Zeitpunkt des Verdaus befanden. Dies ist nicht trivial, da ein unvollständiger Verdau und eine stochastische Spaltung an beiden Enden des Fragments auftreten können. Ein mRNA-Verdau, der zu einem Fragment der Größe 29 nt führt, kann zum Beispiel auf verschiedene Weise erfolgen, von denen zwei in Abb. 1B dargestellt sind. Die Größe, die wir genau abschätzen müssen, ist die Anzahl der Nukleotide, die das Codon in der A-Stelle vom 5′-Ende des Fragments trennen, was wir als Offset bezeichnen und mit Δ bezeichnen. Die Kenntnis von Δ bestimmt die Position der A-Stelle sowie der P-Stelle, da sich die P-Stelle immer an Δ minus 3 nt befindet.

Abbildung 1

Die Position der A-Stelle kann als Offset vom 5′-Ende der ribosomal geschützten Fragmente definiert werden. (A) Schematische Darstellung eines translatierenden Ribosoms (obere Zeichnung) und des Versatzes ∆ zwischen den Ribo-Seq-Reads, die in Bezug auf das 5′-Ende der Fußabdrücke kartiert und auf die A-Site zentriert sind (blaue Balken). Das Ribosom schützt ein 28-nt-Fragment mit seinem 5′-Ende im Leseraster 0, wie es vom ATG-Startcodon des Gens definiert ist. Die E-, P- und A-Sites innerhalb des Ribosoms sind angegeben. Die Reads werden dann vom 5′-Ende zur A-Site um den Offset-Wert ∆ verschoben. (B) Der stochastische Nuklease-Verdau kann zu unterschiedlichen Fragmenten führen. Die beiden wahrscheinlichsten Varianten eines 29-nt-Footprints mit dem 5′-Ende in Frame 1 sind mit ihren Grenzen durch gepunktete Linien dargestellt, die sich am Genom orientieren und zu einem Offset von 15 nt (oben) bzw. 18 nt (unten) führen können. (C) Um die Anwendung des Algorithmus der Ganzzahligen Programmierung zu veranschaulichen, betrachten wir ein hypothetisches Transkript von 60 nt Länge. Das erste Feld zeigt das Ribosomenprofil, das von Reads stammt, die dem 5′-Ende von Fragmenten der Größe 33 in Frame 0 zugeordnet sind. Das Start- und das Stoppcodon sind angegeben, während der Rest der CDS-Region hellpfirsichfarben ist. Der Algorithmus verschiebt dieses Ribosomenprofil um 3 nt und berechnet die Zielfunktion \(\,T({\rm{\Delta }}|i,S,F)\). Das Ausmaß der Verschiebung ist der Offset Δ. Angegeben sind Werte von \(\,T({\rm{\Delta }}|i,S,F)\) für Δ = 12, 15, 18, 21 nts. In diesem Beispiel beträgt die durchschnittliche Anzahl der Reads pro Codon 7,85. Die Differenz zwischen den ersten beiden Offsets, 18 (T = 222) und 15 (T = 215), ist geringer als der Durchschnitt. Daher überprüfen wir die sekundären Kriterien (Ergebnisse). Offset 18 erfüllt die Kriterien, dass die Anzahl der Reads im Startcodon weniger als ein Fünftel des Durchschnitts der Reads im zweiten, dritten und vierten Codon beträgt und dass die Anzahl der Reads im zweiten Codon größer ist als die Reads im dritten Codon. Daher ist Δ = 18 nt der optimale Offset für dieses Transkript.

Abbildung 2

mRNA-Fragmentgrößenverteilung für S. cerevisiae Ribo-Seq-Datensatz von Pop und Mitarbeitern (A) und den gepoolten Datensatz (B).

Unsere Lösung für dieses Problem beruht auf der biologischen Tatsache, dass sich bei kanonischen Transkripten ohne vorgelagerte Translation die A-Stelle der aktiv translatierenden Ribosomen zwischen dem zweiten Codon und dem Stoppcodon des CDS17 befinden muss. Daher ist der optimale Offset-Wert Δ für Fragmente einer bestimmten Größe (S) und eines bestimmten Leserasters (F) derjenige, der die Gesamtzahl der Reads \(\,T({\rm{\Delta }}|i,S,F)\) zwischen diesen Codons für jedes Gen i maximiert, auf das die Fragmente abgebildet werden. Die Größe eines mRNA-Fragments S wird in Nukleotiden gemessen, und der Rahmen F hat die Werte 0, 1 oder 2, wie durch das Gen-Startcodon ATG definiert, und entspricht dem Rahmen, in dem sich das 5′-Endnukleotid des Fragments befindet (Abb. 1A). Das 5′-Endgerüst F ist das Ergebnis des RNase-Verdaus und unterscheidet sich von dem Leseraster des Ribosoms, das normalerweise im Gerüst übersetzt (Gerüst 0 der A-Site). Mit anderen Worten, für jede Kombination von (S, F) verschieben wir das 5′-ausgerichtete Leseprofil um jeweils 3 Nukleotide (um das Leseraster F zu erhalten), bis wir den Wert ∆ ermitteln, der die Lesungen zwischen zweitem und Stoppcodon maximiert (Abb. 1C, siehe nächster Unterabschnitt). Dieses Verfahren wird systematisch für jede Fragmentgröße S und jedes Leseraster F getrennt durchgeführt, da jedes Fragment ein anderes optimales ∆ haben kann (und wir finden, dass einige davon ein solches haben).

Während wir den Δ′-Wert für jedes Gen in unserem Datensatz identifizieren, minimieren wir auch das Auftreten von falsch-positiven Ergebnissen, indem wir sicherstellen, dass der höchste Wert, \(\,T({\rm{\Delta }}^{\prime} |i,S,F)\), deutlich höher ist als der nächsthöhere Wert, \(T({\rm{\Delta }}^{\prime\prime} |i,S,F)\), der an einem anderen Offset Δ″ auftritt. Wenn die Differenz zwischen den beiden besten Scores kleiner ist als die durchschnittliche Anzahl der Reads pro Codon, wenden wir die folgenden zusätzlichen Auswahlkriterien an. Um zwischen Δ′ und Δ″ zu wählen, wählen wir diejenige aus, die eine Anzahl von Reads am Startcodon ergibt, die mindestens ein Fünftel geringer ist als die durchschnittliche Anzahl von Reads am zweiten, dritten und vierten Codon. Außerdem muss das zweite Codon eine größere Anzahl von Reads aufweisen als das dritte Codon. Die biologische Grundlage für diese zusätzlichen Kriterien ist, dass der wahre Offset (d. h. die tatsächliche Position der A-Site) nicht am Startcodon lokalisiert werden kann und dass die Anzahl der Reads am zweiten Codon aufgrund der Beiträge des Initiationsschritts der Translation, während dessen sich das Ribosom an der mRNA mit dem Startcodon in der P-Site zusammensetzt, im Durchschnitt höher sein sollte als am dritten Codon. Nachfolgend zeigen wir, dass die Ergebnisse unserer Methode robust gegenüber Änderungen dieser Schwellenwerte sind.

Veranschaulichung des Optimierungsverfahrens der Ganzzahligen Programmierung

Die Fragmentgrößen- und Rahmenverteilungen ribosomgeschützter Fragmente (Abb. 2) in S. cerevisiae sind nicht genabhängig (ergänzende Abb. S2), und daher sollten auch die Offsetwerte Δ nicht genabhängig sein. Somit entspricht die Lage der A-Stelle relativ zum 5′-Ende eines Fragments der Größe S und des Rahmens F dem wahrscheinlichsten Wert des Offsets für alle Gene im Datensatz.

A-Stellen in S. cerevisiae Ribo-Seq-Daten sind von der Fragmentgröße und dem Rahmen abhängig

Wir wendeten zunächst die Methode der Ganzzahligen Programmierung auf Ribo-Seq-Daten von S. cerevisiae an, die von Pop und Mitarbeitern19 veröffentlicht wurden. Für jede Kombination von S und F identifizierten wir zunächst diejenigen Gene, die im Durchschnitt mindestens 1 Read pro Codon in ihrem entsprechenden Ribosomenprofil aufweisen. Die Anzahl der Gene, die dieses Kriterium erfüllen, ist in der ergänzenden Tabelle S1 aufgeführt. Anschließend haben wir die Methode der Ganzzahligen Programmierung auf diese Untergruppe von Genen angewandt. Die sich daraus ergebenden Verteilungen der Δ-Werte sind in Abb. 3A für verschiedene Kombinationen von Fragmentlänge und Rahmen dargestellt. Wir zeigen nur Ergebnisse für Fragmentgrößen zwischen 27 und 33 nt, da mehr als 90 % der Reads in diesem Bereich liegen (Abb. 2A). Der wahrscheinlichste Offset-Wert für alle Fragmentgrößen zwischen 20 und 35 nt ist in einer Offset-Tabelle angegeben (ergänzende Tabelle S2).

Abbildung 3

Verteilung der Offset-Werte aus dem Algorithmus der Ganzzahligen Programmierung, angewandt auf Transkripte aus S. cerevisiae. Die in (A) dargestellten Daten stammen aus dem Pop-Datensatz und (B) aus dem gepoolten Datensatz. Die Verteilungen sind als Funktion des Offset-Wertes aufgetragen und für Fragmentgrößen von 27 bis 33 nt, von links nach rechts, für die Frames 0, 1 und 2 dargestellt. Bei einer gegebenen Fragmentgröße und einem gegebenen Rahmen befindet sich die A-Site am wahrscheinlichsten Δ-Wert in der Verteilung, sofern der Offset bei mehr als 70 % der Gene auftritt (gestrichelte Linien in den Feldern). Die Fehlerbalken stellen 95%-Konfidenzintervalle dar, die mit Bootstrapping berechnet wurden. Die Stichprobengrößen sind in der ergänzenden Tabelle S1 angegeben.

Wir sehen, dass sich der optimale Δ-Wert – d. h. die Lage der A-Stelle – für verschiedene Kombinationen von S und F ändert, wobei die wahrscheinlichsten Werte entweder bei 15 oder 18 nt liegen. Die Lage der A-Stelle hängt also von S und F ab. In den meisten Fällen gibt es einen dominanten Peak für ein bestimmtes Paar von S- und F-Werten. Beispielsweise liegen für Fragmente der Größe 27 bis 30 nt in Frame 0 mehr als 70 % ihrer pro Gen optimierten Δ-Werte 15 nt vom 5′-Ende dieser Fragmente entfernt. Ähnliche Ergebnisse finden sich für andere Kombinationen wie die Größen 30, 31 und 32 nt in Frame 1 und 28 bis 32 nt in Frame 2, wo die optimierten Δ-Werte 18 nt betragen. Somit ist die Position des A-Site-Codons auf diesen Fragmenten im gesamten Transkriptom eindeutig identifiziert.

Es gibt jedoch S- und F-Kombinationen, die auf der Grundlage dieser Verteilungen mehrdeutige A-Site-Positionen aufweisen. Zum Beispiel liegen bei Fragmenten der Größe 27 nt in Frame 1 47% der genoptimierten Δ-Werte bei 15 nt und 30% bei 18 nt. Ähnliche Ergebnisse werden für Fragmente von 28 und 29 nt in Rahmen 1 und 31 und 32 nt in Rahmen 0 beobachtet. Für diese S- und F-Kombinationen besteht also eine ähnliche Wahrscheinlichkeit, dass sich die A-Stelle an dem einen oder anderen Codon befindet, und daher scheint es, dass wir die Lage der A-Stelle nicht eindeutig identifizieren können.

Eine höhere Abdeckung führt zu mehr eindeutigen Offsets

Wir stellten die Hypothese auf, dass die Mehrdeutigkeit bei der Identifizierung der A-Stelle für bestimmte S- und F-Kombinationen auf eine niedrige Abdeckung zurückzuführen sein könnte (d. h., schlechte Stichprobenstatistik). Um diese Hypothese zu testen, haben wir die Reads aus verschiedenen veröffentlichten Ribo-Seq-Datensätzen zu einem einzigen Datensatz mit folglich höherer Abdeckung und mehr Genen, die unsere Auswahlkriterien erfüllen, gepoolt (ergänzende Tabelle S1). Die Anwendung unserer Methode auf diesen gepoolten Datensatz ergibt eindeutige Offsets für mehr S- und F-Kombinationen im Vergleich zum ursprünglichen Pop-Datensatz (Abb. 3B und ergänzende Tabelle S2), was mit unserer Hypothese übereinstimmt. Zum Beispiel haben wir für Fragmente der Größe 27 und Rahmen 1 nun einen eindeutigen Offset von 15 nt mit 72 % der genoptimierten Δ-Werte bei 15 nt (Abb. 3B). Allerdings ist die Mehrdeutigkeit bei bestimmten (S, F)-Kombinationen immer noch vorhanden.

Wir haben eine zusätzliche Strategie angewandt, um die Abdeckung zu erhöhen, indem wir unsere Analyse auf Gene mit einer größeren durchschnittlichen Anzahl von Reads pro Codon beschränkten. Wenn die Hypothese richtig ist, dann sollten wir einen statistisch signifikanten Trend einer Zunahme des wahrscheinlichsten Δ-Wertes mit zunehmender Lesetiefe sehen. Wir haben diese Analyse auf den gepoolten Datensatz angewendet und festgestellt, dass einige ursprünglich mehrdeutige S- und F-Kombinationen mit zunehmender Abdeckung eindeutig werden. Bei durchschnittlich 1 Read pro Codon sind zum Beispiel die (S, F)-Kombinationen (25, 0), (27, 2) und (30, 1) mehrdeutig, da sie unter unseren Schwellenwert von 70 % fallen. Für Fragmente von (25, 0) zeigt sich jedoch ein statistisch signifikanter Trend (Steigung = 0,5, p = 3,94 × 10-6), dass der 15-nt-Offset mit zunehmender Abdeckung immer wahrscheinlicher wird und schließlich die 70 %-Schwelle überschreitet (Abb. 4A). Auch für (27, 2) (Steigung = 0,58, p = 5,77 × 10-5) und (30, 1) (Steigung = 0,25, p = 0,009) gibt es einen Trend zu einem Offset von 18 nt, wobei mehr als 70 % der Gene diesen Offset bei der höchsten Abdeckung aufweisen (Abb. 4B,C). Für diese Fragmente wird also mit zunehmender Abdeckung Δ′ und damit die A-Site eindeutig identifiziert. Bei einigen wenigen Kombinationen von (S, F), wie (32, 0), wird die Mehrdeutigkeit selbst bei sehr hoher Abdeckung nicht aufgelöst (Abb. 4D), was wir auf inhärente Merkmale des Nuklease-Verdaus zurückführen, die für mehr als einen Offset gleich wahrscheinlich sind.

Abbildung 4

Mit zunehmender Abdeckung werden A-Site-Standorte für S- und F-Kombinationen identifiziert, die ursprünglich mehrdeutig waren. Dargestellt ist der Prozentsatz der Transkripte mit einem bestimmten Δ-Wert für verschiedene S- und F-Kombinationen aus dem gepoolten Datensatz von S. cerevisiae. In jedem Feld sind mehrere Verteilungen dargestellt, die Transkripten mit zunehmender Abdeckung entsprechen (siehe Legende am unteren Rand). Die Verteilungen in Blau und Rot stammen zum Beispiel von Transkripten mit durchschnittlich mindestens 1 bzw. 2 Reads pro Codon. Wir beobachten, dass die A-Site bei S = 25, F = 0 (A) zu 15 nt und bei S = 27, F = 2 (B) und S = 30, F = 1 (C) zu 18 nt tendiert. Für S = 32, F = 0 (D) gibt es auch bei höherer Abdeckung keinen Trend. Beachten Sie, dass es für S = 27, F = 2 (Panel B) weniger als 10 Gene mit einem Durchschnitt von mehr als 50 Reads pro Codon gibt und wir daher den Datenpunkt jenseits des Durchschnitts von mehr als 45 Reads pro Codon nicht berücksichtigen (siehe Methoden). Die Fehlerbalken stellen 95%-Konfidenzintervalle dar, die mit Bootstrapping berechnet wurden.

Eine ausreichend hohe Abdeckung ergibt die in Tabelle 1 dargestellte optimale Offset-Tabelle, wobei der Offset die wahrscheinlichste Position der A-Stelle relativ zum 5′-Ende der in S. cerevisiae erzeugten mRNA-Fragmente ist.

Tabelle 1 A-Site-Standorte (Nukleotid-Offsets vom 5′-Ende), die durch Anwendung des Algorithmus der Ganzzahligen Programmierung auf den gepoolten Datensatz in S. cerevisiae bestimmt wurden, sind als Funktion der Fragmentgröße und des Rahmens dargestellt.

Konsistenz zwischen verschiedenen Datensätzen

Ribo-Seq-Daten sind empfindlich gegenüber experimentellen Protokollen, die zu Verzerrungen beim Verdau und der Ligation von ribosomgeschützten Fragmenten führen können. Die Zusammenführung von Datensätzen bietet den Vorteil einer höheren Abdeckung, kann aber die für einen einzelnen Datensatz spezifischen Verzerrungen maskieren. Um festzustellen, ob unsere eindeutigen Offsets (Tabelle 1) mit den Ergebnissen der einzelnen Datensätze übereinstimmen, haben wir den Algorithmus der Ganzzahligen Programmierung auf jeden einzelnen Datensatz angewendet. Die meisten dieser Datensätze haben eine geringe Abdeckung, was dazu führt, dass weniger Gene unsere Filterkriterien erfüllen (Supplementary File S1). Für jeden eindeutigen Offset in Tabelle 1 klassifizieren wir ihn als mit einem individuellen Datensatz übereinstimmend, vorausgesetzt, dass der wahrscheinlichste Offset aus dem individuellen Datensatz (auch wenn er aufgrund von Beschränkungen in der Abdeckungstiefe nicht den Schwellenwert von 70 % erreicht) derselbe ist wie in Tabelle 1. Wir stellen fest, dass die überwiegende Mehrheit der eindeutigen Offsets (22 von 24) in Tabelle 1 in 75 % oder mehr der einzelnen Datensätze übereinstimmen (statistische Angaben in der ergänzenden Tabelle S3). Nur zwei Kombinationen (S, F) weisen häufige Inkonsistenzen auf. Die (S, F)-Kombinationen (27, 1) und (27, 2) sind in 33 % oder mehr der einzelnen Datensätze inkonsistent (ergänzende Tabelle S3). Dies legt nahe, dass Forscher, die falsch-positive Ergebnisse minimieren wollen, diese (S, F)-Kombinationen bei der Erstellung von A-Site-Ribosomenprofilen verwerfen sollten.

Robustheit der Offset-Tabelle gegenüber Schwellenwertvariationen

Der Integer Programming-Algorithmus verwendet zwei Schwellenwerte, um einzigartige Offsets zu identifizieren. Der eine besteht darin, dass 70 % der Gene den wahrscheinlichsten Offset aufweisen, der andere wurde entwickelt, um falsch-positive Ergebnisse aufgrund von Stichprobenrauschen in den Ribo-Seq-Daten zu minimieren, und besteht darin, dass die Reads im ersten Codon weniger als ein Fünftel der durchschnittlichen Reads im zweiten, dritten und vierten Codon betragen. Obwohl es gute Gründe für die Einführung dieser Schwellenwerte gibt, sind die genauen Werte dieser Schwellenwerte willkürlich. Daher haben wir getestet, ob die Variation dieser Schwellenwerte die in Tabelle 1 berichteten Ergebnisse verändert. Wir variierten den ersten Schwellenwert auf 60% und 80% und berechneten die Offset-Tabelle neu. Wir geben an, ob sich der eindeutige Offset geändert hat, indem wir ein ‚R‘ oder ‚S‘ (für robust bzw. sensitiv) neben dem gemeldeten Offset in der ergänzenden Tabelle S3 aufführen. Wir stellen fest, dass sich zwei Drittel der eindeutigen (S, F)-Kombinationen nicht geändert haben (siehe Tabelle S3). Die (S, F)-Kombinationen (25, 0), (25, 2), (27, 0), (27, 1), (28, 1), (31, 0), (33, 0) und (33, 2) werden mehrdeutig, wenn wir den Schwellenwert auf 80% erhöhen.

Wir variierten den zweiten, oben erwähnten Schwellenwert von einem Fünftel bis zu einem und bis zu einem Zehntel, und wir stellten fest, dass alle eindeutigen (S, F)-Kombinationen außer (25, 2), (33, 0), (33, 2) und (34, 1) unverändert blieben (als „R“ in der ergänzenden Tabelle S3 angegeben). Zusammenfassend lässt sich also sagen, dass die in Tabelle 1 berichteten eindeutigen Offsets in den allermeisten Fällen nur sehr wenig von den spezifischen Werten dieser Schwellenwerte abhängen.

Test des Integer Programming Algorithmus anhand von künstlichen Ribo-Seq-Daten

Um die Korrektheit und Robustheit unseres Ansatzes zu testen, haben wir einen Datensatz mit simulierten Ribosomenbelegungen über 4.487 S. cerevisiae-Transkripte hinweg generiert und gefragt, ob unsere Methode die A-Site-Standorte genau bestimmen kann. Künstliche Ribo-Seq-Reads wurden aus diesen Belegungen unter der Annahme einer Poisson’schen Verteilung ihrer (S, F)-Werte und unter Verwendung zufälliger Fußabdrucklängen, die denen in Experimenten ähneln, erzeugt (siehe Methoden und ergänzende Abb. S3A, B). Wir untersuchten die Fähigkeit unserer Methode, die wahren A-Standorte für vier verschiedene Sätze von vordefinierten Offset-Werten korrekt zu bestimmen (siehe Methoden). Der Algorithmus der Ganzzahligen Programmierung wurde dann auf die resultierenden künstlichen Ribo-Seq-Daten angewandt. Wir stellen fest, dass die vom Algorithmus generierte Offset-Tabelle die verwendeten Eingabe-Offsets reproduziert (ergänzende Abb. S3C und ergänzende Tabelle S4). Diese Prozedur wurde für verschiedene Leselängenverteilungen sowie mit verschiedenen Eingabe-Offsets wiederholt, und wir stellen fest, dass die von unserem Algorithmus erzeugten Offset-Tabellen die Eingabe-Offset-Tabellen in mehr als 93 % aller (S, F)-Kombinationen reproduzieren (Ergänzende Abb. S3B,C und Ergänzungsdatei S2). Die Methode identifiziert eine kleine Anzahl von mehrdeutigen Offsets aufgrund der geringen Leseabdeckung an den Schwänzen der Verteilungen. Ein Ergebnis, das die Bedeutung der Leseabdeckung als kritischer Faktor für die genaue Identifizierung der A-Site weiter unterstreicht.

A-Site-Offsets in embryonalen Stammzellen der Maus

Die biologische Tatsache, dass sich die A-Site eines Ribosoms nur zwischen dem zweiten und dem Stoppcodon befindet, ist nicht auf S. cerevisiae beschränkt, und daher sollte der Algorithmus der Ganzzahligen Programmierung auf Ribo-Seq-Daten aus jedem Organismus anwendbar sein. Daher haben wir unsere Methode auf einen gepoolten Ribo-Seq-Datensatz von embryonalen Stammzellen der Maus (mESCs) angewendet. Die daraus resultierende A-Site-Offset-Tabelle wies bei allen bis auf drei (S, F) Kombinationen mehrdeutige Offsets auf (ergänzende Tabelle S5). In mESCs findet eine weit verbreitete Translationsdehnung statt, die über die Grenzen der annotierten CDS-Regionen in stromaufwärts gelegenen offenen Leserahmen (uORFs)20 hinausgeht. Die Anreicherung ribosomgeschützter Fragmente aus diesen translatierenden uORFs kann es unserem Algorithmus erschweren, eindeutige Offsets zu finden, da sie Reads um das Startcodon kanonisch annotierter CDSs beitragen können. Daher stellten wir die Hypothese auf, dass unser Algorithmus mehr eindeutige Offsets identifizieren sollte, wenn wir ihn nur auf solche Transkripte anwenden, die keine uORFs enthalten und eine einzige Initiationsstelle besitzen. Ingolia und Mitarbeiter11 haben experimentell für gut transkribierte mESC-Transkripte die Anzahl der Initiationsstellen und das Vorhandensein von uORFs ermittelt. Daher wählten wir diejenigen Gene aus, die nur eine Translationsinitiationsstelle in der Nähe des annotierten Startcodons haben, und beschränkten unsere Analyse auf Transkripte mit einer einzigen Isoform, da mehrere Isoformen unterschiedliche Terminationsstellen haben können.

Die Anwendung des Algorithmus der Ganzzahligen Programmierung auf diesen Satz von Genen erhöht die Anzahl der eindeutigen Offsets von 3 auf 13 (S, F) Kombinationen (ergänzende Tabelle S6). Die Anwendung der gleichen Robustheits- und Konsistenztests wie bei S. cerevisiae zeigt, dass 77 % der eindeutigen Offsets robust gegenüber Schwellenwertvariationen sind, und ein ähnlicher Prozentsatz ist über beide individuellen Datensätze hinweg konsistent, die zur Erstellung der gepoolten Daten verwendet wurden (ergänzende Tabelle S6). Die von uns berichteten eindeutigen Offsets für mESCs sind also in der großen Mehrheit der Datensätze robust und konsistent. Dieses Ergebnis deutet auch darauf hin, dass eine erfolgreiche Identifizierung von A-Site-Standorten nur die Analyse derjenigen Transkripte erfordert, die keine uORFs enthalten.

Integer Programming liefert keine eindeutigen Offsets für E. coli

Als weiteren Test, wie weit wir unseren Algorithmus anwenden können, haben wir ihn auf gepoolte Ribo-Seq-Daten aus dem prokaryotischen Organismus E. coli angewendet. Die Anzahl der Gene, die unsere Filterkriterien erfüllen, ist in der ergänzenden Tabelle S7 aufgeführt. MNase, die im E. coli Ribo-Seq-Protokoll verwendete Nuklease, verdaut mRNA in einer voreingenommenen Art und Weise – sie bevorzugt den Verdau vom 5′-Ende gegenüber dem 3′-Ende21,22. Daher haben wir, wie in anderen Studien21,22,23, unseren Algorithmus so angewandt, dass wir die A-Stelle als den Versatz vom 3′-Ende statt vom 5′-Ende identifiziert haben. Polycistronische mRNAs (d. h. Transkripte, die mehrere CDS enthalten) können unserem Algorithmus Probleme bereiten, da eng beieinander liegende Reads an den Grenzen von zusammenhängenden CDS für unterschiedliche Offsets in beiden CDSs bewertet werden. Um ungenaue Ergebnisse zu vermeiden, beschränken wir unsere Analyse auf die 1.915 monocistronischen Transkripte, die kein anderes Transkript innerhalb von 40 nt stromaufwärts oder stromabwärts des CDS haben. Aufgrund unserer Erfahrung bei der Analyse von mESC-Daten filtern wir Transkripte mit mehreren Translationsinitiationsstellen sowie Transkripte, deren annotierte Initiationsstellen umstritten sind, heraus. Nakahigashi und Mitarbeiter24 haben Tetracyclin als Translationsinhibitor verwendet, um 92 Transkripte in E. coli mit unterschiedlichen Initiationsstellen aus der Referenzannotation zu identifizieren. Wir schließen diese Transkripte ebenfalls von unserer Analyse aus. Für diesen gepoolten Datensatz mit hoher Abdeckung finden wir jedoch mehrdeutige Offsets für alle (S, F)-Kombinationen (ergänzende Tabelle S5). Eine Meta-Gen-Analyse der normalisierten Ribosomendichte im CDS und in der 30-nt-Region stromaufwärts und stromabwärts zeigt Signaturen der Translation über die Grenzen des CDS hinaus (ergänzende Abb. S4), insbesondere eine überdurchschnittliche Anreicherung von Reads einige Nukleotide vor dem Startcodon. Wir vermuten, dass die Basenpaarung der Shine-Dalgarno (SD)-Sequenz mit der komplementären Anti-SD-Sequenz in 16S rRNA25 diese wenigen Nukleotide vor dem Startcodon vor Ribonuklease-Verdau schützt und daher zu einer Anreicherung von Ribo-Seq-Reads führt. Da diese „pseudo“-Ribosom-geschützten Fragmente nicht von tatsächlichen ribosom-geschützten Fragmenten unterschieden werden können, die ein Codon mit der A-Site des Ribosoms enthalten, ist unser Algorithmus in seiner Anwendung für diese Daten eingeschränkt.

Nachbildung bekannter PPX- und XPP-Motive, die zu einer Verlangsamung der Translation führen

In S. cerevisiae26 und E. coli21,27 können bestimmte PPX- und XPP-Polypeptidmotive (bei denen X einer der 20 Aminosäuren entspricht) Ribosomen abwürgen, wenn sich der dritte Rest in der A-Site befindet. Die Elongationsfaktoren eIF5A (in S. cerevisiae) und EF-P (in E. coli) tragen dazu bei, die von einigen Motiven, aber nicht von anderen, verursachte Blockierung zu beheben26. Selbst in mESCs entdeckten Ingolia und Mitarbeiter11 PPD und PPE als starke Pausenmotive. Daher haben wir untersucht, ob unser Ansatz die bekannten Abwürgemotive reproduzieren kann. Dazu berechneten wir die normalisierte Lesedichte an den verschiedenen Vorkommen eines PPX- und XPP-Motivs.

In S. cerevisiae beobachteten wir große Ribosomendichten an PPG, PPD, PPE und PPN (Abb. 5A), die alle in S. cerevisiae26 und auch in E. coli27 als starke Abwürger klassifiziert wurden. Im Gegensatz dazu kommt es bei PPP im Durchschnitt zu keinem Abwürgen, was mit anderen Studien übereinstimmt26. Dies ist höchstwahrscheinlich auf die Wirkung von eIF5A zurückzuführen. Bei den XPP-Motiven wurde das stärkste Abwürgen bei GPP- und DPP-Motiven beobachtet, was mit den Ergebnissen in S. cerevisiae und in E. coli übereinstimmt (Abb. 5B). In mESCs sehen wir die stärkste Blockierung bei PPE und PPD, was die Ergebnisse von Ingolia und Mitarbeitern11 reproduziert (ergänzende Abb. S5A). Bei XPP-Motiven beobachteten wir nur bei DPP ein sehr schwaches Abwürgen (ergänzende Abb. S5B). Somit ermöglicht unser Ansatz zur Abbildung der A-Site auf Ribosomen-Fußabdrücken die genaue Erkennung von etablierten Translationspausen an bestimmten PPX- und XPP-Motiven für naszierende Polypeptide.

Abbildung 5

Verschiedene PPX- und XPP-Motive führen in S. cerevisiae zu ribosomalem Stillstand. Der Median der normalisierten Ribosomendichte wird für alle (A) PPX- und (B) XPP-Motive ermittelt, bei denen X einer der 20 natürlich vorkommenden Aminosäuren entspricht. Mit Hilfe eines Permutationstests wird ermittelt, ob die mittlere Ribosomendichte statistisch signifikant ist oder zufällig auftritt. Statistisch signifikante Motive sind dunkelrot hervorgehoben. Diese Analyse wurde mit dem Pop-Datensatz für Transkripte durchgeführt, bei denen mindestens 50 % der Codonpositionen mit Reads belegt sind. Die Fehlerbalken sind 95%-Konfidenzintervalle für den Median, die mit Bootstrapping ermittelt wurden.

In einer Studie mit Ribo-Seq-Daten von Säugetierzellen28 wurde eine sequenzunabhängige Translationspause beobachtet, wenn sich das fünfte Codon des Transkripts in der P-Site befindet. Dieses Pausieren nach der Initiation wurde auch in einer In-vitro-Studie zur Poly-Phenylalanin-Synthese beobachtet, bei der ein Abwürgen beobachtet wurde, wenn sich das vierte Codon in der P-Site befand29. Bei den A-Site-Profilen, die wir mit unseren Offset-Tabellen für S. cerevisiae und mESCs erhalten haben, beobachten wir diese Pausen auch, wenn sich sowohl das 4. als auch das 5. Codon an der P-Site befinden (ergänzende Abb. S6).

Größere Genauigkeit der A-Site-Lokalisierung als andere Methoden

Es gibt keine unabhängige experimentelle Methode, um die Genauigkeit der identifizierten A-Site-Lokalisierung mit unserer Methode oder einer anderen Methode zu überprüfen4,5,6,7,8,9,10,12,30,31,32,33,34,35. Wir argumentieren, dass das gut etablierte Anhalten des Ribosoms an bestimmten PPX-Sequenzmotiven das beste verfügbare Mittel ist, um die Genauigkeit der bestehenden Methoden zu unterscheiden. Der Grund dafür ist, dass diese abbremsenden Motive in E. coli36,37 und S. cerevisiae38 durch orthogonale experimentelle Methoden (einschließlich enzymologischer Studien und Zehendruck) identifiziert wurden, und die genaue Position der A-Stelle während einer solchen Verlangsamung ist bekanntlich am Codon, das den dritten Rest des Motivs kodiert36. Daher wird die genaueste Methode zur Identifizierung der A-Stelle diejenige sein, die X bei jedem Auftreten des PPX-Motivs am häufigsten eine größere Ribosomendichte zuweist.

Wir haben diesen Test auf die am stärksten abbremsenden PPX-Motive angewandt, d. h. PPG in S. cerevisiae und PPE in mESCs. In S. cerevisiae ergibt die Methode der Ganzzahligen Programmierung die größte Ribosomendichte am Glycin-Codon des PPG-Motivs, wenn sie sowohl auf die gepoolten (Abb. 6A) als auch auf die Pop-Datensätze (ergänzende Abb. S7A) angewendet wird. Bei der Untersuchung jedes Vorkommens von PPG in unserem Gendatensatz stellen wir fest, dass unsere Methode in der Mehrzahl der Fälle dem Glycin mehr Ribosomendichte zuweist als jede andere Methode, wenn sie sowohl auf den gepoolten Datensatz (Abb. 6B, Wilcoxon signed-rank test (n = 224), P < 0.0005 für alle Methoden außer Hussmann (P = 0.164)) und Pop-Datensätze (Ergänzende Abb. S7B, Wilcoxon signed-rank test (n = 35), P < 10-5 für alle Methoden außer Hussmann (P = 0.026) und Ribodeblur (P = 0.01)). Die gleichen Analysen, die auf mESCs an PPE-Motiven angewandt wurden, zeigen, dass unsere Methode die anderen neun Methoden übertrifft (Abb. 6C,D), wobei unsere Methode eine größere Ribosomendichte an Glutaminsäure für mindestens 85 % der PPE-Motive in unserem Datensatz im Vergleich zu allen anderen Methoden zuordnet (Abb. 6D, Wilcoxon signed-rank test (n = 104), P < 10-15 für alle Methoden). Somit ist unser Ansatz der Ganzzahligen Programmierung für S. cerevisiae und mESCs genauer als andere Methoden bei der Identifizierung der A-Site auf Ribosom-geschützten Fragmenten.

Abbildung 6

Der Algorithmus der Ganzzahligen Programmierung weist dem Glycin in PPG-Motiven in S. cerevisiae und der Glutaminsäure in PPE-Motiven in mESCs korrekt eine höhere Ribosomendichte zu als andere Methoden. (A) Die normalisierte Ribosomendichte, die mit den verschiedenen Methoden zur Identifizierung der A-Site erhalten wurde, ist für ein PPG-Motiv im Gen YLR375W mit G an Codonposition 303 im gepoolten Datensatz von S. cerevisiae dargestellt (die Legende gibt die Methode an, und die vollständigen Angaben zu jeder Methode sind im Abschnitt Methoden zu finden). (B) Der Anteil der PPG-Instanzen (n = 224), bei denen die Integer Programming-Methode eine höhere Ribosomendichte bei Glycin im Vergleich zu jeder anderen Methode ergibt. Die Farbkodierung ist dieselbe wie in der Legende in Feld (A). Unsere Methode schneidet besser ab, wenn sie in mehr als der Hälfte der Fälle eine höhere Ribosomendichte zuweist (horizontale Linie in Feld B). Die Methode der Ganzzahligen Programmierung schneidet besser ab als alle anderen Methoden (P < 0,0005), mit Ausnahme von Hussmann, die sich statistisch nicht unterscheidet (P = 0,164). (C) Die normalisierte Ribosomendichte ist für eine Instanz des PPE-Motivs im Gen uc007zma.1 mit E an Codonposition 127 im gepoolten Datensatz von Maus-ESCs dargestellt (siehe Legende und Haupttext für Details zu den Methoden). (D) Der Anteil der PPE-Instanzen, bei denen die Integer Programming-Methode eine größere Ribosomendichte an der Glutaminsäure ergibt als jede andere Methode. Die Farbkodierung ist dieselbe wie in der Legende von Tafel (C). Die Methode der Ganzzahligen Programmierung schneidet bei der genauen Zuordnung der Ribosomendichte zur Glutaminsäure in PPE-Motiven besser ab als alle anderen Methoden (P < 10-15) (n = 104). Für die in (B) und (D) dargestellten Analysen wurden zweiseitige p-Werte mit dem Wilcoxon Signed Rank Test berechnet. Die Fehlerbalken stellen das 95%-Konfidenzintervall um den Median dar, das mit Bootstrapping berechnet wurde.

Eine große Anzahl molekularer Faktoren beeinflusst die Codon-Übersetzungsraten und die Ribosomendichte entlang der Transkripte39. Ein Faktor ist die Konzentration der kognitiven tRNA, da Codons, die von kognitiver tRNA mit höheren Konzentrationen dekodiert werden, im Durchschnitt niedrigere Ribosomendichten aufweisen sollten15,16,40. Daher erwarten wir als zusätzlichen qualitativen Test, dass die genaueste A-Site-Methode die größte Anti-Korrelation zwischen der Ribosomendichte an einem Codon und seiner kognitiven tRNA-Konzentration ergibt. Dieser Test ist nur qualitativ, da die Korrelation zwischen der Ribosomendichte am Codon und der Konzentration der kognitiven tRNA von anderen Faktoren beeinflusst werden kann, einschließlich der Codon-Nutzung und der Wiederverwendung von aufgeladenen tRNAs in der Nähe des Ribosoms41,42. Unter Verwendung von tRNA-Häufigkeiten, die zuvor aus RNA-Seq-Experimenten an S. cerevisiae16 geschätzt wurden, stellen wir fest, dass unsere Methode der Ganzzahligen Programmierung die größte Anti-Korrelation im Vergleich zu den elf anderen betrachteten Methoden ergibt (ergänzende Tabelle S8), was die Genauigkeit unserer Methode weiter unterstützt. Wir waren nicht in der Lage, diesen Test in mESCs durchzuführen, da Messungen der tRNA-Konzentration in der Literatur nicht berichtet wurden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.