Identifying A- en P-site locaties op ribosoom-beschermd mRNA fragmenten met behulp van Integer Programming

Integer Programming Algoritme

In de analyse van Ribo-Seq gegevens, worden mRNA fragmenten in eerste instantie uitgelijnd op het referentietranscriptoom en hun locatie wordt gerapporteerd ten opzichte van hun 5′ einde. Dit betekent dat een fragment zal bijdragen een gelezen dat wordt gerapporteerd over het genoom coördinaat waarop de 5′ einde nucleotide van het fragment is uitgelijnd (Fig. 1A). In Ribo-Seq gegevens, fragmenten van verschillende lengtes worden waargenomen die kunnen voortvloeien uit onvolledige ontsluiting van RNA en uit de stochastische aard van mRNA splitsing door het RNase gebruikt in het experiment (Fig. 2, Supplementary Fig. S1). Een centrale uitdaging in kwantitatief analyseren Ribo-Seq gegevens is het identificeren van deze Ribo-Seq leest waar de A- en P-sites werden gevestigd op het moment van de spijsvertering. Het is niet-triviaal om dit te doen, omdat onvolledige digestie en stochastische splitsing kan optreden aan beide uiteinden van het fragment. Bijvoorbeeld, mRNA vertering resulteert in een fragment van grootte 29 nt kan optreden op verschillende manieren, waarvan er twee worden geïllustreerd in Fig. 1B. De hoeveelheid die we nauwkeurig moeten schatten is het aantal nucleotiden dat het codon in de A-site scheidt van het 5′ einde van het fragment, dat we de offset noemen en Δ aanduiden. Kennis van Δ bepaalt de positie van zowel de A-site als de P-site, aangezien de P-site zich altijd op Δ min 3 nt bevindt.

Figuur 1

De A-site locatie kan worden gedefinieerd als een offset vanaf het 5′-uiteinde van ribosoom-beschermde fragmenten. (A) Een schematische weergave van een vertalend ribosoom (bovenste tekening) en van de offset ∆ tussen de Ribo-Seq leest in kaart gebracht ten opzichte van de 5′ einde van de voetafdrukken en gecentreerd op de A-site (blauwe balken). Het ribosoom wordt getoond ter bescherming van een 28 nt fragment met zijn 5′ einde in leesraam 0, zoals gedefinieerd vanaf het ATG startcodon van het gen. De E-, P- en A-sites binnen het ribosoom zijn aangegeven. De gelezen fragmenten zijn vervolgens verschoven van het 5′-uiteinde naar de A-site met de offset-waarde ∆. (B) Stochastische nuclease digestie kan resulteren in verschillende fragmenten. De twee meest waarschijnlijke varianten van een 29 nt footprint met het 5′ einde in frame 1 worden getoond met hun grenzen in kaart gebracht door stippellijnen uitlijnen op het genoom die kunnen resulteren in offsets van 15 nt (boven) en 18 nt (onder), respectievelijk. (C) Ter illustratie van de toepassing van het Integer Programmering algoritme, beschouwen we een hypothetisch transcript dat 60 nt lang is. Het eerste paneel toont het ribosoom profiel afkomstig van gelezen toegewezen aan de 5′ einde van fragmenten van grootte 33 in frame 0. De start-en de stopcodon zijn aangegeven, terwijl de rest van de CDS regio is gekleurd licht perzik. Het algoritme verschuift dit ribosoom profiel met 3 nt en berekent de objectieve functie \,T({\Delta }}|i,S,F)\). De grootte van de verschuiving is de verschuiving Δ. Waarden van \(\,T({\Delta }}|i,S,F)\) voor Δ = 12, 15, 18, 21 nts zijn aangegeven. In dit voorbeeld is het gemiddelde aantal lezingen per codon 7.85. Het verschil tussen de top twee aflezingen, 18 (T = 222) en 15 (T = 215), is minder dan het gemiddelde. Daarom controleren we de secundaire criteria (Resultaten). Offset 18 voldoet aan de criteria dat het aantal lezingen in het startcodon minder is dan een vijfde van het gemiddelde van de lezingen in het tweede, derde en vierde codon en ook dat het aantal lezingen in het tweede codon groter is dan het aantal lezingen in het derde codon. Daarom is Δ = 18 nt de optimale offset voor dit transcript.

Figuur 2

mRNA-fragmentgrootteverdeling voor S. cerevisiae Ribo-Seq-dataset van Pop en collega’s (A) en de gepoolde dataset (B).

Onze oplossing voor dit probleem berust op het biologische feit dat voor canonieke transcripten, zonder upstream translatie, de A-site van actief vertalende ribosomen zich tussen het tweede codon en het stopcodon van de CDS17 moet bevinden. Daarom is de optimale offset waarde Δ voor fragmenten van een bepaalde grootte (S) en het lezen van frame (F) is degene die het totale aantal leest maximaliseert ((\,T({\Delta }}|i,S,F)\) tussen deze codons voor elk gen i op waarop de fragmenten kaart op. De grootte van een mRNA fragment S wordt gemeten in nucleotiden, en het frame F heeft waarden van 0, 1 of 2 zoals gedefinieerd door het gen startcodon ATG en komt overeen met het frame waarin de 5 ‘einde nucleotide van het fragment zich bevindt (Fig. 1A). Het 5′ eindframe F is een resultaat van RNase digestie en het is verschillend van het leesframe van het ribosoom dat typisch in-frame aan het vertalen is (frame 0 van de A-site). Met andere woorden, voor elke combinatie van (S, F) verschuiven we het 5′ uitgelijnde leesprofiel met 3 nucleotiden per keer (om het leeskader F te behouden) totdat we de waarde ∆ identificeren die de lezingen tussen tweede en stopcodon maximaliseert (Fig. 1C, zie volgende sub-sectie). Deze procedure wordt systematisch uitgevoerd voor elke fragmentgrootte S en leesframe F afzonderlijk, aangezien elk een andere optimale ∆ kan hebben (en wij vinden sommige hebben).

Terwijl we de Δ′ waarde voor elk gen in onze gegevensverzameling bepalen, minimaliseren we ook het optreden van vals-positieven door ervoor te zorgen dat de hoogste score, ∆,T({\Delta }}^{\prime} |i,S,F)\), significant hoger is dan de volgende hoogste score, \(T({\Delta }}^{\prime} |i,S,F)\), die op een andere offset Δ″ voorkomt. Als het verschil tussen de twee hoogste scores kleiner is dan het gemiddelde aantal lezingen per codon, passen we de volgende bijkomende selectiecriteria toe. Om te kiezen tussen Δ′ en Δ″, selecteren we degene die een aantal lezingen aan het startcodon oplevert dat minstens een vijfde minder is dan het gemiddelde aantal lezingen aan het tweede, derde en vierde codon. We eisen verder dat het tweede codon een groter aantal lezingen heeft dan het derde codon. De biologische basis voor deze aanvullende criteria is dat de ware offset (d.w.z. de werkelijke locatie van de A-site) niet kan worden gelokaliseerd bij het startcodon, en dat het aantal lezingen bij het tweede codon gemiddeld hoger moet zijn dan bij het derde codon als gevolg van bijdragen van de initiatiestap van translatie, waarbij het ribosoom zich verzamelt op het mRNA met het startcodon in de P-site. Hieronder tonen we aan dat de resultaten van onze methode zijn robuust voor veranderingen in deze drempels.

Illustrating the Integer Programming optimalisatieprocedure

De fragment-grootte en frame distributies van ribosoom-beschermde fragmenten (Fig. 2) in S. cerevisiae zijn niet gen-afhankelijk (Supplementary Fig. S2), en daarom moet ook de offset waarden Δ niet gen-afhankelijk zijn. Dus, de locatie van de A-site, ten opzichte van het 5′ einde van een fragment met grootte S en frame F, komt overeen met de meest waarschijnlijke waarde van de offset over alle genen in de dataset.

A-site locaties in S. cerevisiae Ribo-Seq gegevens zijn fragmentgrootte en frame afhankelijk

We pasten eerst de Integer Programming methode toe op Ribo-Seq gegevens van S. cerevisiae gepubliceerd door Pop en medewerkers19. Voor elke combinatie van S en F identificeerden we eerst die genen die gemiddeld ten minste 1 lezing per codon hebben in hun overeenkomstige ribosoomprofiel. Het aantal genen dat aan dit criterium voldoet wordt gerapporteerd in de supplementaire tabel S1. Vervolgens pasten we de Integer Programming methode toe op deze subset van genen. De resulterende verdelingen van Δ waarden worden getoond in Fig. 3A voor verschillende combinaties van fragmentlengte en frame. We tonen alleen de resultaten voor fragmentgroottes tussen 27 en 33 nt omdat meer dan 90% van de gelezen data zich binnen dit bereik bevinden (Fig. 2A). De meest waarschijnlijke offset-waarde voor alle fragmentgroottes tussen 20 en 35 nt wordt gerapporteerd als een offset-tabel (Supplementary Table S2).

Figure 3

Distributie van offset-waarden van het Integer Programming-algoritme toegepast op transcripten van S. cerevisiae. De gegevens in (A) zijn afkomstig van de Pop-dataset, en (B) van de gepoolde dataset. De verdelingen zijn uitgezet als functie van de offset-waarde en worden voor fragmentgroottes van 27 tot 33 nt, van links naar rechts, getoond voor frames 0, 1 en 2. Voor een gegeven fragmentgrootte en frame ligt de A-site locatie op de meest waarschijnlijke Δ waarde in de verdeling, mits de offset bij meer dan 70% van de genen optreedt (stippellijnen in de panelen). Foutbalken vertegenwoordigen 95% betrouwbaarheidsintervallen berekend met Bootstrapping. Steekproefgroottes zijn vermeld in aanvullende tabel S1.

We zien dat de optimale Δ-waarde – dat wil zeggen de A-site locatie – verandert voor verschillende combinaties van S en F, met de meest waarschijnlijke waarden ofwel bij 15 of 18 nt. De locatie van de A-site hangt dus af van S en F. In de meeste gevallen is er één dominante piek voor een gegeven paar S- en F-waarden. Bijvoorbeeld, voor fragmenten van grootte 27 tot 30 nt in frame 0 ligt meer dan 70% van hun per-gen geoptimaliseerde Δ waarden op 15 nt van het 5′ einde van deze fragmenten. Vergelijkbare resultaten worden gevonden voor andere combinaties zoals de maten 30, 31 en 32 nt in frame 1 en 28 tot en met 32 nt in frame 2, waar de geoptimaliseerde Δ waarden zijn 18 nt. Dus, over het transcriptoom, de A-site codon positie op deze fragmenten is uniek geïdentificeerd.

Er zijn echter S en F combinaties die ambigue A-site locaties hebben op basis van deze distributies. Bijvoorbeeld, voor fragmenten van grootte 27 nt in frame 1, 47% van de gen-geoptimaliseerde Δ waarden zijn op 15 nt, terwijl 30% zijn op 18 nt. Vergelijkbare resultaten worden waargenomen voor fragmenten van 28 en 29 nt in frame 1, en 31 en 32 nt in frame 0. Voor deze S en F combinaties is er dus een vergelijkbare waarschijnlijkheid dat de A-site zich op een codon of een ander bevindt, en daarom lijkt het erop dat we de locatie van de A-site niet op unieke wijze kunnen identificeren.

Hogere dekking leidt tot meer unieke offsets

We veronderstelden dat de dubbelzinnigheid bij het identificeren van de A-site voor bepaalde S- en F-combinaties te wijten kan zijn aan een lage dekking (d.w.z, slechte bemonsteringsstatistieken). Om deze hypothese te testen hebben we de gegevens van verschillende gepubliceerde Ribo-Seq datasets samengevoegd tot een enkele dataset met bijgevolg een hogere dekking en meer genen die voldoen aan onze selectiecriteria (Supplementary Table S1). Toepassing van onze methode op deze gepoolde dataset geeft unieke offsets voor meer S en F combinaties in vergelijking met de originele Pop dataset (Fig. 3B en Supplementary Table S2), consistent met onze hypothese. Bijvoorbeeld, voor fragmenten van grootte 27 en frame 1, hebben we nu de unieke offset van 15 nt met 72% van de gen-geoptimaliseerde Δ waarden op 15 nt (Fig. 3B). We zien echter nog steeds de ambiguïteit aanwezig voor bepaalde (S, F) combinaties.

We gebruikten een extra strategie om de dekking te verhogen door onze analyse te beperken tot genen met een grotere gemiddelde leest per codon. Als de hypothese juist is, dan zouden we een statistisch significante trend moeten zien van een toename van de meest waarschijnlijke Δ-waarde met toenemende leesdiepte. We pasten deze analyse toe op de gepoolde dataset en ontdekten dat sommige aanvankelijk ambigue S en F combinaties ondubbelzinnig worden naarmate de dekking toeneemt. Bijvoorbeeld, bij een gemiddelde van 1 lees per codon zijn (S, F) combinaties van (25, 0), (27, 2) en (30, 1) ambigu omdat ze onder onze 70% drempel vallen. We zien echter een statistisch significante trend (helling = 0,5, p = 3,94 × 10-6) voor fragmenten van (25, 0) dat de 15 nt offset waarschijnlijker wordt bij het verhogen van de dekking, uiteindelijk de 70% drempel overschrijdend (Fig. 4A). Evenzo is er voor (27, 2) (helling = 0,58, p = 5,77 × 10-5) en (30, 1) (helling = 0,25, p = 0,009) een trend naar een offset van 18 nt, met meer dan 70% van de genen met deze offset bij de hoogste dekking (Fig. 4B,C). Vandaar dat voor deze fragmenten een toenemende dekking op unieke wijze Δ′ en dus de A-site locatie identificeert. Voor een paar combinaties van (S, F), zoals (32, 0), is de dubbelzinnigheid niet opgelost, zelfs niet bij zeer hoge dekking (Fig. 4D), waarvan wij speculeren dat het te wijten kan zijn aan inherente kenmerken van nuclease digestie die even waarschijnlijk is voor meer dan één offset.

Figuur 4

Verhoogde dekking identificeert A-site locaties voor S en F combinaties die aanvankelijk dubbelzinnig waren. Het percentage transcripten met een bepaalde Δ-waarde voor verschillende S- en F-combinaties uit de gepoolde dataset van S. cerevisiae is uitgezet. In elk paneel worden meerdere verdelingen uitgezet die overeenkomen met transcripten met toenemende dekking, aangegeven door de legende onderaan. Bijvoorbeeld, de verdelingen in blauw en rood zijn afkomstig van transcripten met, respectievelijk, ten minste 1 of 2 gelezen per codon gemiddeld. We zien dat de A-site locatie neigt naar 15 nt voor S = 25, F = 0 (A) en naar 18 nt voor S = 27, F = 2 (B), en S = 30, F = 1 (C). Voor S = 32, F = 0 (D), is er geen trend, zelfs niet bij hogere dekking. Merk op dat voor S = 27, F = 2 (paneel B), er minder dan 10 genen zijn met een gemiddelde van meer dan 50 lezingen per codon en daarom nemen we het datapunt voorbij het gemiddelde van meer dan 45 lezingen per codon niet op (zie Methoden). Foutbalken vertegenwoordigen 95% betrouwbaarheidsintervallen berekend met Bootstrapping.

Dus, hoog genoeg dekking levert de optimale offset tabel weergegeven in tabel 1, waar de offset is de meest waarschijnlijke locatie van de A-site ten opzichte van de 5′ einde van het mRNA fragmenten gegenereerd in S. cerevisiae.

Tabel 1 A-site locaties (nucleotide offsets van 5′ einde) bepaald door toepassing van het Integer Programmeren algoritme op de gepoolde dataset in S. cerevisiae worden getoond als functie van fragmentgrootte en frame.

Consistentie over verschillende datasets

Ribo-Seq-gegevens is gevoelig voor experimentele protocollen die kunnen leiden tot vertekeningen in de spijsvertering en ligatie van ribosoom-beschermde fragmenten. Pooling datasets samen biedt het voordeel van een hogere dekking, maar het kan maskeren de biases die specifiek zijn voor een individuele dataset. Om te bepalen of onze unieke offsets (tabel 1) consistent zijn met de resultaten van individuele datasets hebben we de Integer Programming algoritme toegepast op elke individuele dataset. De meeste van deze datasets hebben een lage dekking, wat resulteert in minder genen die voldoen aan onze filtercriteria (Supplementary File S1). Voor elke unieke offset in tabel 1 classificeren we die als consistent met een individuele dataset op voorwaarde dat de meest waarschijnlijke offset van de individuele dataset (zelfs als die de drempel van 70% niet haalt door beperkingen in de diepte van de dekking) dezelfde is als in tabel 1. Wij stellen vast dat de grote meerderheid van de unieke offsets (22 van de 24) in tabel 1 consistent zijn in 75% of meer van de individuele datasets (statistieken gerapporteerd in aanvullende tabel S3). Slechts twee combinaties (S, F) vertonen frequente inconsistenties. (S, F) combinaties (27, 1) en (27, 2) zijn inconsistent in 33% of meer van de individuele datasets (Supplementary Table S3). Dit suggereert dat onderzoekers die vals-positieven willen minimaliseren, deze (S, F) combinaties moeten weggooien bij het maken van A-site ribosoomprofielen.

Robuustheid van de offset-tabel voor drempelvariatie

Het Integer Programming-algoritme maakt gebruik van twee drempels om unieke offsets te identificeren. De ene is dat 70% van de genen de meest waarschijnlijke offset vertonen, de andere, ontworpen om vals-positieven als gevolg van sampling ruis in de Ribo-Seq gegevens te minimaliseren, is dat de leest in het eerste codon minder dan een vijfde van de gemiddelde leest in de tweede, derde en vierde codon zijn. Hoewel er goede redenen zijn om deze drempelcriteria in te voeren, zijn de exacte waarden van deze drempels arbitrair. Daarom hebben we getest of het variëren van deze drempels de resultaten in tabel 1 verandert. We varieerden de eerste drempelwaarde tot 60% en 80%, en berekenden de offset-tabel opnieuw. Wij melden of de unieke offset veranderde door een ‘R’ of ‘S’ (voor respectievelijk robust en sensitive) naast de gerapporteerde offset te zetten in aanvullende tabel S3. Wij stellen vast dat twee derde van de unieke (S, F) combinaties niet verandert (aanvullende tabel S3). (S, F) combinaties (25, 0), (25, 2), (27, 0), (27, 1), (28, 1), (31, 0), (33, 0) en (33, 2) worden dubbelzinnig wanneer we de drempel tot 80% verhoogden.

We varieerden de tweede, bovengenoemde drempel van een vijfde tot één en omlaag tot een tiende, en we vinden dat alle unieke (S, F) combinaties behalve (25, 2), (33, 0), (33, 2) en (34, 1) onveranderd blijven (gerapporteerd als ‘R’ in aanvullende tabel S3). Dus, samengevat, in de overgrote meerderheid van de gevallen, de unieke offsets gerapporteerd in tabel 1 zijn zeer weinig afhankelijk van specifieke waarden van deze thresholds.

Testen van de Integer Programming algoritme tegen kunstmatige Ribo-Seq data

Om de juistheid en robuustheid van onze aanpak te testen, genereerden we een dataset van gesimuleerde ribosoombezettingen over 4.487 S. cerevisiae transcripten en vroegen we of onze methode nauwkeurig de A-site locaties kon bepalen. Kunstmatige Ribo-Seq leest werden gegenereerd uit deze bezettingen in de veronderstelling van een Poissonian verdeling in hun (S, F) waarden met behulp van willekeurige voetafdruk lengten vergelijkbaar met die gevonden in experimenten (zie Methoden en Supplementary Fig. S3A, B). We onderzochten het vermogen van onze methode om de ware A-locaties correct te bepalen voor vier verschillende sets van vooraf gedefinieerde offset-waarden (zie Methoden). Het Integer Programming algoritme werd vervolgens toegepast op de resulterende kunstmatige Ribo-Seq data. We vinden de offset tabel gegenereerd uit het algoritme reproduceert de input offsets gebruikt (Supplementary Fig. S3C en Supplementary Table S4). Deze procedure werd herhaald voor verschillende leeslengte distributies en met verschillende input offsets en we vinden dat de offset tabellen gegenereerd door ons algoritme de input offset tabellen reproduceren in meer dan 93% van alle (S, F) combinaties (Supplementary Fig. S3B,C en Supplementary File S2). De methode identificeert een klein aantal dubbelzinnige offsets als gevolg van de lage leesdekking aan de staarten van de distributies. Een bevinding die verder het belang benadrukt van leesdekking als een kritische factor in het nauwkeurig identificeren van de A-site.

A-site offsets in muis embryonale stamcellen

Het biologische feit dat A-site van een ribosoom zich alleen tussen het tweede en stopcodon bevindt is niet beperkt tot S. cerevisiae en dus moet het Integer Programmering algoritme toepasbaar zijn op Ribo-Seq gegevens van elk organisme. Daarom pasten we onze methode toe op een Pooled Ribo-Seq dataset van muis embryonale stamcellen (mESCs). De resulterende A-site offset tabel vertoonde dubbelzinnige offsets bij alle combinaties behalve drie (S, F) (Supplementary Table S5). In mESCs is er wijdverspreide translatie-verlenging die plaatsvindt buiten de grenzen van geannoteerde CDS-gebieden in upstream open leesramen (uORFs)20. Verrijking van ribosoom-beschermde fragmenten van deze vertalende uORFs kan het moeilijk maken voor ons algoritme om unieke offsets te vinden, omdat ze kunnen bijdragen leest rond het startcodon van canonieke geannoteerde CDSs. Daarom hebben we de hypothese dat als we ons algoritme alleen toepassen op transcripten zonder uORFs en met een enkele initiatieplaats, ons algoritme meer unieke offsets zou moeten identificeren. Ingolia en collega’s11 hebben experimenteel voor goed getranslate mESCs transcripten het aantal initiatieplaatsen geïdentificeerd en of er uORFs aanwezig zijn. Daarom selecteerden we die genen die slechts één translatie-initiatieplaats in de buurt van het geannoteerde startcodon hebben en beperkten we onze analyse verder tot transcripten met één enkele isovorm, aangezien meerdere isovormen verschillende terminatieplaatsen kunnen hebben.

Toepassing van Integer Programming-algoritme op deze reeks genen verhoogt het aantal unieke offsets van 3 tot 13 (S, F) combinaties (Supplementary Table S6). Toepassing van dezelfde robuustheid- en consistentie-tests als in S. cerevisiae toont aan dat 77% van de unieke offsets robuust zijn voor drempelvariaties, en een vergelijkbaar percentage is consistent in beide individuele datasets die gebruikt zijn om de gepoolde gegevens te creëren (Supplementary Table S6). De unieke offsets die we rapporteren voor mESC’s zijn dus robuust en consistent in de overgrote meerderheid van de datasets. Dit resultaat geeft ook aan dat succesvolle identificatie van A-site locaties vereist dat alleen die transcripten worden geanalyseerd die geen uORF’s bevatten.

Integer Programmering levert geen unieke offsets op voor E. coli

Als een verdere test van hoe breed we ons algoritme kunnen toepassen, hebben we het toegepast op een gepoolde Ribo-Seq gegevens van het prokaryotische organisme E. coli. Het aantal genen dat aan onze filtercriteria voldoet, wordt gerapporteerd in supplementaire tabel S7. MNase, de nuclease gebruikt in de E. coli Ribo-Seq protocol, verteert mRNA in een bevooroordeelde manier – de voorkeur aan vertering van de 5′ einde boven de 3′ einde 21,22. Daarom, zoals gedaan in andere studies 21,22,23, pasten we onze algoritme zodanig dat we de A-site locatie geïdentificeerd als de offset van de 3 ‘einde in plaats van de 5 ‘einde. Polycistronic mRNA’s (dat wil zeggen, transcripten met meerdere CDS) kan leiden tot problemen voor ons algoritme als gevolg van dicht bij elkaar leest op de grenzen van aaneengesloten CDS wordt gescoord voor verschillende offsets in zowel de CDS. Om onnauwkeurige resultaten te vermijden, beperken we onze analyse tot de 1.915 monocistronische transcripten die geen ander transcript binnen 40 nt upstream of downstream van de CDS hebben. Op basis van onze ervaring in de analyse van mESCs dataset, filteren we transcripten met meerdere translatie initiatie sites uit, evenals transcripten waarvan de geannoteerde initiatie sites zijn betwist. Nakahigashi en medewerkers24 hebben tetracycline als translatieremmer gebruikt om 92 transcripten in E. coli met verschillende initiatieplaatsen uit de referentieannotatie te identificeren. Wij sluiten ook deze transcripten van onze analyse uit. Voor deze gepoolde dataset met hoge dekking vinden we echter dubbelzinnige offsets voor alle (S, F) combinaties (supplementaire tabel S5). Een meta-gen analyse van genormaliseerde ribosoom dichtheid in de CDS en 30 nt regio upstream en downstream onthullen handtekeningen van vertaling buiten de grenzen van de CDS (Supplementary Fig. S4), in het bijzonder een hoger dan gemiddelde verrijking van leest een paar nucleotiden voor het startcodon. Wij speculeren dat de base-paring van de Shine-Dalgarno (SD) sequentie met de complementaire anti-SD sequentie in 16S rRNA25 deze paar nucleotiden voor het startcodon beschermt tegen ribonuclease digestie en dus resulteert in een verrijking van Ribo-Seq leest. Aangezien deze “pseudo” ribosoom-beschermde fragmenten niet kunnen worden onderscheiden van de werkelijke ribosoom-beschermde fragmenten die een codon met de A-site van het ribosoom erop bevatten, is ons algoritme beperkt in zijn toepassing voor deze gegevens.

Bekende PPX- en XPP-motieven die leiden tot translatievertraging

In S. cerevisiae26 en E. coli21,27 kunnen bepaalde PPX- en XPP-polypeptidemotieven (waarin X overeenkomt met een van de 20 aminozuren) ribosomen vertragen wanneer het derde residu zich in de A-site bevindt. Elongatiefactoren eIF5A (in S. cerevisiae) en EF-P (in E. coli) helpen de door sommige motieven geïnduceerde stagnatie op te heffen, maar andere niet26. Zelfs in mESC’s ontdekten Ingolia en collega’s11 PPD en PPE als sterke pauzemotieven. Daarom hebben we onderzocht of onze aanpak de bekende blokkerende motieven kan reproduceren. We deden dit door de genormaliseerde leesdichtheid te berekenen bij de verschillende occurrences van een PPX- en XPP-motief.

In S. cerevisiae observeerden we grote ribosoomdichtheden bij PPG, PPD, PPE en PPN (Fig. 5A), die allemaal werden geclassificeerd als sterke stallers in S. cerevisiae26 en ook in E. coli27. Daarentegen is er gemiddeld geen blokkade bij PPP, wat overeenkomt met andere studies26. Dit is hoogstwaarschijnlijk te wijten aan de werking van eIF5A. Voor de XPP-motieven werd de sterkste blokkade waargenomen voor GPP- en DPP-motieven, wat consistent is met de resultaten in S. cerevisiae en in E. coli (Fig. 5B). In mESC’s zien we de sterkste blokkering bij PPE en PPD, wat de resultaten van Ingolia en collega’s11 reproduceert (Supplementary Fig. S5A). Voor XPP-motieven zagen we alleen voor DPP een zeer zwakke blokkering (Supplementary Fig. S5B). Dus, onze aanpak om de A-site op ribosoom voetafdrukken kaart maakt de nauwkeurige detectie van gevestigde vertaling pauzeren op bepaalde PPX en XPP nascent polypeptide motieven.

Figuur 5

Verschillende PPX en XPP motieven leiden tot ribosomale stalling in S. cerevisiae. De mediane genormaliseerde ribosoomdichtheid wordt verkregen voor alle gevallen van (A) PPX- en (B) XPP-motieven waarbij X overeenkomt met een van de 20 natuurlijk voorkomende aminozuren. Met behulp van een permutatietest, bepalen we of de mediane ribosoom dichtheid statistisch significant is of optreedt door willekeurig toeval. Statistisch significante motieven zijn donkerrood gemarkeerd. Deze analyse werd uitgevoerd op de Pop dataset voor transcripten waarin ten minste 50% van de codonposities gelezen zijn in kaart gebracht. Foutbalken zijn 95% betrouwbaarheidsintervallen voor de mediaan, verkregen met Bootstrapping.

Een studie van Ribo-Seq-gegevens van zoogdiercellen28 heeft een sequentie-onafhankelijke translatiepauze waargenomen wanneer het 5e codon van het transcript zich in de P-site bevindt. Deze post-initiëringspauze werd ook waargenomen in een in vitro studie van poly-fenylalanine synthese, waar stalling werd waargenomen wanneer het 4e codon zich in de P-site bevond29. Met de A-site profielen verkregen met behulp van onze offset tabellen voor S. cerevisiae en mESCs; observeren we ook deze pauzes wanneer zowel het 4e als het 5e codon zich op de P-site bevinden (Supplementary Fig. S6).

Grote A-site locatie nauwkeurigheid dan andere methoden

Er is geen onafhankelijke experimentele methode om de nauwkeurigheid van geïdentificeerde A-site locaties te controleren met behulp van onze methode of een andere methode4,5,6,7,8,9,10,12,30,31,32,33,34,35. Wij stellen dat de gevestigde ribosoom pauzes bij bepaalde PPX-sequentie motieven het best beschikbare middel is om de nauwkeurigheid van bestaande methoden te differentiëren. De reden hiervoor is dat deze stalling motieven zijn geïdentificeerd in E. coli36,37 en S. cerevisiae38 door middel van orthogonale experimentele methoden (met inbegrip van enzymologie studies en teen afdrukken), en de exacte locatie van de A-site tijdens een dergelijke vertraging is bekend te zijn bij het codon dat codeert voor het derde residu van het motief 36. Dus, de meest nauwkeurige A-site identificatiemethode zal degene zijn die het vaakst een grotere ribosoomdichtheid aan X toekent bij elk voorkomen van het PPX-motief.

We pasten deze test toe op de sterkste vertragende PPX-motieven, d.w.z., PPG in S. cerevisiae en PPE in mESC’s. In S. cerevisiae levert de Integer Programming-methode de grootste ribosoomdichtheid op bij het glycine codon van het PPG-motief wanneer toegepast op zowel de gepoolde (Fig. 6A) als de Pop-datasets (Supplementary Fig. S7A). Onderzoek van elk voorkomen van PPG in onze gen-dataset, vinden we dat in een meerderheid van de gevallen onze methode meer ribosoomdichtheid aan glycine toekent dan elke andere methode wanneer toegepast op zowel de gepoolde (Fig. 6B, Wilcoxon signed-rank test (n = 224), P < 0.0005 voor alle methoden behalve Hussmann (P = 0,164)) en Pop datasets (Supplementary Fig. S7B, Wilcoxon signed-rank test (n = 35), P < 10-5 voor alle methoden behalve Hussmann (P = 0,026) en Ribodeblur (P = 0,01)). Dezelfde analyses toegepast op mESC’s op PPE-motieven laat zien dat onze methode beter presteert dan de andere negen methoden (Fig. 6C,D) met onze methode die een grotere ribosoomdichtheid toekent bij glutaminezuur voor ten minste 85% van de PPE-motieven in onze dataset in vergelijking met alle andere methoden (Fig. 6D, Wilcoxon signed-rank test (n = 104), P < 10-15 voor alle methoden). Voor S. cerevisiae en mESC’s is onze Integer Programmering-benadering dus nauwkeuriger dan andere methoden bij het identificeren van de A-site op ribosoom-beschermde fragmenten.

Figuur 6

Het Integer Programming-algoritme kent correct een grotere ribosoomdichtheid toe dan andere methoden aan de Glycine in PPG-motieven in S. cerevisiae en aan Glutaminezuur in PPE-motieven in mESC’s. (A) De genormaliseerde ribosoomdichtheid, verkregen met de verschillende methoden die gebruikt zijn om de A-site te identificeren, wordt getoond voor een voorbeeld van een PPG-motief in gen YLR375W met G op codonpositie 303 in de gepoolde dataset van S. cerevisiae (De legenda geeft de methode aan en de volledige details voor elke methode zijn te vinden in het gedeelte Methoden). (B) De fractie van PPG gevallen (n = 224) waarbij de Integer Programmeren methode een grotere ribosoom dichtheid bij glycine oplevert dan elke andere methode. De kleurcodering is dezelfde als die in de legenda in paneel (A). Onze methode doet het beter als het een grotere ribosoom dichtheid in meer dan de helft van de gevallen (horizontale lijn in paneel B). De Integer Programming methode doet het beter dan alle andere methoden (P < 0.0005), behalve Hussmann, die niet statistisch verschillend is (P = 0.164). (C) De genormaliseerde ribosoomdichtheid wordt getoond voor een voorbeeld van een PPE-motief in gen uc007zma.1 met E op codonpositie 127 in de gepoolde dataset van muizen-ESC’s (zie de legenda en de hoofdtekst voor details over de methoden). (D) De fractie van PPE gevallen waarbij de Integer Programmeren methode een grotere ribosoom dichtheid geeft bij glutamatisch zuur in vergelijking met elke andere methode. De kleurcodering is dezelfde als die in de legenda van paneel (C). De Integer Programmering methode doet het beter dan alle andere methoden (P < 10-15) in het nauwkeurig toewijzen ribosoom dichtheid aan glutaminezuur in PPE-motieven (n = 104). Voor de analyses gepresenteerd in (B) en (D), werden tweezijdige p-waarden berekend met behulp van de Wilcoxon signed rank test. Foutbalken vertegenwoordigen de 95% betrouwbaarheidsinterval over de mediaan berekend met Bootstrapping.

Een groot aantal moleculaire factoren beïnvloedt de snelheid van de codonvertaling en de dichtheid van de ribosomen langs de transcripten39. Eén factor is de cognaat-tRNA-concentratie, aangezien codons die door cognaat-tRNA met hogere concentraties worden gedecodeerd, gemiddeld een lagere ribosoomdichtheid moeten hebben15,16,40. Daarom, als een extra kwalitatieve test, verwachten wij dat de meest nauwkeurige A-site methode zal de grootste anti-correlatie tussen de ribosoom dichtheid bij een codon en zijn cognaat tRNA concentratie opleveren. Deze test is slechts kwalitatief als de correlatie tussen codon ribosoom-dichtheid en cognaat tRNA concentratie kan worden beïnvloed door andere factoren, met inbegrip van codon gebruik en hergebruik van opgeladen tRNAs in de nabijheid van het ribosoom41,42. Met behulp van tRNA overvloed eerder geschat uit RNA-Seq experimenten op S. cerevisiae 16, vinden we dat onze Integer Programmeren methode de grootste anti-correlatie in vergelijking met de elf andere methoden beschouwd (Supplementary Table S8) oplevert, verdere ondersteuning van de nauwkeurigheid van onze methode. We waren niet in staat om deze test uit te voeren in mESC’s als metingen van tRNA concentratie zijn niet gemeld in de literatuur.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.