Identifiering av A- och P-platser på ribosomskyddade mRNA-fragment med hjälp av heltalsprogrammering

Algoritm för heltalsprogrammering

I analysen av Ribo-Seq-data anpassas mRNA-fragmenten till en början till referenstranskriptomet, och deras placering rapporteras med avseende på deras 5′-ända. Detta innebär att ett fragment bidrar med en avläsning som rapporteras på den genomkoordinat till vilken fragmentets 5′-ändliga nukleotid är anpassad (fig. 1A). I Ribo-Seq-data observeras fragment av olika längd som kan uppstå på grund av ofullständig digestion av RNA och på grund av den stokastiska karaktären hos mRNA-klyvningen av det RNas som används i experimentet (fig. 2, kompletterande fig. S1). En central utmaning vid kvantitativ analys av Ribo-Seq-data är att utifrån dessa Ribo-Seq-läsningar identifiera var A- och P-siterna befann sig vid tidpunkten för digestion. Det är icke-trivialt att göra detta eftersom ofullständig digestion och stokastisk klyvning kan förekomma i fragmentets båda ändar. Till exempel kan mRNA-spaltning som resulterar i ett fragment med en storlek på 29 nt ske på olika sätt, varav två illustreras i figur 1B. Den kvantitet som vi behöver uppskatta exakt är det antal nukleotider som skiljer kodonet i A-sidan från fragmentets 5′-ända, vilket vi kallar offset och betecknar Δ. Kunskap om Δ bestämmer positionen för A-site samt P-site eftersom P-site alltid kommer att vara vid Δ minus 3 nt.

Figur 1

Platsen för A-site kan definieras som en förskjutning från 5′-ändan av ribosomskyddade fragment. (A) En schematisk representation av en översättande ribosom (övre ritning) och av förskjutningen ∆ mellan Ribo-Seq-avläsningarna som kartläggs med avseende på 5′-ändan av fotspåren och centreras på A-site (blå staplar). Ribosomen visas som skyddar ett 28 nt-fragment med sin 5′-ända i läsram 0, enligt definitionen från genens ATG-startkodon. E-, P- och A-siterna i ribosomen är angivna. Avläsningarna förskjuts sedan från 5′-änden till A-sidan med offsetvärdet ∆. (B) Stokastisk nukleasspjälkning kan resultera i olika fragment. De två mest sannolika varianterna av ett 29 nt fotspår med 5′-ändan i ram 1 visas med deras gränser kartlagda av streckade linjer som anpassar sig till genomet, vilket kan resultera i förskjutningar på 15 nt (överst) respektive 18 nt (nederst). (C) För att illustrera tillämpningen av algoritmen för heltalsprogrammering, betrakta ett hypotetiskt transkript som är 60 nt långt. Den första panelen visar ribosomprofilen som härrör från läsningar som tilldelats 5′-änden av fragment av storlek 33 i ram 0. Start- och stoppkodonet anges medan resten av CDS-regionen är färgad i ljus persika. Algoritmen förskjuter denna ribosomprofil med 3 nt och beräknar målfunktionen \(\,T({\rm{\Delta }}|i,S,F)\). Förskjutningens omfattning är förskjutningen Δ. Värden för \(\,T({\rm{\Delta }}|i,S,F)\) för Δ = 12, 15, 18, 21 nts anges. I detta exempel är det genomsnittliga antalet läsningar per kodon 7,85. Skillnaden mellan de två bästa förskjutningarna, 18 (T = 222) och 15 (T = 215), är mindre än genomsnittet. Därför kontrollerar vi det sekundära kriteriet (Resultat). Offset 18 uppfyller kriterierna att antalet läsningar i startkodonet är mindre än en femtedel av genomsnittet av läsningar i andra, tredje och fjärde kodonet och att antalet läsningar i andra kodonet är större än antalet läsningar i tredje kodonet. Därför är Δ = 18 nt den optimala förskjutningen för detta transkript.

Figur 2

mRNA-fragmentens storleksfördelning för S. cerevisiae Ribo-Seq-dataset från Pop och medarbetare (A) och det poolade datasetetet (B).

Vår lösning på detta problem bygger på det biologiska faktum att för kanoniska transkript, utan uppströmsöversättning, måste A-sidan för aktivt översättande ribosomer vara belägen mellan det andra kodonet och stoppkodonet i CDS17. Därför är det optimala förskjutningsvärdet Δ för fragment av en viss storlek (S) och läsram (F) det som maximerar det totala antalet läsningar \(\,T({\rm{\Delta }}|i,S,F)\) mellan dessa kodoner för varje gen i som fragmenten är kopplade till. Storleken på ett mRNA-fragment S mäts i nukleotider, och ramen F har värdena 0, 1 eller 2 enligt definitionen av genens startkodon ATG och motsvarar den ram i vilken fragmentets 5′-ändliga nukleotid är belägen (fig. 1A). Den 5′-ändliga ramen F är ett resultat av RNasspjälkning och skiljer sig från ribosomens läsram som vanligtvis översätter inom ramen (A-sidans ram 0). Med andra ord, för varje kombination av (S, F) förskjuter vi den 5′-justerade läsprofilen med 3 nukleotider i taget (för att bevara läsramen F) tills vi identifierar det värde ∆ som maximerar läsningarna mellan andra och stoppkodon (fig. 1C, se nästa underavsnitt). Detta förfarande utförs systematiskt för varje fragmentstorlek S och läsram F separat, eftersom var och en kan ha (och vi finner att vissa har) ett annat optimalt ∆.

När vi identifierar Δ′-värdet för varje gen i vår datamängd minimerar vi också förekomsten av falskt positiva resultat genom att se till att den högsta poängen, \(\,T({\rm{\Delta }}^{\prime} |i,S,F)\), är betydligt högre än den näst högsta poängen, \(T({\rm{\Delta }}^{\prime\prime} |i,S,F)\), som inträffar vid en annan förskjutning Δ″. Om skillnaden mellan de två högsta värdena är mindre än det genomsnittliga antalet läsningar per kodon tillämpar vi följande ytterligare urvalskriterier. För att välja mellan Δ′ och Δ″ väljer vi den som ger ett antal läsningar vid startkodonen som är minst en femtedel mindre än det genomsnittliga antalet läsningar vid den andra, tredje och fjärde kodonen. Vi kräver dessutom att den andra kodonet har ett större antal läsningar än den tredje kodonet. Den biologiska grunden för dessa ytterligare kriterier är att den verkliga förskjutningen (dvs. den faktiska placeringen av A-sidan) inte kan lokaliseras vid startkoden, och att antalet läsningar vid den andra koden i genomsnitt bör vara högre än vid den tredje koden på grund av bidrag från initieringssteget av översättningen, under vilket ribosomen samlas på mRNA med startkoden i P-sidan. Nedan visar vi att resultaten från vår metod är robusta mot förändringar i dessa tröskelvärden.

Illustration av optimeringsproceduren med heltalsbaserad programmering

Fragmentstorleks- och ramfördelningarna av ribosomskyddade fragment (Fig. 2) i S. cerevisiae är inte genberoende (kompletterande Fig. S2), och därför bör inte heller offsetvärdena Δ vara genberoende. Således motsvarar placeringen av A-site, i förhållande till 5′-ändan av ett fragment av storlek S och ram F, det mest sannolika värdet av förskjutningen över alla gener i datasetet.

A-site-placeringar i S. cerevisiae Ribo-Seq-data är fragmentstorleks- och ramberoende

Vi tillämpade först Integer Programming-metoden på Ribo-Seq-data från S. cerevisiae som publicerats av Pop och medarbetare19. För varje kombination av S och F identifierade vi först de gener som har minst 1 läsning per kodon i genomsnitt i sin motsvarande ribosomprofil. Antalet gener som uppfyller detta kriterium redovisas i kompletterande tabell S1. Vi tillämpade sedan metoden för heltalsprogrammering på denna undergrupp av gener. De resulterande fördelningarna av Δ-värdena visas i figur 3A för olika kombinationer av fragmentlängd och ram. Vi visar endast resultat för fragmentstorlekar mellan 27 och 33 nt eftersom mer än 90 % av läsningarna kartlägger detta intervall (Fig. 2A). Det mest sannolika förskjutningsvärdet för alla fragmentstorlekar mellan 20 och 35 nt redovisas som en förskjutningstabell (kompletterande tabell S2).

Figur 3

Fördelning av förskjutningsvärden från algoritmen för heltalsprogrammering som tillämpats på transkript från S. cerevisiae. De data som visas i (A) är från Pop-dataset och (B) Pooled-dataset. Fördelningarna visas som en funktion av förskjutningsvärdet och för fragmentstorlekar på 27-33 nt visas, från vänster till höger, för ramarna 0, 1 och 2. För en given fragmentstorlek och ram ligger A-site-platsen vid det mest sannolika Δ-värdet i fördelningen, förutsatt att förskjutningen förekommer för mer än 70 % av generna (streckade linjer i panelerna). Felstaplarna representerar 95 % konfidensintervall som beräknats med hjälp av Bootstrapping. Provstorlekar redovisas i kompletterande tabell S1.

Vi ser att det optimala Δ-värdet – det vill säga A-site-placeringen – förändras för olika kombinationer av S och F, med de mest sannolika värdena antingen vid 15 eller 18 nt. A-sidans placering beror alltså på S och F. I de flesta fall finns det en dominerande topp för ett givet par av S- och F-värden. För fragment av storleken 27 till 30 nt i ram 0 ligger till exempel mer än 70 % av deras per gen optimerade Δ-värden 15 nt från 5′-ändan av dessa fragment. Liknande resultat finns för andra kombinationer, t.ex. storlek 30, 31 och 32 nt i ram 1 och 28 till 32 nt i ram 2, där de optimerade Δ-värdena är 18 nt. Således är A-site-kodonpositionen på dessa fragment unikt identifierad i hela transkriptomet.

Det finns dock S- och F-kombinationer som har tvetydiga A-site-positioner baserade på dessa fördelningar. Till exempel, för fragment med en storlek på 27 nt i ram 1 ligger 47 % av de genoptimerade Δ-värdena vid 15 nt medan 30 % ligger vid 18 nt. Liknande resultat observeras för fragmenten 28 och 29 nt i ram 1 och 31 och 32 nt i ram 0. För dessa S- och F-kombinationer finns det alltså en liknande sannolikhet för att A-sajten är placerad vid det ena eller andra kodonet, och därför verkar det som om vi inte kan identifiera A-sajtens plats på ett entydigt sätt.

Högre täckning leder till fler unika offsets

Vi antog att tvetydigheten i identifieringen av A-site för vissa S- och F-kombinationer kan bero på låg täckning (dvs, dålig provtagningsstatistik). För att testa denna hypotes sammanförde vi läsningar från olika publicerade Ribo-Seq-dataset till ett enda dataset med följaktligen högre täckning och fler gener som uppfyller våra urvalskriterier (kompletterande tabell S1). Tillämpning av vår metod på detta poolade dataset ger unika offsets för fler S- och F-kombinationer jämfört med det ursprungliga Pop-dataset (fig. 3B och kompletterande tabell S2), vilket överensstämmer med vår hypotes. Till exempel för fragment av storlek 27 och ram 1 har vi nu den unika förskjutningen 15 nt med 72 % av de genoptimerade Δ-värdena vid 15 nt (fig. 3B). Vi ser dock fortfarande den tvetydighet som finns för vissa (S, F)-kombinationer.

Vi använde ytterligare en strategi för att öka täckningen genom att begränsa vår analys till gener med större genomsnittliga läsningar per kodon. Om hypotesen är korrekt bör vi se en statistiskt signifikant trend av en ökning av det mest sannolika Δ-värdet med ökande läsdjup. Vi tillämpade denna analys på det poolade datasetet och finner att vissa ursprungligen tvetydiga S- och F-kombinationer blir otvetydiga när täckningen ökar. Till exempel är (S, F)-kombinationer av (25, 0), (27, 2) och (30, 1) tvetydiga vid i genomsnitt 1 läsning per kodon, eftersom de ligger under vårt tröskelvärde på 70 %. Vi ser dock en statistiskt signifikant trend (lutning = 0,5, p = 3,94 × 10-6) för fragment av (25, 0) som innebär att förskjutningen på 15 nt blir mer sannolik när täckningsgraden ökar och till slut överskrider tröskelvärdet på 70 % (fig. 4A). På samma sätt finns det för (27, 2) (lutning = 0,58, p = 5,77 × 10-5) och (30, 1) (lutning = 0,25, p = 0,009) en trend mot en förskjutning på 18 nt, där mer än 70 % av generna har denna förskjutning vid den högsta täckningsgraden (fig. 4B, C). För dessa fragment identifierar ökad täckning alltså Δ′ och därmed A-site-platsen på ett entydigt sätt. För några få kombinationer av (S, F), som (32, 0), löses tvetydigheten inte ens vid mycket hög täckning (Fig. 4D), vilket vi spekulerar i kan bero på att inneboende egenskaper hos nukleasspjälkning är lika sannolika för mer än en förskjutning.

Figure 4

Tilltagande täckning identifierar A-site-platser för S- och F-kombinationer som ursprungligen var tvetydiga. Diagrammet visar den procentuella andelen transkript med ett visst Δ-värde för olika S- och F-kombinationer från Pooled datasetet för S. cerevisiae. I varje panel plottas flera fördelningar som motsvarar transkript med ökande täckning, vilket anges i legenden längst ner. Till exempel kommer fördelningarna i blått och rött från transkript med i genomsnitt minst 1 respektive 2 läsningar per kodon. Vi observerar att A-sidans placering tenderar mot 15 nt för S = 25, F = 0 (A) och mot 18 nt för S = 27, F = 2 (B) och S = 30, F = 1 (C). För S = 32, F = 0 (D) finns det ingen tendens ens vid högre täckningsgrad. Observera att för S = 27, F = 2 (panel B) finns det färre än 10 gener med ett genomsnitt som är större än 50 läsningar per kodon och därför tar vi inte med datapunkten bortom ett genomsnitt som är större än 45 läsningar per kodon (se Metoder). Felstaplarna representerar 95 % konfidensintervall beräknat med hjälp av Bootstrapping.

En tillräckligt hög täckning ger alltså den optimala förskjutningstabellen i tabell 1, där förskjutningen är den mest sannolika placeringen av A-sajten i förhållande till 5′-ändan av mRNA-fragmenten som genereras i S. cerevisiae.

Tabell 1 Placering av A-site (nukleotidförskjutningar från 5′-ändan) som bestämts genom att tillämpa algoritmen för heltalsprogrammering på poolade datasetet i S. cerevisiae visas som en funktion av fragmentstorlek och ram.

Konsistens mellan olika dataset

Ribo-Seq-data är känsliga för experimentella protokoll som kan introducera bias vid digestion och ligering av ribosomskyddade fragment. Att sammanföra dataset ger fördelen av högre täckning, men det kan dölja de bias som är specifika för ett enskilt dataset. För att avgöra om våra unika förskjutningar (tabell 1) stämmer överens med resultaten från enskilda dataset tillämpade vi algoritmen Integer Programming på varje enskilt dataset. De flesta av dessa dataset har låg täckning vilket resulterar i färre gener som uppfyller våra filterkriterier (Supplementary File S1). För varje unik förskjutning i tabell 1 klassificerar vi den som överensstämmande med en enskild datauppsättning förutsatt att den mest sannolika förskjutningen från den enskilda datauppsättningen (även om den inte når upp till tröskelvärdet 70 % på grund av begränsningar i täckningsdjupet) är densamma som i tabell 1. Vi finner att den stora majoriteten av de unika förskjutningarna (22 av 24) i tabell 1 stämmer överens med 75 % eller mer av de enskilda datamängderna (statistiken redovisas i tilläggstabell S3). Endast två kombinationer (S, F) uppvisar frekventa inkonsekvenser. (S, F)-kombinationerna (27, 1) och (27, 2) är inkonsekventa i 33 % eller fler av de enskilda datamängderna (kompletterande tabell S3). Detta tyder på att forskare som vill minimera falskt positiva resultat bör kasta bort dessa (S, F)-kombinationer när de skapar ribosomprofiler för A-site.

Robusthet hos offsettabellen mot tröskelvariation

Integerprogrammeringsalgoritmen använder sig av två tröskelvärden för att identifiera unika offsets. Den ena är att 70 % av generna uppvisar den mest sannolika förskjutningen, den andra, som är utformad för att minimera falskt positiva resultat som uppstår på grund av samplingsbrus i Ribo-Seq-data, är att läsningarna i den första kodonet är mindre än en femtedel av de genomsnittliga läsningarna i den andra, tredje och fjärde kodonet. Även om det finns goda skäl att införa dessa tröskelkriterier är de exakta värdena för dessa tröskelvärden godtyckliga. Därför testade vi om variationen av dessa tröskelvärden förändrar de resultat som redovisas i tabell 1. Vi varierade det första tröskelvärdet till 60 % och 80 % och räknade om offsettabellen. Vi rapporterar om den unika förskjutningen ändrades genom att ange ett ”R” eller ”S” (för robust respektive känslig) vid sidan av den rapporterade förskjutningen i kompletterande tabell S3. Vi finner att två tredjedelar av de unika (S, F)-kombinationerna inte förändras (kompletterande tabell S3). (S, F)-kombinationerna (25, 0), (25, 2), (27, 0), (27, 1), (28, 1), (31, 0), (33, 0) och (33, 2) blir tvetydiga när vi ökade tröskeln till 80 %.

Vi varierade det andra, tidigare nämnda tröskelvärdet från en femtedel upp till en och ner till en tiondel, och vi fann att alla unika (S, F)-kombinationer utom (25, 2), (33, 0), (33, 2) och (34, 1) förblir oförändrade (rapporteras som ”R” i kompletterande tabell S3). Sammanfattningsvis kan man alltså säga att i de allra flesta fall beror de unika förskjutningar som rapporteras i tabell 1 mycket lite på specifika värden på dessa tröskelvärden.

Testning av algoritmen för heltalsprogrammering mot artificiella Ribo-Seq-data

För att testa korrektheten och robustheten hos vårt tillvägagångssätt genererade vi ett dataset med simulerade ribosomupptagningar över 4 487 S. cerevisiae-transkript och frågade oss om vår metod kunde bestämma A-site-platserna korrekt. Artificiella Ribo-Seq-avläsningar genererades från dessa platser genom att anta en Poisson-fördelning i deras (S, F)-värden med hjälp av slumpmässiga fotavtryckslängder som liknar dem som hittas i experiment (se metoder och kompletterande figur S3A, B). Vi undersökte vår metods förmåga att korrekt bestämma de verkliga A-site-platserna för fyra olika uppsättningar av fördefinierade offset-värden (se metoder). Algoritmen för heltalsprogrammering tillämpades sedan på de resulterande artificiella Ribo-Seq-dataen. Vi finner att den offsettabell som genereras av algoritmen reproducerar de inmatade offsets som använts (Supplementary Fig. S3C och Supplementary Table S4). Detta förfarande upprepades för olika fördelningar av avläsningslängder samt med olika inmatningsoffsets och vi finner att de offsettabeller som genereras av vår algoritm reproducerar inmatningsoffsettabellerna i mer än 93 % av alla (S, F)-kombinationer (Supplementary Fig. S3B,C och Supplementary File S2). Metoden identifierar ett litet antal tvetydiga offsets på grund av den låga lästäckningen vid fördelningarnas svansar. Ett resultat som ytterligare understryker vikten av lästäckning som en kritisk faktor för att korrekt identifiera A-sidan.

A-site offsets i embryonala stamceller från mus

Det biologiska faktum att A-sidan i en ribosom endast finns mellan den andra koden och stoppkodonet är inte begränsat till S. cerevisiae och därför bör algoritmen för heltalsprogrammering kunna tillämpas på Ribo-Seq-data från vilken organism som helst. Därför tillämpade vi vår metod på ett poolat Ribo-Seq-dataset av embryonala stamceller från mus (mESC). Den resulterande A-site offset tabellen uppvisade tvetydiga offsets vid alla utom tre (S, F) kombinationer (kompletterande tabell S5). I mESCs finns det en utbredd translationsförlängning som sker utanför gränserna för annoterade CDS-regioner i uppströms öppna läsramar (uORFs)20 . Anrikning av ribosomskyddade fragment från dessa translaterande uORFs kan göra det svårt för vår algoritm att hitta unika offsets eftersom de kan bidra med läsningar runt startkoden för kanoniska annoterade CDS:er. Därför antog vi att om vi tillämpar vår algoritm på endast de transkript som saknar uORF:er och som har en enda startplats, bör vår algoritm identifiera fler unika offsets. Ingolia och medarbetare11 har experimentellt identifierat antalet initieringsställen för vältranslaterade mESC-transkript och huruvida uORF:er förekommer. Därför valde vi ut de gener som endast har en översättningsinitieringsplats nära det annoterade startkodonet och begränsade vår analys ytterligare till transkriptioner med en enda isoform, eftersom flera isoformer kan ha olika termineringsställen.

Användning av algoritmen Integer Programming på denna uppsättning gener ökar antalet unika förskjutningar från 3 till 13 (S, F) kombinationer (kompletterande tabell S6). Genom att tillämpa samma robusthets- och konsistenstest som vi gjorde i S. cerevisiae visar det sig att 77 % av de unika offsets är robusta mot tröskelvariation, och en liknande procentandel är konsekvent i båda de individuella dataset som används för att skapa de sammanslagna uppgifterna (kompletterande tabell S6). Således är de unika avvägningar som vi rapporterar för mESCs robusta och konsekventa i det stora flertalet dataset. Detta resultat indikerar också att en framgångsrik identifiering av A-site-platser kräver att man endast analyserar de transkript som inte innehåller uORF:er.

Integer Programming does not yield unique offsets for E. coli

Som ett ytterligare test av hur brett vi kan tillämpa vår algoritm, tillämpade vi den på en Pooled Ribo-Seq-data från den prokaryota organismen E. coli. Antalet gener som uppfyllde våra filterkriterier redovisas i kompletterande tabell S7. MNase, det nukleas som används i E. coli Ribo-Seq-protokollet, smälter mRNA på ett fördomsfritt sätt – det gynnar smältning från 5′-änden framför 3′-änden21,22. I likhet med andra studier21,22,23 tillämpade vi därför vår algoritm så att vi identifierade A-site-platsen som förskjutningen från 3′-ändan i stället för 5′-ändan. Polycistroniska mRNA (dvs. transkript som innehåller flera CDS:er) kan orsaka problem för vår algoritm på grund av att nära intilliggande läsningar vid gränserna för sammanhängande CDS:er poängsätts för olika förskjutningar i båda CDS:erna. För att undvika felaktiga resultat begränsar vi vår analys till de 1 915 monokistroniska transkript som inte har något annat transkript inom 40 nt uppströms eller nedströms från CDS. Baserat på vår erfarenhet av analysen av mESCs-dataset filtrerar vi bort transkript med flera initieringsställen för översättning samt transkript vars annoterade initieringsställen har ifrågasatts. Nakahigashi och medarbetare24 har använt tetracyklin som en översättningshämmare för att identifiera 92 transkript i E. coli med olika initieringsställen jämfört med referensannoteringen. Vi utesluter även dessa transkript från vår analys. För detta poolade dataset med hög täckning finner vi dock tvetydiga offsets för alla (S, F)-kombinationer (kompletterande tabell S5). En meta-genanalys av normaliserad ribosomtäthet i CDS och 30 nt-regionen uppströms och nedströms avslöjar signaturer av översättning utanför CDS:s gränser (Supplementary Fig. S4), särskilt en högre än genomsnittlig anrikning av läsningar några nukleotider före startkodonet. Vi spekulerar i att basparningen av Shine-Dalgarno (SD)-sekvensen med den komplementära anti-SD-sekvensen i 16S rRNA25 skyddar dessa få nukleotider före startkodonet från ribonukleasspjälkning och därmed resulterar i en anrikning av Ribo-Seq-avläsningar. Eftersom dessa ”pseudo” ribosomskyddade fragment inte kan särskiljas från faktiska ribosomskyddade fragment som innehåller ett kodon med ribosomens A-sida på, är vår algoritm begränsad i sin tillämpning för dessa data.

Reproduktion av kända PPX- och XPP-motiv som leder till translationell fördröjning

I S. cerevisiae26 och E. coli21,27 kan vissa PPX- och XPP-polypeptidmotiv (där X motsvarar någon av de 20 aminosyrorna) fördröja ribosomerna när den tredje residen befinner sig på A-sidan. Förlängningsfaktorerna eIF5A (i S. cerevisiae) och EF-P (i E. coli) hjälper till att lindra den fördröjning som induceras av vissa motiv men inte av andra26. Även i mESCs upptäckte Ingolia och medarbetare11 PPD och PPE som starka pausmotiv. Därför undersökte vi om vårt tillvägagångssätt kan reproducera de kända fördröjningsmotiven. Vi gjorde detta genom att beräkna den normaliserade lästätheten vid de olika förekomsterna av ett PPX- och XPP-motiv.

I S. cerevisiae observerade vi stora ribosomtätheter vid PPG, PPD, PPE och PPN (fig. 5A), som alla klassificerades som starka stallers i S. cerevisiae26 och även i E. coli27. Däremot finns det i genomsnitt ingen fördröjning vid PPP, vilket stämmer överens med andra studier26. Detta beror sannolikt på eIF5A:s verkan. För XPP-motiven observerades den starkaste fördröjningen för GPP- och DPP-motiven, vilket överensstämmer med resultaten i S. cerevisiae och i E. coli (fig. 5B). I mESCs ser vi den starkaste fördröjningen vid PPE och PPD, vilket reproducerar resultaten från Ingolia och medarbetare11 (kompletterande figur S5A). För XPP-motiven observerade vi mycket svag fördröjning endast för DPP (kompletterande figur S5B). Vårt tillvägagångssätt för att kartlägga A-sidan på ribosomens fotspår gör det alltså möjligt att exakt upptäcka etablerad translationspausering vid särskilda PPX- och XPP-motiv för nascent polypeptid.

Figur 5

Vissa PPX- och XPP-motiv leder till ribosomal stalling i S. cerevisiae. Medianen av den normaliserade ribosomtätheten erhålls för alla fall av (A) PPX- och (B) XPP-motiv där X motsvarar någon av de 20 naturligt förekommande aminosyrorna. Med hjälp av ett permutationstest avgör vi om medianen av ribosomtätheten är statistiskt signifikant eller om den uppstår av en slumpmässig slump. Statistiskt signifikanta motiv är markerade med mörkrött. Denna analys utfördes på Pop-dataset för transkript där minst 50 % av kodonpositionerna har läsningar som kartlagts till dem. Felstaplarna är 95 % konfidensintervall för medianen som erhållits med hjälp av Bootstrapping.

En studie av Ribo-Seq-data från däggdjursceller28 observerade en sekvensoberoende translationspaus när transkriptets 5:e kodon befinner sig i P-sidan. Denna paus efter initiering observerades också i en in vitro-studie av polyfenylalaninsyntesen där avstängning observerades när det fjärde kodonet befann sig i P-sidan29. Med de A-site-profiler som erhållits med hjälp av våra förskjutningstabeller för S. cerevisiae och mESCs observerar vi också dessa paushändelser när både det 4:e och 5:e kodonet befinner sig på P-sidan (kompletterande fig. S6).

Genomförande av A-site-placeringens noggrannhet jämfört med andra metoder

Det finns ingen oberoende experimentell metod för att verifiera noggrannheten hos identifierade A-site-placeringar med hjälp av vår metod eller någon annan metod4,5,6,7,8,9,10,12,30,31,32,33,34,35. Vi hävdar att den väletablerade ribosompausen vid särskilda PPX-sekvensmotiv är det bästa tillgängliga sättet att differentiera de befintliga metodernas noggrannhet. Skälet till detta är att dessa motiv för avstannande har identifierats i E. coli36,37 och S. cerevisiae38 genom ortogonala experimentella metoder (inklusive enzymologiska studier och tåtryckning), och den exakta placeringen av A-sidan under en sådan avstannande process är känd för att vara vid det kodon som kodar för den tredje residen i motivet 36. Således kommer den mest exakta metoden för identifiering av A-site att vara den som mest frekvent tilldelar X större ribosomtäthet vid varje förekomst av PPX-motivet.

Vi tillämpade detta test på de starkast fördröjande PPX-motiven, dvs. PPG i S. cerevisiae och PPE i mESCs. I S. cerevisiae ger metoden med heltalsprogrammering den största ribosomtätheten vid glycinkoden i PPG-motivet när den tillämpas på både Pooled (fig. 6A) och Pop-dataset (Supplementary Fig. S7A). När vi undersöker varje förekomst av PPG i vår genuppsättning finner vi att i flertalet fall tilldelar vår metod mer ribosomtäthet till glycin än varje annan metod när den tillämpas på både Pooled (Fig. 6B, Wilcoxon signed-rank test (n = 224), P < 0.0005 för alla metoder utom Hussmann (P = 0,164)) och Pop-dataset (Supplementary Fig. S7B, Wilcoxon signed-rank test (n = 35), P < 10-5 för alla metoder utom Hussmann (P = 0,026) och Ribodeblur (P = 0,01)). Samma analyser tillämpade på mESCs vid PPE-motiv visar att vår metod överträffar de övriga nio metoderna (fig. 6C,D) med vår metod som tilldelar större ribosomtäthet vid glutaminsyra för minst 85 % av PPE-motiven i vårt dataset jämfört med alla andra metoder (fig. 6D, Wilcoxon signed-rank-test (n = 104), P < 10-15 för alla metoder). För S. cerevisiae och mESCs är vår metod för heltalsprogrammering således mer exakt än andra metoder när det gäller att identifiera A-sidan på ribosomskyddade fragment.

Figur 6

Algoritmen för heltalsprogrammering tilldelar korrekt en större ribosomtäthet än andra metoder till glycin i PPG-motiv i S. cerevisiae och till glutaminsyra i PPE-motiv i mESCs. (A) Normaliserad ribosomtäthet som erhållits med hjälp av de olika metoder som använts för att identifiera A-sidan visas för ett exempel på PPG-motiv i genen YLR375W med G vid kodonposition 303 i det poolade datasetetet för S. cerevisiae (Legenden anger metoden och fullständig information för varje metod finns i avsnittet Metoder). (B) Andelen PPG-instanser (n = 224) där metoden med heltalsprogrammering ger större ribosomtäthet vid glycin jämfört med alla andra metoder. Färgkodningen är densamma som visas i legenden i panel (A). Vår metod klarar sig bättre om den ger större ribosomtäthet i mer än hälften av fallen (horisontell linje i panel B). Heltalsprogrammeringsmetoden klarar sig bättre än alla andra metoder (P < 0,0005) utom Hussmann, som inte skiljer sig statistiskt (P = 0,164). (C) Normaliserad ribosomtäthet visas för en instans av PPE-motivet i genen uc007zma.1 med E vid kodonposition 127 i Pooled dataset of mouse ESCs (se Legend och huvudtext för detaljer om metoder). (D) Andelen PPE-instanser där metoden med heltalsprogrammering ger högre ribosomtäthet vid glutaminsyra jämfört med alla andra metoder. Färgkodningen är densamma som visas i legenden till panel (C). Integer Programming-metoden klarar sig bättre än alla andra metoder (P < 10-15) när det gäller att exakt tilldela ribosomtäthet till glutaminsyra i PPE-motiv (n = 104). För de analyser som presenteras i (B) och (D) beräknades tvåsidiga p-värden med hjälp av Wilcoxon signed rank test. Felstaplarna representerar det 95-procentiga konfidensintervallet för medianen beräknat med hjälp av Bootstrapping.

Ett stort antal molekylära faktorer påverkar kodonöversättningshastigheten och ribosomtätheten längs transkript39. En faktor är koncentrationen av cognat tRNA, eftersom kodoner som avkodas av cognat tRNA med högre koncentrationer i genomsnitt bör ha lägre ribosomtäthet15,16,40. Som ett ytterligare kvalitativt test förväntar vi oss därför att den mest exakta A-site-metoden kommer att ge den största antikorrelationen mellan ribosomtätheten vid en kodon och dess kognata tRNA-koncentration. Detta test är endast kvalitativt eftersom korrelationen mellan kodonets ribosomtäthet och koncentrationen av kognat tRNA kan påverkas av andra faktorer, inklusive kodonanvändning och återanvändning av återladdade tRNA i närheten av ribosomen41,42. Med hjälp av tRNA-abundanser som tidigare uppskattats från RNA-Seq-experiment på S. cerevisiae16 finner vi att vår helgerprogrammeringsmetod ger den största antikorrelationen jämfört med de elva andra metoderna som övervägdes (kompletterande tabell S8), vilket ytterligare stöder noggrannheten hos vår metod. Vi kunde inte utföra detta test på mESCs eftersom mätningar av tRNA-koncentrationen inte har rapporterats i litteraturen.

Lämna ett svar

Din e-postadress kommer inte publiceras.