Identifikation af A- og P-site placeringer på ribosombeskyttede mRNA-fragmenter ved hjælp af Integer Programming

Integer Programming Algorithm

I analysen af Ribo-Seq-data bliver mRNA-fragmenter i første omgang justeret på referencetranskriptomet, og deres placering rapporteres med hensyn til deres 5′-ende. Det betyder, at et fragment vil bidrage med en læsning, der rapporteres på den genomkoordinat, som fragmentets 5′-ende nukleotid er tilpasset (fig. 1A). I Ribo-Seq-data observeres fragmenter af forskellig længde, som kan skyldes ufuldstændig fordøjelse af RNA og den stokastiske karakter af mRNA-spaltning med den RNase, der anvendes i forsøget (fig. 2, supplerende fig. S1). En central udfordring ved kvantitativ analyse af Ribo-Seq-data er at identificere ud fra disse Ribo-Seq-reads, hvor A- og P-sites var placeret på tidspunktet for fordøjelsen. Det er ikke trivielt at gøre dette, da ufuldstændig fordøjelse og stokastisk spaltning kan forekomme i begge ender af fragmentet. F.eks. kan mRNAfordøjelsen, der resulterer i et fragment af størrelse 29 nt, ske på forskellige måder, hvoraf to er illustreret i fig. 1B. Den mængde, som vi har brug for at estimere nøjagtigt, er antallet af nukleotider, der adskiller kodonet i A-stedet fra fragmentets 5′-ende, som vi kalder offset og betegner Δ. Kendskab til Δ bestemmer placeringen af A-site såvel som P-site, da P-site altid vil ligge ved Δ minus 3 nt.

Figur 1

A-site placering kan defineres som en forskydning fra 5′-enden af ribosombeskyttede fragmenter. (A) En skematisk fremstilling af et translaterende ribosom (øverste tegning) og af forskydningen ∆ mellem Ribo-Seq-reads kortlagt i forhold til 5′-enden af fodaftrykkene og centreret på A-site (blå søjler). Ribosomet er vist som beskyttelse af et 28 nt-fragment med sin 5′-ende i læseramme 0, som defineret fra genets ATG-startkodon. E-, P- og A-siderne i ribosomet er angivet. Læsningerne forskydes derefter fra 5′-enden til A-siden med offset-værdien ∆. (B) Stokastisk nucleasefordøjning kan resultere i forskellige fragmenter. De to mest sandsynlige varianter af et 29 nt fodaftryk med 5′-enden i ramme 1 er vist med deres grænser kortlagt af stiplede linjer, der flugter med genomet, hvilket kan resultere i forskydninger på henholdsvis 15 nt (øverst) og 18 nt (nederst). (C) For at illustrere anvendelsen af algoritmen for helikopterprogrammering antages et hypotetisk transkript, der er 60 nt langt. Det første panel viser ribosomprofilen, der stammer fra læsninger, der er tildelt 5′-enden af fragmenter af størrelse 33 i ramme 0. Start- og stopkodonet er angivet, mens resten af CDS-regionen er farvet lyst ferskenfarvet. Algoritmen forskyder denne ribosomprofil med 3 nt og beregner den objektive funktion \(\,T({\rm{\Delta }}|i,S,F)\). Omfanget af forskydningen er forskydningen Δ. Værdierne af \(\,T({\rm{\Delta }}|i,S,F)\) for Δ = 12, 15, 18 og 21 nts er angivet. I dette eksempel er det gennemsnitlige antal læsninger pr. codon 7,85. Forskellen mellem de to øverste forskydninger, 18 (T = 222) og 15 (T = 215), er mindre end gennemsnittet. Derfor kontrollerer vi det sekundære kriterium (Resultater). Offset 18 opfylder kriterierne om, at antallet af læsninger i startkodonet er mindre end en femtedel af gennemsnittet af læsninger i andet, tredje og fjerde kodon, og at antallet af læsninger i andet kodon er større end læsninger i tredje kodon. Derfor er Δ = 18 nt den optimale forskydning for dette transkript.

Figur 2

mRNA-fragmentstørrelsesfordeling for S. cerevisiae Ribo-Seq-datasæt fra Pop og medarbejdere (A) og det sammenlagte datasæt (B).

Vores løsning på dette problem bygger på den biologiske kendsgerning, at for kanoniske transkripter uden opstrøms translation skal A-stedet for aktivt translaterende ribosomer være placeret mellem det andet codon og stopcodonet i CDS17. Derfor er den optimale offset-værdi Δ for fragmenter af en bestemt størrelse (S) og læseramme (F) den værdi, der maksimerer det samlede antal læsninger \(\,T({\rm{\Delta }}|i,S,F)\) mellem disse kodoner for hvert gen i, som fragmenterne er kortlagt på. Størrelsen af et mRNA-fragment S måles i nukleotider, og rammen F har værdierne 0, 1 eller 2 som defineret af genets startkodon ATG og svarer til den ramme, hvori fragmentets 5′-ende-nukleotid er placeret (fig. 1A). F-rammen i 5′-enden er et resultat af RNasefordøjelsen, og den adskiller sig fra ribosomets læseramme, som typisk oversætter inden for rammen (A-site’s ramme 0). Med andre ord forskyder vi for hver kombination af (S, F) den 5′-justerede læseprofil med 3 nukleotider ad gangen (for at bevare læserammen F), indtil vi identificerer den værdi ∆, der maksimerer læsningerne mellem andet og stopkodon (fig. 1C, se næste underafsnit). Denne procedure udføres systematisk for hver fragmentstørrelse S og læseramme F for sig, da de hver især kan have (og vi finder, at nogle af dem har) en anden optimal ∆-værdi.

Mens vi identificerer Δ′-værdien for hvert gen i vores datasæt, minimerer vi også forekomsten af falske positive resultater ved at sikre, at den højeste score, \(\,T({\rm{\Delta }}^{\prime} |i,S,F)\), er signifikant højere end den næsthøjeste score, \(T({\rm{\Delta }}^{\prime\prime} |i,S,F)\), som forekommer ved en anden forskydning Δ″. Hvis forskellen mellem de to højeste scorer er mindre end det gennemsnitlige antal læsninger pr. codon, anvender vi følgende yderligere udvælgelseskriterier. For at vælge mellem Δ′ og Δ″ vælger vi den, der giver et antal læsninger ved startkodonet, som er mindst en femtedel mindre end det gennemsnitlige antal læsninger ved det andet, tredje og fjerde kodon. Vi kræver endvidere, at det andet codon har et større antal læsninger end det tredje codon. Det biologiske grundlag for disse yderligere kriterier er, at den sande forskydning (dvs. den faktiske placering af A-stedet) ikke kan placeres ved startkodonen, og at antallet af læsninger ved den anden kodon i gennemsnit bør være højere end ved den tredje kodon på grund af bidrag fra initieringstrinnet af translation, hvor ribosomet samles på mRNA’et med startkodonet i P-stedet. Nedenfor demonstrerer vi, at resultaterne fra vores metode er robuste over for ændringer i disse tærskler.

Illustration af optimeringsproceduren med heltals programmering

Fragmentstørrelses- og rammefordelingerne af ribosombeskyttede fragmenter (Fig. 2) i S. cerevisiae er ikke genafhængige (Supplerende Fig. S2), og derfor bør offset-værdierne Δ heller ikke være genafhængige. Således svarer placeringen af A-stedet i forhold til 5′-enden af et fragment af størrelse S og ramme F til den mest sandsynlige værdi af forskydningen på tværs af alle generne i datasættet.

A-stedets placering i S. cerevisiae Ribo-Seq-data er fragmentstørrelse og rammeafhængige

Vi anvendte først Integer Programming-metoden på Ribo-Seq-data fra S. cerevisiae offentliggjort af Pop og medarbejdere19. For hver kombination af S og F identificerede vi først de gener, der har mindst 1 læsning pr. codon i gennemsnit i deres tilsvarende ribosomprofil. Antallet af gener, der opfylder dette kriterium, er angivet i den supplerende tabel S1. Vi anvendte derefter Integer Programming-metoden på denne delmængde af gener. De resulterende fordelinger af Δ-værdier er vist i Fig. 3A for forskellige kombinationer af fragmentlængde og ramme. Vi viser kun resultater for fragmentstørrelser mellem 27 og 33 nt, fordi mere end 90 % af læsningerne kortlægges i dette område (Fig. 2A). Den mest sandsynlige offsetværdi for alle fragmentstørrelser mellem 20 og 35 nt er rapporteret som en offsettabel (Supplerende tabel S2).

Figur 3

Distribution af offsetværdier fra algoritmen Integer Programming anvendt på transkripter fra S. cerevisiae. De plottede data i (A) er fra Pop-datasættet, og (B) fra det sammenlagte datasæt. Fordelingerne er plottet som en funktion af offset-værdien og for fragmentstørrelser på 27 til 33 nt vises fra venstre til højre for ramme 0, 1 og 2. For en given fragmentstørrelse og ramme er A-stedets placering på den mest sandsynlige Δ-værdi i fordelingen, forudsat at forskydningen forekommer for mere end 70 % af generne (stiplede linjer i panelerne). Fejlbjælkerne repræsenterer 95 % konfidensintervaller beregnet ved hjælp af Bootstrapping. Prøvestørrelser er rapporteret i Supplerende tabel S1.

Vi ser, at den optimale Δ-værdi – dvs. A-site-placeringen – ændrer sig for forskellige kombinationer af S og F, med de mest sandsynlige værdier enten ved 15 eller 18 nt. A-stedets placering afhænger således af S og F. I de fleste tilfælde er der én dominerende top for et givet par af S- og F-værdier. For fragmenter af størrelsen 27 til 30 nt i ramme 0 ligger f.eks. mere end 70 % af deres per-genoptimerede Δ-værdier 15 nt fra 5′-enden af disse fragmenter. Lignende resultater findes for andre kombinationer som f.eks. størrelserne 30, 31 og 32 nt i ramme 1 og 28 til 32 nt i ramme 2, hvor de optimerede Δ-værdier er 18 nt. På tværs af transkriptomet er A-site kodonpositionen på disse fragmenter således entydigt identificeret.

Der er imidlertid S- og F-kombinationer, der har tvetydige A-siteplaceringer baseret på disse fordelinger. For fragmenter af en størrelse på 27 nt i ramme 1 ligger 47 % af de genoptimerede Δ-værdier f.eks. på 15 nt, mens 30 % ligger på 18 nt. Lignende resultater observeres for fragmenter 28 og 29 nt i ramme 1 og 31 og 32 nt i ramme 0. For disse S- og F-kombinationer er der således en lignende sandsynlighed for, at A-stedet er placeret ved det ene eller det andet codon, og derfor ser det ud til, at vi ikke entydigt kan identificere A-stedets placering.

Højere dækning fører til flere unikke forskydninger

Vi antog, at tvetydigheden i identifikationen af A-stedet for bestemte S- og F-kombinationer kan skyldes en lav dækning (dvs, dårlig prøvetagningsstatistik). For at teste denne hypotese samlede vi læsningerne fra forskellige offentliggjorte Ribo-Seq-datasæt til et enkelt datasæt med følgelig højere dækning og flere gener, der opfylder vores udvælgelseskriterier (Supplerende tabel S1). Anvendelse af vores metode på dette poolede datasæt giver unikke forskydninger for flere S- og F-kombinationer sammenlignet med det oprindelige Pop-datasæt (Fig. 3B og Supplerende tabel S2), hvilket er i overensstemmelse med vores hypotese. For eksempel har vi for fragmenter af størrelse 27 og ramme 1 nu den unikke forskydning på 15 nt med 72 % af de genoptimerede Δ-værdier ved 15 nt (Fig. 3B). Vi ser dog stadig den tvetydighed, der er til stede for visse (S, F)-kombinationer.

Vi anvendte en yderligere strategi for at øge dækningen ved at begrænse vores analyse til gener med større gennemsnitlige læsninger pr. codon. Hvis hypotesen er korrekt, bør vi se en statistisk signifikant tendens til en stigning i den mest sandsynlige Δ-værdi med stigende læsedybde. Vi anvendte denne analyse på det sammenlagte datasæt og finder, at nogle oprindeligt tvetydige S- og F-kombinationer bliver entydige, efterhånden som dækningen øges. For eksempel er (S, F)-kombinationer af (25, 0), (27, 2) og (30, 1) ved et gennemsnit på 1 læsning pr. codon tvetydige, da de falder under vores tærskelværdi på 70 %. Vi ser imidlertid en statistisk signifikant tendens (hældning = 0,5, p = 3,94 × 10-6) for fragmenter af (25, 0), at 15 nt forskydning bliver mere sandsynlig, når dækningen øges, og til sidst krydser tærsklen på 70 % (fig. 4A). På samme måde er der for (27, 2) (hældning = 0,58, p = 5,77 × 10-5) og (30, 1) (hældning = 0,25, p = 0,009) en tendens til en forskydning på 18 nt, hvor mere end 70 % af generne har denne forskydning ved den højeste dækning (fig. 4B,C). For disse fragmenter identificerer en stigende dækning således entydigt Δ′ og dermed A-site-placeringen. For nogle få kombinationer af (S, F), som f.eks. (32, 0), opløses tvetydigheden ikke selv ved meget høj dækning (Fig. 4D), hvilket vi spekulerer i, kan skyldes iboende træk ved nukleasefordøjelsen, der er lige sandsynlige for mere end én forskydning.

Figur 4

Stigning i dækningen identificerer A-site-placeringer for S- og F-kombinationer, der oprindeligt var tvetydige. Plottet er procentdelen af transkripter med en bestemt Δ-værdi for forskellige S- og F-kombinationer fra det sammenlagte datasæt af S. cerevisiae. I hvert panel er der plottet flere fordelinger svarende til transkriptioner med stigende dækning, hvilket er angivet i legenden nederst. F.eks. stammer de blå og røde fordelinger fra transkripter med henholdsvis mindst 1 eller 2 læsninger pr. codon i gennemsnit. Vi observerer, at A-stedets placering tenderer mod 15 nt for S = 25, F = 0 (A) og mod 18 nt for S = 27, F = 2 (B), og S = 30, F = 1 (C). For S = 32, F = 0 (D) er der ingen tendens, selv ved højere dækning. Bemærk, at for S = 27, F = 2 (panel B) er der mindre end 10 gener med et gennemsnit på mere end 50 læsninger pr. codon, og derfor medtager vi ikke datapunktet ud over et gennemsnit på mere end 45 læsninger pr. codon (se metoderne). Fejlbjælker repræsenterer 95 % konfidensintervaller beregnet ved hjælp af Bootstrapping.

Så giver en tilstrækkelig høj dækning den optimale offset-tabel, der er vist i tabel 1, hvor offset er den mest sandsynlige placering af A-stedet i forhold til 5′-enden af de mRNA-fragmenter, der er genereret i S. cerevisiae.

Tabel 1 A-site-placeringer (nucleotidforskydninger fra 5′-enden) bestemt ved anvendelse af algoritmen Integer Programming på det sammenlagte datasæt i S. cerevisiae er vist som en funktion af fragmentstørrelse og ramme.

Konsistens på tværs af forskellige datasæt

Ribo-Seq-data er følsomme over for eksperimentelle protokoller, der kan indføre bias i fordøjelsen og ligeringen af ribosombeskyttede fragmenter. Sammenlægning af datasæt giver fordelen af højere dækning, men det kan maskere de bias, der er specifikke for et individuelt datasæt. For at afgøre, om vores unikke forskydninger (tabel 1) er i overensstemmelse med resultaterne fra de enkelte datasæt, anvendte vi algoritmen Integer Programming på hvert enkelt datasæt. De fleste af disse datasæt har lav dækning, hvilket resulterer i færre gener, der opfylder vores filtreringskriterier (Supplerende fil S1). For hver unik forskydning i tabel 1 klassificerer vi den som værende i overensstemmelse med et individuelt datasæt, forudsat at den mest sandsynlige forskydning fra det individuelle datasæt (selv om den ikke når op på 70 %-tærsklen på grund af begrænsninger i dækningsdybden) er den samme som i tabel 1. Vi finder, at langt størstedelen af de unikke offsets (22 ud af 24) i tabel 1 er konsistente på tværs af 75 % eller mere af de enkelte datasæt (statistikker rapporteret i Supplerende tabel S3). Kun to kombinationer (S, F) viser hyppige uoverensstemmelser. (S, F)-kombinationerne (27, 1) og (27, 2) er inkonsistente i 33 % eller flere af de enkelte datasæt (Supplerende tabel S3). Dette tyder på, at forskere, der ønsker at minimere falsk positive resultater, bør kassere disse (S, F)-kombinationer, når de opretter A-site ribosomprofiler.

Robusthed af offset-tabellen over for tærskelvariation

Integer Programming-algoritmen anvender to tærskler til at identificere unikke offsets. Den ene er, at 70 % af generne udviser den mest sandsynlige forskydning, den anden, der er designet til at minimere falsk positive resultater, der opstår på grund af prøvetagningsstøj i Ribo-Seq-dataene, er, at læsningerne i det første codon skal være mindre end en femtedel af de gennemsnitlige læsninger i det andet, tredje og fjerde codon. Selv om der er gode grunde til at indføre disse tærskelkriterier, er de nøjagtige værdier af disse tærskler arbitrære. Derfor testede vi, om variationen af disse tærskelværdier ændrer de resultater, der er angivet i tabel 1. Vi varierede den første tærskelværdi til 60 % og 80 % og genberegnede offset-tabellen. Vi rapporterer, om den unikke forskydning ændrede sig ved at anføre et “R” eller “S” (for henholdsvis robust og følsom) ved siden af den rapporterede forskydning i Supplerende tabel S3. Vi finder, at to tredjedele af de unikke (S, F)-kombinationer ikke ændres (Supplerende tabel S3). (S, F)-kombinationer (25, 0), (25, 2), (27, 0), (27, 1), (28, 1), (31, 0), (33, 0) og (33, 2) bliver tvetydige, når vi hævede tærsklen til 80 %.

Vi varierede den anden, førnævnte tærskel fra en femtedel op til en og ned til en tiendedel, og vi finder, at alle unikke (S, F)-kombinationer undtagen (25, 2), (33, 0), (33, 2) og (34, 1) forbliver uændret (angivet som “R” i supplerende tabel S3). Sammenfattende afhænger de unikke forskydninger, der er rapporteret i tabel 1, således i langt de fleste tilfælde meget lidt af specifikke værdier af disse tærskelværdier.

Testning af algoritmen til talprogrammering mod kunstige Ribo-Seq-data

For at teste korrektheden og robustheden af vores tilgang genererede vi et datasæt af simulerede ribosombesættelser på tværs af 4,487 S. cerevisiae-transskriptioner og spurgte, om vores metode kunne bestemme A-site-placeringerne nøjagtigt. Kunstige Ribo-Seq-reads blev genereret fra disse besættelser under antagelse af en Poissonian-fordeling i deres (S, F) værdier ved hjælp af tilfældige fodaftrykslængder svarende til den, der findes i eksperimenter (se metoder og supplerende figur S3A, B). Vi undersøgte vores metodes evne til korrekt at bestemme de sande A-site-placeringer for fire forskellige sæt foruddefinerede offset-værdier (se Metoder). Integer Programming-algoritmen blev derefter anvendt på de resulterende kunstige Ribo-Seq-data. Vi finder, at den offsettabel, der genereres af algoritmen, reproducerer de anvendte input-offsets (Supplerende figur S3C og Supplerende tabel S4). Denne procedure blev gentaget for forskellige læselængdefordelinger samt med forskellige input-offsets, og vi finder, at de offsettabeller, der genereres af vores algoritme, reproducerer input-offsettabellerne i mere end 93 % af alle (S, F)-kombinationer (Supplerende figur S3B,C og Supplerende fil S2). Metoden identificerer et lille antal tvetydige offsets på grund af den lave læsedækning ved halerne af fordelingerne. Et resultat, der yderligere understreger betydningen af læsedækning som en kritisk faktor for nøjagtig identifikation af A-site.

A-site offsets i musens embryonale stamceller

Den biologiske kendsgerning, at A-site af et ribosom kun befinder sig mellem det andet og stopkodonet, er ikke begrænset til S. cerevisiae, og derfor bør algoritmen med Integer Programming kunne anvendes på Ribo-Seq-data fra enhver organisme. Derfor anvendte vi vores metode på et poolet Ribo-Seq-datasæt af embryonale stamceller fra mus (mESC’er). Den resulterende A-site offset-tabel udviste tvetydige offsets ved alle undtagen tre (S, F) kombinationer (Supplerende tabel S5). I mESC’er er der udbredt translationsforlængelse, der sker ud over grænserne for annoterede CDS-regioner i opstrøms åbne læserammer (uORF’er)20. Berigelse af ribosombeskyttede fragmenter fra disse translaterende uORF’er kan gøre det vanskeligt for vores algoritme at finde unikke offsets, fordi de kan bidrage med læsninger omkring startkodonet for kanoniske annoterede CDS’er. Derfor antog vi, at hvis vi anvender vores algoritme på kun de transskriptioner uden uORF’er og med et enkelt initieringssted, så burde vores algoritme identificere flere unikke offsets. Ingolia og medarbejdere11 har eksperimentelt identificeret antallet af initieringssteder for veltranslaterede mESC-transskriptioner, og om der er uORF’er til stede. Derfor valgte vi de gener, der kun har ét oversættelsesinitieringssted nær det annoterede startkodon, og begrænsede yderligere vores analyse til transkriptioner med en enkelt isoform, da flere isoformer kan have forskellige termineringssteder.

Anvendelse af algoritmen Integer Programming på dette sæt gener øger antallet af unikke offsets fra 3 til 13 (S, F) kombinationer (Supplerende tabel S6). Anvendelse af de samme robustheds- og konsistenstests som vi gjorde i S. cerevisiae afslører, at 77% af de unikke forskydninger er robuste over for tærskelvariationer, og en lignende procentdel er konsistent på tværs af begge individuelle datasæt, der anvendes til at skabe de sammenlagte data (Supplerende tabel S6). Således er de unikke forskydninger, som vi rapporterer for mESC’er, robuste og konsistente i langt de fleste datasæt. Dette resultat indikerer også, at en vellykket identifikation af A-site placeringer kræver, at man kun analyserer de transskriptioner, der ikke indeholder uORF’er.

Integer Programmering giver ikke unikke forskydninger for E. coli

Som en yderligere test af, hvor bredt vi kan anvende vores algoritme, anvendte vi den på en Pooled Ribo-Seq data fra den prokaryote organisme E. coli. Antallet af gener, der opfylder vores filtreringskriterier, er angivet i Supplerende tabel S7. MNase, den nuklease, der anvendes i E. coli Ribo-Seq-protokollen, fordøjer mRNA på en forudindtaget måde – den favoriserer fordøjelsen fra 5′-enden frem for 3′-enden21,22 . Derfor anvendte vi, som i andre undersøgelser21,22,23 , vores algoritme således, at vi identificerede A-site-placeringen som forskydningen fra 3′-enden i stedet for 5′-enden. Polycistroniske mRNA’er (dvs. transkriptioner, der indeholder flere CDS’er) kan skabe problemer for vores algoritme, fordi tætliggende læsninger ved grænserne af sammenhængende CDS’er scorer for forskellige offsets i begge CDS’er. For at undgå upræcise resultater begrænser vi vores analyse til de 1.915 monokistroniske transskriptioner, der ikke har andre transskriptioner inden for 40 nt opstrøms eller nedstrøms fra CDS’et. På baggrund af vores erfaring med analysen af mESC-datasættet filtrerer vi transkriptioner med flere oversættelsesinitieringssteder samt transkriptioner, hvis annoterede initieringssteder er blevet anfægtet, fra. Nakahigashi og medarbejdere24 har brugt tetracyclin som en translationshæmmer til at identificere 92 transkriptioner i E. coli med forskellige initieringssteder i forhold til referenceannotationen. Vi udelukker også disse transkripter fra vores analyse. For dette puljede datasæt med høj dækning finder vi imidlertid tvetydige offsets for alle (S, F)-kombinationer (Supplerende tabel S5). En meta-genanalyse af normaliseret ribosomtæthed i CDS og 30 nt-regionen opstrøms og nedstrøms afslører signaturer af oversættelse uden for CDS’ets grænser (Supplerende fig. S4), især en højere end gennemsnitlig berigelse af læsninger et par nukleotider før startkodonet. Vi spekulerer i, at baseparringen af Shine-Dalgarno (SD)-sekvensen med den komplementære anti-SD-sekvens i 16S rRNA25 beskytter disse få nukleotider før startkodonet mod ribonukleasefordøjelsen og dermed resulterer i en berigelse af Ribo-Seq-reads. Da disse “pseudo” ribosombeskyttede fragmenter ikke kan adskilles fra egentlige ribosombeskyttede fragmenter, der indeholder et kodon med ribosomets A-site på, er vores algoritme begrænset i sin anvendelse til disse data.

Reproduktion af kendte PPX- og XPP-motiver, der fører til translationel opbremsning

I S. cerevisiae26 og E. coli21,27 kan visse PPX- og XPP-polypeptidmotiver (hvor X svarer til en hvilken som helst af de 20 aminosyrer) trække ribosomer i stå, når den tredje rest befinder sig i A-siden. Elongationsfaktorerne eIF5A (i S. cerevisiae) og EF-P (i E. coli) hjælper med at afhjælpe den blokering, der induceres af visse motiver, men ikke af andre26. Selv i mESC’er påviste Ingolia og medarbejdere11 PPD og PPE som stærke pausemotiver. Derfor undersøgte vi, om vores fremgangsmåde kan reproducere de kendte bremsende motiver. Det gjorde vi ved at beregne den normaliserede læsetæthed ved de forskellige forekomster af et PPX- og XPP-motiv.

I S. cerevisiae observerede vi store ribosomtætheder ved PPG, PPD, PPE og PPN (Fig. 5A), som alle blev klassificeret som stærke stallers i S. cerevisiae26 og også i E. coli27. I modsætning hertil er der i gennemsnit ingen stalling ved PPP, hvilket er i overensstemmelse med andre undersøgelser26. Dette skyldes højst sandsynligt eIF5A’s virkning. For XPP-motiverne blev den stærkeste stalling observeret for GPP- og DPP-motiverne, hvilket er i overensstemmelse med resultaterne i S. cerevisiae og i E. coli (fig. 5B). I mESC’er ser vi den stærkeste blokering ved PPE og PPD, hvilket reproducerer resultaterne fra Ingolia og medarbejdere11 (Supplerende fig. S5A). For XPP-motiverne observerede vi kun en meget svag forhaling for DPP (Supplerende fig. S5B). Således muliggør vores tilgang til kortlægning af A-stedet på ribosomfodspor nøjagtig påvisning af etableret translationspause ved bestemte PPX- og XPP-næsende polypeptidmotiver.

Figur 5

Flere PPX- og XPP-motiver fører til ribosomal stalling i S. cerevisiae. Medianen af den normaliserede ribosomtæthed er opnået for alle forekomster af (A) PPX- og (B) XPP-motiver, hvor X svarer til en af de 20 naturligt forekommende aminosyrer. Ved hjælp af en permutationstest bestemmes det, om medianen af ribosomtætheden er statistisk signifikant eller opstår tilfældigt. Statistisk signifikante motiver er fremhævet med mørkerødt. Denne analyse blev udført på Pop-datasættet for transskriptioner, hvor mindst 50 % af kodonpositionerne har læsninger, der er kortlagt til dem. Fejlbjælkerne er 95 % konfidensintervaller for medianen opnået ved hjælp af Bootstrapping.

En undersøgelse af Ribo-Seq-data fra pattedyrceller28 observerede en sekvensuafhængig translationspause, når transkriptets 5. codon er i P-stedet. Denne pausering efter initiering blev også observeret i en in vitro-undersøgelse af polyfenylalaninsyntese, hvor der blev observeret en stilstand, når det 4. kodon var i P-stedet29. Med de A-site-profiler, der er opnået ved hjælp af vores offset-tabeller for S. cerevisiae og mESC’er, observerer vi også disse pausebegivenheder, når både det 4. og 5. codon er på P-siden (Supplerende fig. S6).

Større nøjagtighed af A-site placering end andre metoder

Der findes ingen uafhængig eksperimentel metode til at verificere nøjagtigheden af identificerede A-site placeringer ved hjælp af vores metode eller nogen anden metode4,5,6,7,8,9,10,12,30,31,32,33,34,35. Vi hævder, at den veletablerede ribosompause ved bestemte PPX-sekvensmotiver er det bedste tilgængelige middel til at differentiere nøjagtigheden af de eksisterende metoder. Årsagen hertil er, at disse opbremsningsmotiver er blevet identificeret i E. coli36,37 og S. cerevisiae38 ved hjælp af ortogonale eksperimentelle metoder (herunder enzymologiske undersøgelser og toe printing), og den nøjagtige placering af A-stedet under en sådan opbremsning er kendt for at være ved det codon, der koder for den tredje rest i motivet 36. Således vil den mest nøjagtige A-site-identifikationsmetode være den metode, der hyppigst tildeler større ribosomtæthed til X ved hver forekomst af PPX-motivet.

Vi anvendte denne test på de stærkest bremsende PPX-motiver, dvs. PPG i S. cerevisiae og PPE i mESC’er. I S. cerevisiae giver Integer Programming-metoden den største ribosomtæthed ved glycin-kodonen i PPG-motivet, når den anvendes på både de sammenlagte (Fig. 6A) og Pop-datasæt (Supplerende fig. S7A). Ved at undersøge hver forekomst af PPG i vores gen-datasæt finder vi, at vores metode i et flertal af tilfælde tildeler mere ribosomtæthed til glycin end alle andre metoder, når den anvendes på både Pooled (Fig. 6B, Wilcoxon signed-rank test (n = 224), P < 0.0005 for alle metoder undtagen Hussmann (P = 0,164)) og Pop-datasæt (Supplerende fig. S7B, Wilcoxon signed-rank test (n = 35), P < 10-5 for alle metoder undtagen Hussmann (P = 0,026) og Ribodeblur (P = 0,01)). De samme analyser anvendt på mESC’er ved PPE-motiver viser, at vores metode klarer sig bedre end de ni andre metoder (fig. 6C,D), idet vores metode tildeler større ribosomtæthed ved glutaminsyre for mindst 85 % af PPE-motiverne i vores datasæt sammenlignet med alle andre metoder (fig. 6D, Wilcoxon signed-rank test (n = 104), P < 10-15 for alle metoder). For S. cerevisiae og mESC’er er vores tilgang til Integer Programming således mere præcis end andre metoder til identifikation af A-stedet på ribosombeskyttede fragmenter.

Figur 6

Integer Programming-algoritmen tildeler korrekt en større ribosomtæthed end andre metoder til Glycin i PPG-motiver i S. cerevisiae og til Glutaminsyre i PPE-motiver i mESC’er. (A) Normaliseret ribosomtæthed opnået ved hjælp af de forskellige metoder, der anvendes til at identificere A-stedet, er vist for et eksempel på PPG-motiv i genet YLR375W med G på codonposition 303 i det sammenlagte datasæt af S. cerevisiae (Legenden angiver metoden, og alle detaljer for hver metode kan findes i afsnittet Metoder). (B) Fraktionen af PPG-instanser (n = 224), hvor Integer Programming-metoden giver større ribosomtæthed ved glycin sammenlignet med alle andre metoder. Farvekodningen er den samme som vist i legenden i panel (A). Vores metode klarer sig bedre, hvis den tildeler større ribosomtæthed i mere end halvdelen af tilfældene (vandret linje i panel B). Integer Programming-metoden klarer sig bedre end alle andre metoder (P < 0,0005) undtagen Hussmann, som ikke er statistisk forskellig (P = 0,164). (C) Normaliseret ribosomtæthed er vist for en forekomst af PPE-motivet i genet uc007zma.1 med E på codonposition 127 i det sammenlagte datasæt af mus ESC’er (se Legend og hovedtekst for detaljer om metoder). (D) Fraktionen af PPE-instanser, hvor Integer Programming-metoden giver større ribosomtæthed ved glutaminsyre sammenlignet med alle andre metoder. Farvekodningen er den samme som vist i legenden til panel (C). Integer Programming-metoden klarer sig bedre end alle andre metoder (P < 10-15) med hensyn til nøjagtig tildeling af ribosomtæthed til glutaminsyre i PPE-motiver (n = 104). For analyserne præsenteret i (B) og (D) blev tosidede p-værdier beregnet ved hjælp af Wilcoxon signed rank test. Fejlbjælker repræsenterer 95 % konfidensinterval omkring medianen beregnet ved hjælp af Bootstrapping.

En lang række molekylære faktorer påvirker kodon-oversættelseshastigheden og ribosomtætheden langs transkriptet39. En faktor er cognate tRNA-koncentrationen, da kodoner, der er afkodet af cognate tRNA med højere koncentrationer, i gennemsnit bør have lavere ribosomtætheder15,16,40. Som en yderligere kvalitativ test forventer vi derfor, at den mest nøjagtige A-site-metode vil give den største antikorrelation mellem ribosomtætheden ved et kodon og dets cognate tRNA-koncentration. Denne test er kun kvalitativ, da korrelationen mellem codon-ribosom-tæthed og cognat tRNA-koncentration kan påvirkes af andre faktorer, herunder codon-anvendelse og genbrug af genopladede tRNA’er i nærheden af ribosomet41,42. Ved hjælp af tRNA-abundanser, der tidligere er estimeret fra RNA-Seq-eksperimenter på S. cerevisiae16, finder vi, at vores Integer Programming-metode giver den største antikorrelation sammenlignet med de elleve andre metoder, der blev overvejet (Supplerende tabel S8), hvilket yderligere understøtter nøjagtigheden af vores metode. Vi var ikke i stand til at udføre denne test i mESC’er, da målinger af tRNA-koncentrationen ikke er blevet rapporteret i litteraturen.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.