A- ja P-kohtien sijaintien tunnistaminen ribosomilla suojatuissa mRNA-fragmenteissa käyttäen kokonaislukuohjelmointia | Scientific Reports

Integer Programming Algorithm

Ribo-Seq-datan analysoinnissa mRNA-fragmentit kohdistetaan aluksi referenssitranskriptomiin, ja niiden sijainti ilmoitetaan 5′-päähän nähden. Tämä tarkoittaa, että yksi fragmentti tuottaa yhden lukeman, joka raportoidaan sen genomikoordinaatin perusteella, johon fragmentin 5′-pään nukleotidi on kohdistettu (kuva 1A). Ribo-Seq-datassa havaitaan eripituisia fragmentteja, jotka voivat johtua RNA:n epätäydellisestä pilkkomisesta ja kokeessa käytetyn RNaasin suorittaman mRNA:n pilkkomisen stokastisesta luonteesta (kuva 2, täydentävä kuva S1). Keskeinen haaste Ribo-Seq-datan kvantitatiivisessa analysoinnissa on tunnistaa näistä Ribo-Seq-lukemista, missä A- ja P-paikat sijaitsivat sulatushetkellä. Tämä ei ole triviaalia, koska epätäydellinen sulatus ja stokastinen pilkkoutuminen voivat tapahtua fragmentin molemmissa päissä. Esimerkiksi mRNA:n pilkkominen, jonka tuloksena on 29 nt:n kokoinen fragmentti, voi tapahtua eri tavoin, joista kaksi on esitetty kuvassa 1B. Suure, joka meidän on arvioitava tarkasti, on niiden nukleotidien lukumäärä, jotka erottavat A-kohdassa olevan koodonin fragmentin 5′-päästä, jota kutsumme siirtymäksi ja merkitsemme Δ:llä. Δ:n tunteminen määrittää sekä A-kohdan että P-kohdan sijainnin, sillä P-kohta on aina Δ miinus 3 nt:n kohdalla.

Ratkaisumme tähän ongelmaan perustuu siihen biologiseen tosiasiaan, että kanonisissa transkripteissa, joissa ei ole ylävirtaan tapahtuvaa translaatiota, aktiivisesti translatoivien ribosomien A-kohdan on sijaittava CDS17:n toisen koodonin ja stop-koodonin välissä. Näin ollen optimaalinen offset-arvo Δ tietyn kokoisille (S) ja tietyn lukukehyksen (F) fragmenteille on se, joka maksimoi näiden koodonien välisten lukemien kokonaismäärän \(\,T({\rm{\Delta }}|i,S,F)\) jokaiselle geenille i, johon fragmentit kohdistuvat. MRNA-fragmentin S koko mitataan nukleotideina, ja kehyksen F arvot ovat 0, 1 tai 2 geenin aloituskodonin ATG mukaan, ja se vastaa kehystä, jossa fragmentin 5′-loppunukleotidi sijaitsee (kuva 1A). 5′-pään kehys F on RNaasin pilkkomisen tulos, ja se eroaa ribosomin lukukehyksestä, joka tyypillisesti kääntyy kehyksen sisällä (A-kohdan kehys 0). Toisin sanoen siirretään kunkin (S, F)-yhdistelmän osalta 5′-viivattua lukuprofiilia 3 nukleotidia kerrallaan (lukukehyksen F säilyttämiseksi), kunnes tunnistetaan arvo ∆, joka maksimoi lukemat toisen ja stop-kodonin välillä (kuva 1C, ks. seuraava alajakso). Tämä menettely suoritetaan järjestelmällisesti kullekin fragmenttikoolle S ja lukukehykselle F erikseen, koska kummallakin voi olla (ja havaitsemme, että joillakin on) erilainen optimaalinen ∆.

Tunnistaessamme Δ′-arvon kullekin geenille aineistossamme minimoimme myös väärien positiivisten tulosten esiintymisen varmistamalla, että korkein pistemäärä, \(\,T({\rm{\Delta }}^{\prime} |i,S,F)\), on huomattavasti korkeampi kuin seuraavaksi korkein pistemäärä, \(T({\rm{\Delta }}^{\prime\prime} |i,S,F)\), joka esiintyy eri siirtymässä Δ″. Jos kahden parhaan pistemäärän ero on pienempi kuin lukujen keskimääräinen lukumäärä koodonia kohti, sovelletaan seuraavia lisävalintaperusteita. Valitaksemme Δ′:n ja Δ″:n välillä, valitsemme sen, joka tuottaa aloituskodonin kohdalla lukemien määrän, joka on vähintään viidenneksen pienempi kuin lukemien keskimääräinen määrä toisen, kolmannen ja neljännen kodonin kohdalla. Lisäksi edellytämme, että toisessa kodonissa on enemmän lukemia kuin kolmannessa kodonissa. Näiden lisäkriteerien biologinen perusta on se, että todellista offsetia (eli A-kohdan todellista sijaintia) ei voida paikantaa aloituskodonissa ja että lukemien lukumäärän toisen koodonin kohdalla pitäisi olla keskimäärin suurempi kuin kolmannen koodonin kohdalla johtuen translaation aloitusvaiheen vaikutuksesta, jolloin ribosomi kokoaa mRNA:ta, jonka aloituskodoni on P-kohdassa. Jäljempänä osoitamme, että menetelmämme tulokset ovat kestäviä näiden kynnysarvojen muutoksille.

Kokonaisohjelmoinnin optimointimenettelyn havainnollistaminen

S. cerevisiae -bakteerissa esiintyvien ribosomilla suojattujen fragmenttien (kuva 2) fragmenttikoko- ja kehysjakaumat eivät ole riippuvaisia geeneistä (lisäyskuva S2), joten myöskään offset-arvojen Δ ei pitäisi olla riippuvaisia geeneistä. Näin ollen A-kohdan sijainti suhteessa S-kokoisen ja F-kehyksen F kokoisen fragmentin 5′-päähän vastaa offsetin todennäköisintä arvoa kaikissa aineiston geeneissä.

A-kohtien sijainnit S. cerevisiae Ribo-Seq -datassa ovat fragmentin koko- ja kehysriippuvaisia

Sovelsimme aluksi kokonaislukuohjelmointimenetelmää Popin ja työtovereiden19 julkaisemiin S. cerevisiae:stä kerättyihin Ribo-Seq-tietoihin. Kunkin S- ja F-yhdistelmän osalta tunnistimme ensin ne geenit, joiden vastaavassa ribosomiprofiilissa on keskimäärin vähintään yksi lukema koodonia kohti. Tämän kriteerin täyttävien geenien lukumäärä ilmoitetaan lisätaulukossa S1. Tämän jälkeen sovellettiin Integer Programming -menetelmää tähän geenien osajoukkoon. Tuloksena saadut Δ-arvojen jakaumat on esitetty kuvassa 3A fragmentin pituuden ja kehyksen eri yhdistelmille. Näytämme tulokset vain 27-33 nt:n fragmenttikokojen osalta, koska yli 90 prosenttia lukemista sijoittuu tälle alueelle (kuva 2A). Todennäköisin offset-arvo kaikille fragmenttikokojen välillä 20-35 nt ilmoitetaan offset-taulukkona (Supplementary Table S2).

Havaitsemme, että optimaalinen Δ-arvo – eli A-kohdan sijainti – muuttuu eri S- ja F-yhdistelmillä, ja todennäköisimmät arvot ovat joko 15 tai 18 nt:ssä. A-kohdan sijainti riippuu siis S:stä ja F:stä. Useimmissa tapauksissa tietyllä S- ja F-arvoparilla on yksi hallitseva huippu. Esimerkiksi kehyksessä 0 olevien 27-30 nt:n kokoisten fragmenttien osalta yli 70 % niiden geenikohtaisista optimoiduista Δ-arvoista on 15 nt:n päässä näiden fragmenttien 5′-päästä. Samanlaisia tuloksia saadaan myös muista yhdistelmistä, kuten koot 30, 31 ja 32 nt kehyksessä 1 ja 28-32 nt kehyksessä 2, joiden optimoidut Δ-arvot ovat 18 nt. Näin ollen koko transkriptomissa A-kohdan kodonin sijainti näissä fragmenteissa on yksiselitteisesti tunnistettu.

On kuitenkin S- ja F-yhdistelmiä, joiden A-kohdan sijainti on näiden jakaumien perusteella epäselvä. Esimerkiksi kehyksessä 1 olevien 27 nt:n kokoisten fragmenttien osalta 47 % geenin optimoiduista Δ-arvoista on 15 nt:n kohdalla, kun taas 30 % on 18 nt:n kohdalla. Samanlaisia tuloksia havaitaan fragmenteille 28 ja 29 nt kehyksessä 1 ja 31 ja 32 nt kehyksessä 0. Näissä S- ja F-yhdistelmissä on siis samanlainen todennäköisyys sille, että A-kohta sijaitsee jossakin koodonissa, ja sen vuoksi näyttää siltä, että emme voi yksiselitteisesti tunnistaa A-kohdan sijaintia.

Korkeampi kattavuus johtaa useampaan yksiselitteiseen sijaintipaikkaan

Hypoteesimme, että epäselvyys A-kohdan tunnistamisessa tietyissä S- ja F-yhdistelmissä voi johtua alhaisesta kattavuudesta (ts, huonosta otantatilastosta). Tämän hypoteesin testaamiseksi yhdistimme eri julkaistuista Ribo-Seq-tietueista saadut lukemat yhdeksi tietokokonaisuudeksi, jonka kattavuus oli näin ollen suurempi ja jossa oli enemmän valintakriteerimme mukaisia geenejä (lisätaulukko S1). Soveltamalla menetelmäämme tähän yhdistettyyn tietokokonaisuuteen saadaan yksilöllisiä poikkeamia useammille S- ja F-yhdistelmille verrattuna alkuperäiseen Pop-tietokokonaisuuteen (Kuva 3B ja Täydentävä taulukko S2), mikä vastaa hypoteesejamme. Esimerkiksi fragmenteille, joiden koko on 27 ja kehys 1, saamme nyt ainutlaatuisen offsetin 15 nt, ja 72 % geenin optimoiduista Δ-arvoista on 15 nt:n kohdalla (Kuva 3B). Näemme kuitenkin edelleen epäselvyyttä tiettyjen (S, F) -yhdistelmien kohdalla.

Käytimme lisästrategiaa kattavuuden lisäämiseksi rajoittamalla analyysimme geeneihin, joissa keskimääräinen lukukertymä koodonia kohti on suurempi. Jos hypoteesi pitää paikkansa, meidän pitäisi nähdä tilastollisesti merkitsevä trendi todennäköisimmän Δ-arvon kasvusta lukusyvyyden kasvaessa. Sovelsimme tätä analyysia Pooled-tietoaineistoon ja havaitsimme, että jotkin alun perin epäselvät S- ja F-yhdistelmät muuttuvat yksiselitteisiksi kattavuuden kasvaessa. Esimerkiksi keskimäärin yhdellä lukukerralla koodonia kohti (S, F)-yhdistelmät (25, 0), (27, 2) ja (30, 1) ovat epäselviä, koska ne alittavat 70 prosentin kynnysarvomme. Näemme kuitenkin tilastollisesti merkitsevän trendin (kaltevuus = 0,5, p = 3,94 × 10-6) fragmenttien (25, 0) osalta, että 15 nt:n siirto tulee todennäköisemmäksi kattavuuden kasvaessa ja ylittää lopulta 70 %:n kynnysarvon (kuva 4A). Vastaavasti (27, 2) (kaltevuus = 0,58, p = 5,77 × 10-5) ja (30, 1) (kaltevuus = 0,25, p = 0,009) -fragmenttien osalta on havaittavissa suuntaus kohti 18 nt:n offsetia, ja yli 70 prosentilla geeneistä on tämä offset korkeimmalla kattavuudella (kuvat 4B,C). Näin ollen näiden fragmenttien osalta kattavuuden lisääntyminen tunnistaa yksiselitteisesti Δ′:n ja siten A-kohdan sijainnin. Muutamien (S, F)-yhdistelmien, kuten (32, 0), osalta epäselvyys ei ratkea edes hyvin suurella peittävyydellä (kuva 4D), minkä arvelemme johtuvan siitä, että nukleaasien sulatuksen luontaiset piirteet ovat yhtä todennäköisiä useammalle kuin yhdelle offsetille.

Riittävän suuri kattavuus tuottaa siis taulukossa 1 esitetyn optimaalisen offset-taulukon, jossa offset on S. cerevisiae:ssä tuotettujen mRNA-fragmenttien 5′-päähän suhteutetun A-kohdan todennäköisin sijainti.

Taulukko 1 A-kohdan sijainnit (nukleotidien offsetit 5′-päästä), jotka on määritetty soveltamalla Integer Programming -algoritmia Pooled-tietoaineistoon S. cerevisiae:ssa, on esitetty fragmentin koon ja kehyksen funktiona.

Yhteensopivuus eri tietokokonaisuuksissa

Ribo-Seq-data on herkkä kokeellisille protokollille, jotka voivat aiheuttaa vääristymiä ribosomisuojattujen fragmenttien sulatuksessa ja ligaatiossa. Tietokokonaisuuksien yhdistämisen etuna on suurempi kattavuus, mutta se voi peittää yksittäiselle tietokokonaisuudelle ominaiset vääristymät. Määrittääksemme, ovatko yksilölliset poikkeamat (taulukko 1) yhdenmukaisia yksittäisistä datasarjoista saatujen tulosten kanssa, sovelsimme Integer Programming -algoritmia kuhunkin yksittäiseen datasarjaan. Useimmilla näistä tietokokonaisuuksista on alhainen kattavuus, minkä vuoksi vähemmän geenejä täyttää suodatuskriteerimme (Supplementary File S1). Luokittelemme jokaisen taulukossa 1 olevan yksilöllisen offsetin yhdenmukaiseksi yksittäisen tietokokonaisuuden kanssa edellyttäen, että todennäköisin offset yksittäisestä tietokokonaisuudesta (vaikka se ei saavuttaisikaan 70 prosentin kynnysarvoa kattavuuden syvyyden rajoitusten vuoksi) on sama kuin taulukossa 1. Huomasimme, että suurin osa taulukossa 1 esitetyistä yksilöllisistä poikkeamista (22 kappaletta 24:stä) on yhdenmukaisia 75 prosentissa tai useammassa yksittäisessä tietokokonaisuudessa (tilastot on esitetty lisätaulukossa S3). Vain kahdessa (S, F) yhdistelmässä esiintyy usein epäjohdonmukaisuutta. (S, F) -yhdistelmät (27, 1) ja (27, 2) ovat epäjohdonmukaisia vähintään 33 prosentissa yksittäisistä tietokokonaisuuksista (lisätaulukko S3). Tämä viittaa siihen, että tutkijoiden, jotka haluavat minimoida vääriä positiivisia tuloksia, tulisi hylätä nämä (S, F)-yhdistelmät luodessaan A-kohdan ribosomiprofiileja.

Offset-taulukon kestävyys kynnysarvojen vaihteluun nähden

Kokonaislukuohjelmointialgoritmi käyttää kahta kynnysarvoa yksilöllisten offsettien tunnistamiseen. Toinen on se, että 70 prosentilla geeneistä on todennäköisin offset, ja toinen, jonka tarkoituksena on minimoida Ribo-Seq-datan näytteenottokohinan aiheuttamat väärät positiiviset tulokset, on se, että ensimmäisen koodonin lukemien on oltava vähemmän kuin yksi viidesosa toisen, kolmannen ja neljännen koodonin lukemien keskiarvosta. Vaikka näiden kynnyskriteerien käyttöönotolle on hyvät syyt, kynnysarvojen tarkat arvot ovat mielivaltaisia. Siksi testasimme, muuttaako näiden kynnysarvojen vaihtelu taulukossa 1 esitettyjä tuloksia. Muutimme ensimmäisen kynnysarvon 60 ja 80 prosenttiin ja laskimme offset-taulukon uudelleen. Ilmoitamme, muuttuiko yksilöllinen offset-arvo, merkitsemällä lisätaulukkoon S3 raportoidun offset-arvon rinnalle ”R” tai ”S” (robust ja sensitive). Huomasimme, että kaksi kolmasosaa yksilöllisistä (S, F) -yhdistelmistä ei muuttunut (Supplementary Table S3). (S, F)-yhdistelmistä (25, 0), (25, 2), (27, 0), (27, 1), (28, 1), (31, 0), (33, 0) ja (33, 2) tulee moniselitteisiä, kun nostimme kynnyksen 80 prosenttiin.

Vaihtelimme toista, edellä mainittua kynnysarvoa yhdestä viidesosasta yhteen ja yhdestä kymmenesosaan, ja havaitsimme, että kaikki yksikäsitteiset (S, F)-yhdistelmät lukuun ottamatta (25, 2), (33, 0), (33, 2) ja (34, 1) pysyvät muuttumattomina (raportoitu nimellä ”R” lisätaulukossa S3). Yhteenvetona voidaan siis todeta, että suurimmassa osassa tapauksia taulukossa 1 raportoidut uniikit offsetit riippuvat hyvin vähän näiden kynnysarvojen erityisarvoista.

Testaus kokonaislukuohjelmointialgoritmia keinotekoisella Ribo-Seq-datalla

Testaaksemme lähestymistapamme oikeellisuutta ja kestävyyttä loimme tietokokonaisuuden simuloiduista ribosomimiehityksistä 4487 S. cerevisiae -siirtosarjan transkripteistä ja kysyimme, pystyisikö metodimme määrittelemään A-kohdan sijainnit täsmällisesti. Näistä miehityksistä luotiin keinotekoisia Ribo-Seq-lukemia olettaen, että niiden (S, F)-arvot jakautuvat Poissonin jakauman mukaisesti käyttäen satunnaisia jalanjäljen pituuksia, jotka ovat samanlaisia kuin kokeissa havaitut (ks. menetelmät ja täydentävä kuva S3A, B). Tutkimme menetelmämme kykyä määrittää oikeat A-kohtien sijainnit oikein neljällä eri joukolla ennalta määriteltyjä offset-arvoja (ks. Menetelmät). Integer Programming -algoritmia sovellettiin sitten tuloksena saatuun keinotekoiseen Ribo-Seq-dataan. Huomasimme, että algoritmin tuottama offset-taulukko toistaa käytetyt syöttöoffsetit (Supplementary Fig. S3C ja Supplementary Table S4). Tämä menettely toistettiin eri lukupituusjakaumille sekä erilaisilla syöttöoffseteilla, ja havaitsimme, että algoritmimme tuottamat offset-taulukot toistavat syöttöoffsettitaulukot yli 93 prosentissa kaikista (S, F)-yhdistelmistä (Supplementary Fig. S3B,C ja Supplementary File S2). Menetelmä tunnistaa pienen määrän epäselviä offset-arvoja, jotka johtuvat jakaumien hännillä olevasta alhaisesta lukupeitosta. Tämä havainto korostaa entisestään lukupeiton merkitystä kriittisenä tekijänä A-kohdan tarkassa tunnistamisessa.

A-kohdan offsets hiiren alkion kantasoluissa

Biologinen tosiasia, että ribosomin A-kohta sijaitsee vain toisen ja stop-kodonin välissä, ei rajoitu S. cerevisiae -bakteeriin, ja näin ollen Integer Programming -algoritmia olisi voitava soveltaa minkä tahansa organismin Ribo-Seq-dataan. Tämän vuoksi sovelsimme menetelmäämme hiiren alkion kantasolujen (mESC) yhdistettyyn Ribo-Seq-tietoaineistoon. Tuloksena saadussa A-kohdan offset-taulukossa oli epäselviä offset-arvoja kaikissa paitsi kolmessa (S, F) yhdistelmässä (Supplementary Table S5). MESC-soluissa translaatioelongaatio on laajalle levinnyttä, ja se tapahtuu annotoitujen CDS-alueiden rajojen ulkopuolella ylävirran avoimissa lukukehyksissä (uORF) 20. Ribosomisuojattujen fragmenttien rikastuminen näistä translatoivista uORF:istä voi vaikeuttaa algoritmimme mahdollisuuksia löytää yksilöllisiä siirtymiä, koska ne voivat lisätä lukuja kanonisten annotoitujen CDS:ien aloituskoodonin ympärillä. Siksi oletimme, että jos sovellamme algoritmiamme vain sellaisiin transkripteihin, joissa ei ole uORF:iä ja joissa on yksi aloituskohta, algoritmimme tunnistaisi enemmän yksilöllisiä siirtokohtia. Ingolia ja työtoverit11 ovat kokeellisesti tunnistaneet hyvin translitoitujen mESC-transkriptien osalta sen aloituskohtien lukumäärän ja sen, onko niissä uORFeja. Siksi valitsimme ne geenit, joilla on vain yksi translaation aloituskohta lähellä annotoitua aloituskodonia, ja rajasimme analyysimme edelleen transkripteihin, joilla on yksi isoformi, koska useilla isoformeilla voi olla erilaisia lopetuskohtia.

Kokonaisohjelmointialgoritmin soveltaminen tähän geenijoukkoon kasvattaa yksilöllisten offsettien määrän kolmesta 13 (S, F) yhdistelmään (lisätaulukko S6). Soveltamalla samoja robustisuus- ja johdonmukaisuustestejä kuin teimme S. cerevisiaen kohdalla paljastuu, että 77 prosenttia yksilöllisistä offseteista on robustisia kynnysarvojen vaihtelun suhteen, ja samanlainen prosenttiosuus on johdonmukainen molemmissa yksittäisissä tietokokonaisuuksissa, joita käytettiin yhdistetyn datan luomiseksi (Supplementary Table S6). Näin ollen mESC:n osalta raportoimamme yksilölliset poikkeamat ovat vankkoja ja johdonmukaisia suurimmassa osassa tietokokonaisuuksia. Tämä tulos osoittaa myös, että A-kohdan paikkojen onnistunut tunnistaminen edellyttää vain sellaisten transkriptien analysointia, jotka eivät sisällä uORF:iä.

Integro-ohjelmointi ei tuota yksilöllisiä offsetteja E. coli -organismeille

Testataksemme, kuinka laajasti voimme soveltaa algoritmiamme, sovelsimme sitä poolattuun Ribo-Seq-dataan, joka on peräisin prokaryoottisesta organismista E. coli. Suodatuskriteerimme täyttävien geenien määrä on raportoitu lisätaulukossa S7. E. coli Ribo-Seq -protokollassa käytetty nukleaasi MNaasi pilkkoo mRNA:ta vinoutuneesti – se pilkkoo mieluummin 5′-päästä kuin 3′-päästä21,22. Siksi, kuten muissa tutkimuksissa21,22,23, sovelsimme algoritmia siten, että tunnistimme A-kohdan sijainnin siirtymänä 3′-päästä 5′-pään sijasta. Polykistroniset mRNA:t (eli transkriptit, jotka sisältävät useita CDS:iä) voivat aiheuttaa ongelmia algoritmillemme, koska vierekkäisten CDS:ien rajoilla lähekkäin olevat lukemat pisteytetään molempien CDS:ien eri etäisyyksien perusteella. Epätarkkojen tulosten välttämiseksi rajoitamme analyysimme 1 915 monokistroniseen transkriptiin, joissa ei ole mitään muuta transkriptiä 40 nt:n etäisyydellä CDS:stä ylävirtaan tai alavirtaan. Perustuen mESC-tietokannan analysoinnista saamiimme kokemuksiin suodatamme pois transkriptit, joilla on useita translaation aloituskohtia, sekä transkriptit, joiden annotoidut aloituskohdat on kyseenalaistettu. Nakahigashi ja työtoverit24 ovat käyttäneet tetrasykliiniä translaation estäjänä ja tunnistaneet E. coli -bakteerista 92 transkriptiä, joilla on referenssiannotaatiosta poikkeavia aloituskohtia. Jätämme nämäkin transkriptit analyysimme ulkopuolelle. Tässä laajan kattavuuden omaavassa yhdistetyssä tietokokonaisuudessa löydämme kuitenkin epäselviä offsetteja kaikille (S, F) -yhdistelmille (lisätaulukko S5). Normalisoidun ribosomitiheyden metageenianalyysi CDS:ssä ja 30 nt:n alueella ylävirtaan ja alavirtaan paljastaa merkkejä translaatiosta CDS:n rajojen ulkopuolella (Täydentävä kuva S4), erityisesti lukujen keskimääräistä suurempi rikastuminen muutamaa nukleotidia ennen aloituskodonia. Oletamme, että Shine-Dalgarno (SD) -sekvenssin emäspariutuminen 16S rRNA25:n komplementaarisen anti-SD-sekvenssin kanssa suojaa näitä muutamaa nukleotidia ennen aloituskodonia ribonukleaasin sulatukselta ja johtaa siten Ribo-Seq-lukujen rikastumiseen. Koska näitä ”pseudo” ribosomilta suojattuja fragmentteja ei voida erottaa todellisista ribosomilta suojatuista fragmenteista, jotka sisältävät koodonin, jossa on ribosomin A-kohta, algoritmimme on rajoitettu sovellettavaksi näihin tietoihin.

Tunnettujen translaation hidastumiseen johtavien PPX- ja XPP-motiivien toistaminen

S. cerevisiae:ssa26 ja E. coli:ssa21,27 tietyt PPX- ja XPP-polypeptidimotiivit (joissa X vastaa mitä tahansa 20:stä aminohaposta) voivat pysäyttää ribosomeja, kun kolmas jäännös on A-kohdassa. Elongaatiotekijät eIF5A (S. cerevisiae -bakteerissa) ja EF-P (E. coli -bakteerissa) auttavat lievittämään joidenkin motiivien aiheuttamaa pysähtymistä, mutta eivät muiden26. Jopa mESC:ssä Ingolia ja työtoverit11 havaitsivat PPD:n ja PPE:n vahvoina taukomotiiveina. Siksi tutkimme, voiko lähestymistapamme toistaa tunnetut pysähtymismotiivit. Teimme tämän laskemalla normalisoidun lukutiheyden PPX- ja XPP-motiivin eri esiintymiskohdissa.

S. cerevisiae:ssa havaitsimme suuria ribosomitiheyksiä PPG-, PPD-, PPE- ja PPN-kohdissa (kuva 5A), jotka kaikki on luokiteltu vahvoiksi pysäytyskohteiksi S. cerevisiae:ssa26 ja myös E. coli:ssa27. Sitä vastoin PPP:n kohdalla ei keskimäärin esiinny pysähtymistä, mikä on yhdenmukaista muiden tutkimusten kanssa26. Tämä johtuu todennäköisesti eIF5A:n toiminnasta. XPP-motiiveista voimakkain pysähtyminen havaittiin GPP- ja DPP-motiiveilla, mikä on yhdenmukaista S. cerevisiae:ssa ja E. coli:ssa saatujen tulosten kanssa (kuva 5B). MESC:ssä nähdään voimakkainta pysähtymistä PPE- ja PPD-motiiveissa, mikä vastaa Ingolian ja työtovereiden11 tuloksia (täydentävä kuva S5A). XPP-motiivien osalta havaitsimme hyvin heikkoa pysähtymistä vain DPP:n kohdalla (täydentävä kuva S5B). Näin ollen lähestymistapamme A-kohdan kartoittamiseksi ribosomin jalanjäljistä mahdollistaa vakiintuneen translaation pysähtymisen tarkan havaitsemisen tietyillä PPX- ja XPP-nasentoituvilla polypeptidimotiiveilla.

Nisäkässolujen Ribo-Seq-datasta tehdyssä tutkimuksessa28 havaittiin sekvenssistä riippumaton translaatiotauko, kun transkriptin 5. kodoni on P-kohdassa. Tämä initiaation jälkeinen tauko havaittiin myös in vitro -tutkimuksessa polyfenyylialaniinisynteesistä, jossa havaittiin pysähtyminen, kun 4. kodoni oli P-kohdassa29. A-kohdan profiileissa, jotka saatiin käyttämällä S. cerevisiaen ja mESC:n offset-taulukoita, havaittiin näitä taukotapahtumia myös silloin, kun sekä 4. että 5. kodoni ovat P-kohdassa (täydentävä kuva S6).

Suurempi A-kohdan sijaintitarkkuus kuin muilla menetelmillä

Ei ole olemassa riippumatonta kokeellista menetelmää, jolla voitaisiin todentaa tunnistettujen A-kohdan sijaintitarkkuus menetelmämme tai minkään muun menetelmän avulla4,5,6,7,8,9,10,12,30,31,32,33,34,35. Väitämme, että vakiintunut ribosomin pysähtyminen tietyissä PPX-sekvenssimotiiveissa on paras käytettävissä oleva keino erottaa olemassa olevien menetelmien tarkkuus. Syynä tähän on se, että nämä pysähtymismotiivit on tunnistettu E. coli:ssa36,37 ja S. cerevisiae:ssa38 ortogonaalisilla kokeellisilla menetelmillä (mukaan lukien entsymologiset tutkimukset ja varpaanpainatus), ja A-kohdan tarkan sijainnin tällaisen hidastumisen aikana tiedetään olevan motiivin kolmatta jäämää koodaavassa kodonissa36. Näin ollen tarkin A-kohdan tunnistamismenetelmä on se, joka useimmiten määrittää suuremman ribosomitiheyden X:lle PPX-motiivin jokaisessa esiintymässä.

Sovelsimme tätä testiä voimakkaimmin hidastuviin PPX-motiiveihin, eli PPG:hen S. cerevisiassa ja PPE:hen mESC:ssä. S. cerevisiaessa Integer Programming -menetelmä tuottaa suurimman ribosomitiheyden PPG-motiivin glysiinikodonin kohdalla, kun sitä sovelletaan sekä Pooled- (Kuva 6A) että Pop-tietoaineistoihin (Supplementary Fig. S7A). Tarkasteltaessa jokaista PPG:n esiintymää geenitietoaineistossamme havaitsimme, että suurimmassa osassa tapauksista menetelmämme määrittää suuremman ribosomitiheyden glysiinille kuin kaikki muut menetelmät, kun sitä sovelletaan sekä Pooled (Kuva 6B, Wilcoxon signed-rank test (n = 224), P < 0.0005 kaikille menetelmille paitsi Hussmannille (P = 0,164)) ja Pop-tietoaineistoille (Täydentävä kuva S7B, Wilcoxon signed-rank-testaus (n = 35), P < 10-5 kaikille menetelmille paitsi Hussmannille (P = 0,026) ja Ribodeblurille (P = 0,01)). Sama analyysi, jota sovellettiin mESC:iin PPE-motiivien kohdalla, osoittaa, että menetelmämme päihittää muut yhdeksän menetelmää (kuva 6C,D), sillä menetelmämme määritteli suuremman ribosomitiheyden glutamiinihapon kohdalla vähintään 85 prosentille aineistomme PPE-motiiveista verrattuna kaikkiin muihin menetelmiin (kuva 6D, Wilcoxonin allekirjoitettu järjestysjärjestys-testi (n = 104), P < 10-15 kaikille menetelmille). Näin ollen S. cerevisiaen ja mESC:n osalta Integer Programming -lähestymistapamme on muita menetelmiä tarkempi tunnistettaessa A-kohtaa ribosomilta suojatuissa fragmenteissa.

Lukuiset molekyylitekijät vaikuttavat koodonien translaationopeuteen ja ribosomitiheyteen transkriptien varrella39. Yksi tekijä on kognatiivisen tRNA:n konsentraatio, sillä kognatiivisen tRNA:n dekoodaamilla koodoneilla, joiden konsentraatio on korkeampi, pitäisi olla keskimäärin alhaisempi ribosomitiheys15,16,40. Tämän vuoksi odotamme laadullisena lisätestinä, että tarkin A-kohdan menetelmä tuottaa suurimman antikorrelaation koodonin ribosomitiheyden ja sen kognatiivisen tRNA:n pitoisuuden välillä. Tämä testi on vain kvalitatiivinen, sillä koodonin ribosomitiheyden ja kognatiivisen tRNA:n konsentraation väliseen korrelaatioon voivat vaikuttaa muut tekijät, kuten koodonin käyttö ja uudelleen ladattujen tRNA:iden uudelleenkäyttö ribosomin läheisyydessä41,42. Käyttämällä tRNA-runsauksia, jotka on aiemmin arvioitu S. cerevisiae -bakteerilla tehdyistä RNA-Seq-kokeista16 , havaitsimme, että Integer Programming -menetelmämme tuottaa suurimman antikorrelaation verrattuna yhteentoista muuhun tarkasteltuun menetelmään (lisätaulukko S8), mikä tukee edelleen menetelmämme tarkkuutta. Emme voineet suorittaa tätä testiä mESC:llä, koska tRNA-konsentraation mittauksia ei ole raportoitu kirjallisuudessa.

Arquidia Mantina