Identifying A- and P-site locations on ribosome-protected mRNA fragments using Integer Programming

Integer Programming Algorithm

Ribo-Seq-datan analysoinnissa mRNA-fragmentit kohdistetaan aluksi referenssitranskriptomiin, ja niiden sijainti ilmoitetaan 5′-päähän nähden. Tämä tarkoittaa, että yksi fragmentti tuottaa yhden lukeman, joka raportoidaan sen genomikoordinaatin perusteella, johon fragmentin 5′-pään nukleotidi on kohdistettu (kuva 1A). Ribo-Seq-datassa havaitaan eripituisia fragmentteja, jotka voivat johtua RNA:n epätäydellisestä pilkkomisesta ja kokeessa käytetyn RNaasin suorittaman mRNA:n pilkkomisen stokastisesta luonteesta (kuva 2, täydentävä kuva S1). Keskeinen haaste Ribo-Seq-datan kvantitatiivisessa analysoinnissa on tunnistaa näistä Ribo-Seq-lukemista, missä A- ja P-paikat sijaitsivat sulatushetkellä. Tämä ei ole triviaalia, koska epätäydellinen sulatus ja stokastinen pilkkoutuminen voivat tapahtua fragmentin molemmissa päissä. Esimerkiksi mRNA:n pilkkominen, jonka tuloksena on 29 nt:n kokoinen fragmentti, voi tapahtua eri tavoin, joista kaksi on esitetty kuvassa 1B. Suure, joka meidän on arvioitava tarkasti, on niiden nukleotidien lukumäärä, jotka erottavat A-kohdassa olevan koodonin fragmentin 5′-päästä, jota kutsumme siirtymäksi ja merkitsemme Δ:llä. Δ:n tunteminen määrittää sekä A-kohdan että P-kohdan sijainnin, sillä P-kohta on aina Δ miinus 3 nt:n kohdalla.

Kuvio 1

A-kohdan sijainti voidaan määritellä siirtymänä ribosomisuojattujen fragmenttien 5′-päästä. (A) Kaavamainen esitys translatoivasta ribosomista (ylin piirros) ja ribo-Seq-lukemien välisestä offsetista ∆, joka on kartoitettu jalanjälkien 5′-päähän nähden ja keskitetty A-kohtaan (siniset palkit). Ribosomi on esitetty suojaamassa 28 nt:n pätkää, jonka 5′-pää on lukukehyksessä 0, joka on määritelty geenin ATG-starttikodonista. Ribosomin E-, P- ja A-kohdat on merkitty. Lukemat siirretään sitten 5′-päästä A-kohtaan offset-arvolla ∆. (B) Stokastinen nukleaasien sulatus voi johtaa erilaisiin fragmentteihin. Näytetään 29 nt:n jalanjäljen kaksi todennäköisintä varianttia, joiden 5′-pää on kehyksessä 1, ja niiden rajat on kartoitettu katkoviivoilla, jotka kohdistuvat genomiin, mikä voi johtaa 15 nt:n (ylhäällä) ja 18 nt:n (alhaalla) siirtymiin. (C) Kokonaisohjelmointialgoritmin soveltamisen havainnollistamiseksi tarkastellaan hypoteettista transkriptiä, jonka pituus on 60 nt. Ensimmäisessä paneelissa on ribosomiprofiili, joka on peräisin lukemista, jotka on osoitettu 5′-päähän pätkistä, joiden koko on 33 kehyksessä 0. Aloitus- ja lopetuskodoni on merkitty, kun taas muu CDS-alue on värjätty vaalean persikanväriseksi. Algoritmi siirtää tätä ribosomiprofiilia 3 nt:llä ja laskee tavoitefunktion \(\,T({\rm{\Delta }}|i,S,F)\). Siirron laajuus on siirtymä Δ. Merkitään \(\,T({\rm{\Delta }}|i,S,F)\) arvot, kun Δ = 12, 15, 18, 21 nts. Tässä esimerkissä lukujen keskimääräinen lukumäärä koodonia kohti on 7,85. Kahden ylimmän offsetin, 18 (T = 222) ja 15 (T = 215), välinen ero on pienempi kuin keskiarvo. Näin ollen tarkistetaan toissijaiset kriteerit (Tulokset). Offset 18 täyttää kriteerit, joiden mukaan aloituskodonin lukemien määrä on pienempi kuin yksi viidesosa toisen, kolmannen ja neljännen kodonin lukemien keskiarvosta ja että toisen kodonin lukemien määrä on suurempi kuin kolmannen kodonin lukemien määrä. Näin ollen Δ = 18 nt on optimaalinen offset tälle transkriptille.

Kuvio 2

mRNA-fragmenttien koon jakauma Popin ja työtovereiden Ribo-Seq-tietokokonaisuudelle (Pop ja työtovereiden aineisto) (A) ja yhdistetylle tietokokonaisuudelle (Pooled dataset) (B) S. cerevisiae.

Ratkaisumme tähän ongelmaan perustuu siihen biologiseen tosiasiaan, että kanonisissa transkripteissa, joissa ei ole ylävirtaan tapahtuvaa translaatiota, aktiivisesti translatoivien ribosomien A-kohdan on sijaittava CDS17:n toisen koodonin ja stop-koodonin välissä. Näin ollen optimaalinen offset-arvo Δ tietyn kokoisille (S) ja tietyn lukukehyksen (F) fragmenteille on se, joka maksimoi näiden koodonien välisten lukemien kokonaismäärän \(\,T({\rm{\Delta }}|i,S,F)\) jokaiselle geenille i, johon fragmentit kohdistuvat. MRNA-fragmentin S koko mitataan nukleotideina, ja kehyksen F arvot ovat 0, 1 tai 2 geenin aloituskodonin ATG mukaan, ja se vastaa kehystä, jossa fragmentin 5′-loppunukleotidi sijaitsee (kuva 1A). 5′-pään kehys F on RNaasin pilkkomisen tulos, ja se eroaa ribosomin lukukehyksestä, joka tyypillisesti kääntyy kehyksen sisällä (A-kohdan kehys 0). Toisin sanoen siirretään kunkin (S, F)-yhdistelmän osalta 5′-viivattua lukuprofiilia 3 nukleotidia kerrallaan (lukukehyksen F säilyttämiseksi), kunnes tunnistetaan arvo ∆, joka maksimoi lukemat toisen ja stop-kodonin välillä (kuva 1C, ks. seuraava alajakso). Tämä menettely suoritetaan järjestelmällisesti kullekin fragmenttikoolle S ja lukukehykselle F erikseen, koska kummallakin voi olla (ja havaitsemme, että joillakin on) erilainen optimaalinen ∆.

Tunnistaessamme Δ′-arvon kullekin geenille aineistossamme minimoimme myös väärien positiivisten tulosten esiintymisen varmistamalla, että korkein pistemäärä, \(\,T({\rm{\Delta }}^{\prime} |i,S,F)\), on huomattavasti korkeampi kuin seuraavaksi korkein pistemäärä, \(T({\rm{\Delta }}^{\prime\prime} |i,S,F)\), joka esiintyy eri siirtymässä Δ″. Jos kahden parhaan pistemäärän ero on pienempi kuin lukujen keskimääräinen lukumäärä koodonia kohti, sovelletaan seuraavia lisävalintaperusteita. Valitaksemme Δ′:n ja Δ″:n välillä, valitsemme sen, joka tuottaa aloituskodonin kohdalla lukemien määrän, joka on vähintään viidenneksen pienempi kuin lukemien keskimääräinen määrä toisen, kolmannen ja neljännen kodonin kohdalla. Lisäksi edellytämme, että toisessa kodonissa on enemmän lukemia kuin kolmannessa kodonissa. Näiden lisäkriteerien biologinen perusta on se, että todellista offsetia (eli A-kohdan todellista sijaintia) ei voida paikantaa aloituskodonissa ja että lukemien lukumäärän toisen koodonin kohdalla pitäisi olla keskimäärin suurempi kuin kolmannen koodonin kohdalla johtuen translaation aloitusvaiheen vaikutuksesta, jolloin ribosomi kokoaa mRNA:ta, jonka aloituskodoni on P-kohdassa. Jäljempänä osoitamme, että menetelmämme tulokset ovat kestäviä näiden kynnysarvojen muutoksille.

Kokonaisohjelmoinnin optimointimenettelyn havainnollistaminen

S. cerevisiae -bakteerissa esiintyvien ribosomilla suojattujen fragmenttien (kuva 2) fragmenttikoko- ja kehysjakaumat eivät ole riippuvaisia geeneistä (lisäyskuva S2), joten myöskään offset-arvojen Δ ei pitäisi olla riippuvaisia geeneistä. Näin ollen A-kohdan sijainti suhteessa S-kokoisen ja F-kehyksen F kokoisen fragmentin 5′-päähän vastaa offsetin todennäköisintä arvoa kaikissa aineiston geeneissä.

A-kohtien sijainnit S. cerevisiae Ribo-Seq -datassa ovat fragmentin koko- ja kehysriippuvaisia

Sovelsimme aluksi kokonaislukuohjelmointimenetelmää Popin ja työtovereiden19 julkaisemiin S. cerevisiae:stä kerättyihin Ribo-Seq-tietoihin. Kunkin S- ja F-yhdistelmän osalta tunnistimme ensin ne geenit, joiden vastaavassa ribosomiprofiilissa on keskimäärin vähintään yksi lukema koodonia kohti. Tämän kriteerin täyttävien geenien lukumäärä ilmoitetaan lisätaulukossa S1. Tämän jälkeen sovellettiin Integer Programming -menetelmää tähän geenien osajoukkoon. Tuloksena saadut Δ-arvojen jakaumat on esitetty kuvassa 3A fragmentin pituuden ja kehyksen eri yhdistelmille. Näytämme tulokset vain 27-33 nt:n fragmenttikokojen osalta, koska yli 90 prosenttia lukemista sijoittuu tälle alueelle (kuva 2A). Todennäköisin offset-arvo kaikille fragmenttikokojen välillä 20-35 nt ilmoitetaan offset-taulukkona (Supplementary Table S2).

Kuvio 3

Offset-arvojen jakaantuminen Integer Programming -algoritmilla, jota on sovellettu transkripteihin, jotka ovat peräisin lajista S. cerevisiae. Kuviossa (A) esitetyt tiedot ovat Pop-tietokannasta ja (B) Pooled-tietokannasta. Jakaumat on piirretty offset-arvon funktiona, ja 27-33 nt:n fragmenttikokojen osalta ne esitetään vasemmalta oikealle kehyksille 0, 1 ja 2. Tietyn fragmenttikoon ja kehyksen osalta A-kohdan sijainti on jakauman todennäköisimmässä Δ-arvossa, jos offset esiintyy yli 70 prosentissa geeneistä (katkoviivat paneeleissa). Virhepalkit edustavat Bootstrapping-menetelmällä laskettuja 95 prosentin luottamusvälejä. Otoskoot on ilmoitettu lisätaulukossa S1.

Havaitsemme, että optimaalinen Δ-arvo – eli A-kohdan sijainti – muuttuu eri S- ja F-yhdistelmillä, ja todennäköisimmät arvot ovat joko 15 tai 18 nt:ssä. A-kohdan sijainti riippuu siis S:stä ja F:stä. Useimmissa tapauksissa tietyllä S- ja F-arvoparilla on yksi hallitseva huippu. Esimerkiksi kehyksessä 0 olevien 27-30 nt:n kokoisten fragmenttien osalta yli 70 % niiden geenikohtaisista optimoiduista Δ-arvoista on 15 nt:n päässä näiden fragmenttien 5′-päästä. Samanlaisia tuloksia saadaan myös muista yhdistelmistä, kuten koot 30, 31 ja 32 nt kehyksessä 1 ja 28-32 nt kehyksessä 2, joiden optimoidut Δ-arvot ovat 18 nt. Näin ollen koko transkriptomissa A-kohdan kodonin sijainti näissä fragmenteissa on yksiselitteisesti tunnistettu.

On kuitenkin S- ja F-yhdistelmiä, joiden A-kohdan sijainti on näiden jakaumien perusteella epäselvä. Esimerkiksi kehyksessä 1 olevien 27 nt:n kokoisten fragmenttien osalta 47 % geenin optimoiduista Δ-arvoista on 15 nt:n kohdalla, kun taas 30 % on 18 nt:n kohdalla. Samanlaisia tuloksia havaitaan fragmenteille 28 ja 29 nt kehyksessä 1 ja 31 ja 32 nt kehyksessä 0. Näissä S- ja F-yhdistelmissä on siis samanlainen todennäköisyys sille, että A-kohta sijaitsee jossakin koodonissa, ja sen vuoksi näyttää siltä, että emme voi yksiselitteisesti tunnistaa A-kohdan sijaintia.

Korkeampi kattavuus johtaa useampaan yksiselitteiseen sijaintipaikkaan

Hypoteesimme, että epäselvyys A-kohdan tunnistamisessa tietyissä S- ja F-yhdistelmissä voi johtua alhaisesta kattavuudesta (ts, huonosta otantatilastosta). Tämän hypoteesin testaamiseksi yhdistimme eri julkaistuista Ribo-Seq-tietueista saadut lukemat yhdeksi tietokokonaisuudeksi, jonka kattavuus oli näin ollen suurempi ja jossa oli enemmän valintakriteerimme mukaisia geenejä (lisätaulukko S1). Soveltamalla menetelmäämme tähän yhdistettyyn tietokokonaisuuteen saadaan yksilöllisiä poikkeamia useammille S- ja F-yhdistelmille verrattuna alkuperäiseen Pop-tietokokonaisuuteen (Kuva 3B ja Täydentävä taulukko S2), mikä vastaa hypoteesejamme. Esimerkiksi fragmenteille, joiden koko on 27 ja kehys 1, saamme nyt ainutlaatuisen offsetin 15 nt, ja 72 % geenin optimoiduista Δ-arvoista on 15 nt:n kohdalla (Kuva 3B). Näemme kuitenkin edelleen epäselvyyttä tiettyjen (S, F) -yhdistelmien kohdalla.

Käytimme lisästrategiaa kattavuuden lisäämiseksi rajoittamalla analyysimme geeneihin, joissa keskimääräinen lukukertymä koodonia kohti on suurempi. Jos hypoteesi pitää paikkansa, meidän pitäisi nähdä tilastollisesti merkitsevä trendi todennäköisimmän Δ-arvon kasvusta lukusyvyyden kasvaessa. Sovelsimme tätä analyysia Pooled-tietoaineistoon ja havaitsimme, että jotkin alun perin epäselvät S- ja F-yhdistelmät muuttuvat yksiselitteisiksi kattavuuden kasvaessa. Esimerkiksi keskimäärin yhdellä lukukerralla koodonia kohti (S, F)-yhdistelmät (25, 0), (27, 2) ja (30, 1) ovat epäselviä, koska ne alittavat 70 prosentin kynnysarvomme. Näemme kuitenkin tilastollisesti merkitsevän trendin (kaltevuus = 0,5, p = 3,94 × 10-6) fragmenttien (25, 0) osalta, että 15 nt:n siirto tulee todennäköisemmäksi kattavuuden kasvaessa ja ylittää lopulta 70 %:n kynnysarvon (kuva 4A). Vastaavasti (27, 2) (kaltevuus = 0,58, p = 5,77 × 10-5) ja (30, 1) (kaltevuus = 0,25, p = 0,009) -fragmenttien osalta on havaittavissa suuntaus kohti 18 nt:n offsetia, ja yli 70 prosentilla geeneistä on tämä offset korkeimmalla kattavuudella (kuvat 4B,C). Näin ollen näiden fragmenttien osalta kattavuuden lisääntyminen tunnistaa yksiselitteisesti Δ′:n ja siten A-kohdan sijainnin. Muutamien (S, F)-yhdistelmien, kuten (32, 0), osalta epäselvyys ei ratkea edes hyvin suurella peittävyydellä (kuva 4D), minkä arvelemme johtuvan siitä, että nukleaasien sulatuksen luontaiset piirteet ovat yhtä todennäköisiä useammalle kuin yhdelle offsetille.

Kuva 4

Peittävyyden kasvattaminen identifioi alunperin epäselväksi jääneen A-kohdan sijainnit S- ja F-ykkösten osalta. Kuvassa on esitetty niiden transkriptien prosenttiosuus, joilla on tietty Δ-arvo eri S- ja F-kombinaatioissa S. cerevisiaen yhdistetystä aineistosta. Kussakin paneelissa on piirretty useita jakaumia, jotka vastaavat transkriptejä, joiden kattavuus kasvaa, mikä on merkitty alareunan legendalla. Esimerkiksi siniset ja punaiset jakaumat ovat peräisin transkripteistä, joissa on keskimäärin vähintään 1 tai 2 lukua koodonia kohti. A-kohdan sijainti pyrkii kohti 15 nt:tä, kun S = 25, F = 0 (A), ja kohti 18 nt:tä, kun S = 27, F = 2 (B) ja S = 30, F = 1 (C). Jos S = 32, F = 0 (D), suuntausta ei ole havaittavissa edes suuremmalla kattavuudella. Huomattakoon, että tapauksessa S = 27, F = 2 (paneeli B) on alle 10 geeniä, joiden keskimääräinen lukukerroin on yli 50 lukua koodonia kohti, joten emme sisällytä datapistettä, jonka keskiarvo on yli 45 lukua koodonia kohti (ks. menetelmät). Virhepalkit edustavat 95 %:n luottamusvälejä, jotka on laskettu Bootstrapping-menetelmällä.

Riittävän suuri kattavuus tuottaa siis taulukossa 1 esitetyn optimaalisen offset-taulukon, jossa offset on S. cerevisiae:ssä tuotettujen mRNA-fragmenttien 5′-päähän suhteutetun A-kohdan todennäköisin sijainti.

Taulukko 1 A-kohdan sijainnit (nukleotidien offsetit 5′-päästä), jotka on määritetty soveltamalla Integer Programming -algoritmia Pooled-tietoaineistoon S. cerevisiae:ssa, on esitetty fragmentin koon ja kehyksen funktiona.

Yhteensopivuus eri tietokokonaisuuksissa

Ribo-Seq-data on herkkä kokeellisille protokollille, jotka voivat aiheuttaa vääristymiä ribosomisuojattujen fragmenttien sulatuksessa ja ligaatiossa. Tietokokonaisuuksien yhdistämisen etuna on suurempi kattavuus, mutta se voi peittää yksittäiselle tietokokonaisuudelle ominaiset vääristymät. Määrittääksemme, ovatko yksilölliset poikkeamat (taulukko 1) yhdenmukaisia yksittäisistä datasarjoista saatujen tulosten kanssa, sovelsimme Integer Programming -algoritmia kuhunkin yksittäiseen datasarjaan. Useimmilla näistä tietokokonaisuuksista on alhainen kattavuus, minkä vuoksi vähemmän geenejä täyttää suodatuskriteerimme (Supplementary File S1). Luokittelemme jokaisen taulukossa 1 olevan yksilöllisen offsetin yhdenmukaiseksi yksittäisen tietokokonaisuuden kanssa edellyttäen, että todennäköisin offset yksittäisestä tietokokonaisuudesta (vaikka se ei saavuttaisikaan 70 prosentin kynnysarvoa kattavuuden syvyyden rajoitusten vuoksi) on sama kuin taulukossa 1. Huomasimme, että suurin osa taulukossa 1 esitetyistä yksilöllisistä poikkeamista (22 kappaletta 24:stä) on yhdenmukaisia 75 prosentissa tai useammassa yksittäisessä tietokokonaisuudessa (tilastot on esitetty lisätaulukossa S3). Vain kahdessa (S, F) yhdistelmässä esiintyy usein epäjohdonmukaisuutta. (S, F) -yhdistelmät (27, 1) ja (27, 2) ovat epäjohdonmukaisia vähintään 33 prosentissa yksittäisistä tietokokonaisuuksista (lisätaulukko S3). Tämä viittaa siihen, että tutkijoiden, jotka haluavat minimoida vääriä positiivisia tuloksia, tulisi hylätä nämä (S, F)-yhdistelmät luodessaan A-kohdan ribosomiprofiileja.

Offset-taulukon kestävyys kynnysarvojen vaihteluun nähden

Kokonaislukuohjelmointialgoritmi käyttää kahta kynnysarvoa yksilöllisten offsettien tunnistamiseen. Toinen on se, että 70 prosentilla geeneistä on todennäköisin offset, ja toinen, jonka tarkoituksena on minimoida Ribo-Seq-datan näytteenottokohinan aiheuttamat väärät positiiviset tulokset, on se, että ensimmäisen koodonin lukemien on oltava vähemmän kuin yksi viidesosa toisen, kolmannen ja neljännen koodonin lukemien keskiarvosta. Vaikka näiden kynnyskriteerien käyttöönotolle on hyvät syyt, kynnysarvojen tarkat arvot ovat mielivaltaisia. Siksi testasimme, muuttaako näiden kynnysarvojen vaihtelu taulukossa 1 esitettyjä tuloksia. Muutimme ensimmäisen kynnysarvon 60 ja 80 prosenttiin ja laskimme offset-taulukon uudelleen. Ilmoitamme, muuttuiko yksilöllinen offset-arvo, merkitsemällä lisätaulukkoon S3 raportoidun offset-arvon rinnalle ”R” tai ”S” (robust ja sensitive). Huomasimme, että kaksi kolmasosaa yksilöllisistä (S, F) -yhdistelmistä ei muuttunut (Supplementary Table S3). (S, F)-yhdistelmistä (25, 0), (25, 2), (27, 0), (27, 1), (28, 1), (31, 0), (33, 0) ja (33, 2) tulee moniselitteisiä, kun nostimme kynnyksen 80 prosenttiin.

Vaihtelimme toista, edellä mainittua kynnysarvoa yhdestä viidesosasta yhteen ja yhdestä kymmenesosaan, ja havaitsimme, että kaikki yksikäsitteiset (S, F)-yhdistelmät lukuun ottamatta (25, 2), (33, 0), (33, 2) ja (34, 1) pysyvät muuttumattomina (raportoitu nimellä ”R” lisätaulukossa S3). Yhteenvetona voidaan siis todeta, että suurimmassa osassa tapauksia taulukossa 1 raportoidut uniikit offsetit riippuvat hyvin vähän näiden kynnysarvojen erityisarvoista.

Testaus kokonaislukuohjelmointialgoritmia keinotekoisella Ribo-Seq-datalla

Testaaksemme lähestymistapamme oikeellisuutta ja kestävyyttä loimme tietokokonaisuuden simuloiduista ribosomimiehityksistä 4487 S. cerevisiae -siirtosarjan transkripteistä ja kysyimme, pystyisikö metodimme määrittelemään A-kohdan sijainnit täsmällisesti. Näistä miehityksistä luotiin keinotekoisia Ribo-Seq-lukemia olettaen, että niiden (S, F)-arvot jakautuvat Poissonin jakauman mukaisesti käyttäen satunnaisia jalanjäljen pituuksia, jotka ovat samanlaisia kuin kokeissa havaitut (ks. menetelmät ja täydentävä kuva S3A, B). Tutkimme menetelmämme kykyä määrittää oikeat A-kohtien sijainnit oikein neljällä eri joukolla ennalta määriteltyjä offset-arvoja (ks. Menetelmät). Integer Programming -algoritmia sovellettiin sitten tuloksena saatuun keinotekoiseen Ribo-Seq-dataan. Huomasimme, että algoritmin tuottama offset-taulukko toistaa käytetyt syöttöoffsetit (Supplementary Fig. S3C ja Supplementary Table S4). Tämä menettely toistettiin eri lukupituusjakaumille sekä erilaisilla syöttöoffseteilla, ja havaitsimme, että algoritmimme tuottamat offset-taulukot toistavat syöttöoffsettitaulukot yli 93 prosentissa kaikista (S, F)-yhdistelmistä (Supplementary Fig. S3B,C ja Supplementary File S2). Menetelmä tunnistaa pienen määrän epäselviä offset-arvoja, jotka johtuvat jakaumien hännillä olevasta alhaisesta lukupeitosta. Tämä havainto korostaa entisestään lukupeiton merkitystä kriittisenä tekijänä A-kohdan tarkassa tunnistamisessa.

A-kohdan offsets hiiren alkion kantasoluissa

Biologinen tosiasia, että ribosomin A-kohta sijaitsee vain toisen ja stop-kodonin välissä, ei rajoitu S. cerevisiae -bakteeriin, ja näin ollen Integer Programming -algoritmia olisi voitava soveltaa minkä tahansa organismin Ribo-Seq-dataan. Tämän vuoksi sovelsimme menetelmäämme hiiren alkion kantasolujen (mESC) yhdistettyyn Ribo-Seq-tietoaineistoon. Tuloksena saadussa A-kohdan offset-taulukossa oli epäselviä offset-arvoja kaikissa paitsi kolmessa (S, F) yhdistelmässä (Supplementary Table S5). MESC-soluissa translaatioelongaatio on laajalle levinnyttä, ja se tapahtuu annotoitujen CDS-alueiden rajojen ulkopuolella ylävirran avoimissa lukukehyksissä (uORF) 20. Ribosomisuojattujen fragmenttien rikastuminen näistä translatoivista uORF:istä voi vaikeuttaa algoritmimme mahdollisuuksia löytää yksilöllisiä siirtymiä, koska ne voivat lisätä lukuja kanonisten annotoitujen CDS:ien aloituskoodonin ympärillä. Siksi oletimme, että jos sovellamme algoritmiamme vain sellaisiin transkripteihin, joissa ei ole uORF:iä ja joissa on yksi aloituskohta, algoritmimme tunnistaisi enemmän yksilöllisiä siirtokohtia. Ingolia ja työtoverit11 ovat kokeellisesti tunnistaneet hyvin translitoitujen mESC-transkriptien osalta sen aloituskohtien lukumäärän ja sen, onko niissä uORFeja. Siksi valitsimme ne geenit, joilla on vain yksi translaation aloituskohta lähellä annotoitua aloituskodonia, ja rajasimme analyysimme edelleen transkripteihin, joilla on yksi isoformi, koska useilla isoformeilla voi olla erilaisia lopetuskohtia.

Kokonaisohjelmointialgoritmin soveltaminen tähän geenijoukkoon kasvattaa yksilöllisten offsettien määrän kolmesta 13 (S, F) yhdistelmään (lisätaulukko S6). Soveltamalla samoja robustisuus- ja johdonmukaisuustestejä kuin teimme S. cerevisiaen kohdalla paljastuu, että 77 prosenttia yksilöllisistä offseteista on robustisia kynnysarvojen vaihtelun suhteen, ja samanlainen prosenttiosuus on johdonmukainen molemmissa yksittäisissä tietokokonaisuuksissa, joita käytettiin yhdistetyn datan luomiseksi (Supplementary Table S6). Näin ollen mESC:n osalta raportoimamme yksilölliset poikkeamat ovat vankkoja ja johdonmukaisia suurimmassa osassa tietokokonaisuuksia. Tämä tulos osoittaa myös, että A-kohdan paikkojen onnistunut tunnistaminen edellyttää vain sellaisten transkriptien analysointia, jotka eivät sisällä uORF:iä.

Integro-ohjelmointi ei tuota yksilöllisiä offsetteja E. coli -organismeille

Testataksemme, kuinka laajasti voimme soveltaa algoritmiamme, sovelsimme sitä poolattuun Ribo-Seq-dataan, joka on peräisin prokaryoottisesta organismista E. coli. Suodatuskriteerimme täyttävien geenien määrä on raportoitu lisätaulukossa S7. E. coli Ribo-Seq -protokollassa käytetty nukleaasi MNaasi pilkkoo mRNA:ta vinoutuneesti – se pilkkoo mieluummin 5′-päästä kuin 3′-päästä21,22. Siksi, kuten muissa tutkimuksissa21,22,23, sovelsimme algoritmia siten, että tunnistimme A-kohdan sijainnin siirtymänä 3′-päästä 5′-pään sijasta. Polykistroniset mRNA:t (eli transkriptit, jotka sisältävät useita CDS:iä) voivat aiheuttaa ongelmia algoritmillemme, koska vierekkäisten CDS:ien rajoilla lähekkäin olevat lukemat pisteytetään molempien CDS:ien eri etäisyyksien perusteella. Epätarkkojen tulosten välttämiseksi rajoitamme analyysimme 1 915 monokistroniseen transkriptiin, joissa ei ole mitään muuta transkriptiä 40 nt:n etäisyydellä CDS:stä ylävirtaan tai alavirtaan. Perustuen mESC-tietokannan analysoinnista saamiimme kokemuksiin suodatamme pois transkriptit, joilla on useita translaation aloituskohtia, sekä transkriptit, joiden annotoidut aloituskohdat on kyseenalaistettu. Nakahigashi ja työtoverit24 ovat käyttäneet tetrasykliiniä translaation estäjänä ja tunnistaneet E. coli -bakteerista 92 transkriptiä, joilla on referenssiannotaatiosta poikkeavia aloituskohtia. Jätämme nämäkin transkriptit analyysimme ulkopuolelle. Tässä laajan kattavuuden omaavassa yhdistetyssä tietokokonaisuudessa löydämme kuitenkin epäselviä offsetteja kaikille (S, F) -yhdistelmille (lisätaulukko S5). Normalisoidun ribosomitiheyden metageenianalyysi CDS:ssä ja 30 nt:n alueella ylävirtaan ja alavirtaan paljastaa merkkejä translaatiosta CDS:n rajojen ulkopuolella (Täydentävä kuva S4), erityisesti lukujen keskimääräistä suurempi rikastuminen muutamaa nukleotidia ennen aloituskodonia. Oletamme, että Shine-Dalgarno (SD) -sekvenssin emäspariutuminen 16S rRNA25:n komplementaarisen anti-SD-sekvenssin kanssa suojaa näitä muutamaa nukleotidia ennen aloituskodonia ribonukleaasin sulatukselta ja johtaa siten Ribo-Seq-lukujen rikastumiseen. Koska näitä ”pseudo” ribosomilta suojattuja fragmentteja ei voida erottaa todellisista ribosomilta suojatuista fragmenteista, jotka sisältävät koodonin, jossa on ribosomin A-kohta, algoritmimme on rajoitettu sovellettavaksi näihin tietoihin.

Tunnettujen translaation hidastumiseen johtavien PPX- ja XPP-motiivien toistaminen

S. cerevisiae:ssa26 ja E. coli:ssa21,27 tietyt PPX- ja XPP-polypeptidimotiivit (joissa X vastaa mitä tahansa 20:stä aminohaposta) voivat pysäyttää ribosomeja, kun kolmas jäännös on A-kohdassa. Elongaatiotekijät eIF5A (S. cerevisiae -bakteerissa) ja EF-P (E. coli -bakteerissa) auttavat lievittämään joidenkin motiivien aiheuttamaa pysähtymistä, mutta eivät muiden26. Jopa mESC:ssä Ingolia ja työtoverit11 havaitsivat PPD:n ja PPE:n vahvoina taukomotiiveina. Siksi tutkimme, voiko lähestymistapamme toistaa tunnetut pysähtymismotiivit. Teimme tämän laskemalla normalisoidun lukutiheyden PPX- ja XPP-motiivin eri esiintymiskohdissa.

S. cerevisiae:ssa havaitsimme suuria ribosomitiheyksiä PPG-, PPD-, PPE- ja PPN-kohdissa (kuva 5A), jotka kaikki on luokiteltu vahvoiksi pysäytyskohteiksi S. cerevisiae:ssa26 ja myös E. coli:ssa27. Sitä vastoin PPP:n kohdalla ei keskimäärin esiinny pysähtymistä, mikä on yhdenmukaista muiden tutkimusten kanssa26. Tämä johtuu todennäköisesti eIF5A:n toiminnasta. XPP-motiiveista voimakkain pysähtyminen havaittiin GPP- ja DPP-motiiveilla, mikä on yhdenmukaista S. cerevisiae:ssa ja E. coli:ssa saatujen tulosten kanssa (kuva 5B). MESC:ssä nähdään voimakkainta pysähtymistä PPE- ja PPD-motiiveissa, mikä vastaa Ingolian ja työtovereiden11 tuloksia (täydentävä kuva S5A). XPP-motiivien osalta havaitsimme hyvin heikkoa pysähtymistä vain DPP:n kohdalla (täydentävä kuva S5B). Näin ollen lähestymistapamme A-kohdan kartoittamiseksi ribosomin jalanjäljistä mahdollistaa vakiintuneen translaation pysähtymisen tarkan havaitsemisen tietyillä PPX- ja XPP-nasentoituvilla polypeptidimotiiveilla.

Kuvio 5

Monimutkaiset PPX- ja XPP-motiivit johtavat ribosomaaliseen pysähtymiseen S. cerevisiae:ssa. Normalisoidun ribosomitiheyden mediaani on saatu kaikille (A) PPX- ja (B) XPP-motiivien tapauksille, joissa X vastaa mitä tahansa 20:stä luonnossa esiintyvästä aminohaposta. Permutaatiotestin avulla määritetään, onko ribosomitiheyden mediaani tilastollisesti merkitsevä vai johtuuko se sattumasta. Tilastollisesti merkitsevät motiivit on korostettu tummanpunaisella. Tämä analyysi tehtiin Pop-tietokannasta transkripteille, joissa vähintään 50 prosentissa koodonipaikoista on lukuja, jotka on kartoitettu niihin. Virhepalkit ovat 95 %:n luottamusvälejä mediaanille, jotka on saatu Bootstrapping-menetelmällä.

Nisäkässolujen Ribo-Seq-datasta tehdyssä tutkimuksessa28 havaittiin sekvenssistä riippumaton translaatiotauko, kun transkriptin 5. kodoni on P-kohdassa. Tämä initiaation jälkeinen tauko havaittiin myös in vitro -tutkimuksessa polyfenyylialaniinisynteesistä, jossa havaittiin pysähtyminen, kun 4. kodoni oli P-kohdassa29. A-kohdan profiileissa, jotka saatiin käyttämällä S. cerevisiaen ja mESC:n offset-taulukoita, havaittiin näitä taukotapahtumia myös silloin, kun sekä 4. että 5. kodoni ovat P-kohdassa (täydentävä kuva S6).

Suurempi A-kohdan sijaintitarkkuus kuin muilla menetelmillä

Ei ole olemassa riippumatonta kokeellista menetelmää, jolla voitaisiin todentaa tunnistettujen A-kohdan sijaintitarkkuus menetelmämme tai minkään muun menetelmän avulla4,5,6,7,8,9,10,12,30,31,32,33,34,35. Väitämme, että vakiintunut ribosomin pysähtyminen tietyissä PPX-sekvenssimotiiveissa on paras käytettävissä oleva keino erottaa olemassa olevien menetelmien tarkkuus. Syynä tähän on se, että nämä pysähtymismotiivit on tunnistettu E. coli:ssa36,37 ja S. cerevisiae:ssa38 ortogonaalisilla kokeellisilla menetelmillä (mukaan lukien entsymologiset tutkimukset ja varpaanpainatus), ja A-kohdan tarkan sijainnin tällaisen hidastumisen aikana tiedetään olevan motiivin kolmatta jäämää koodaavassa kodonissa36. Näin ollen tarkin A-kohdan tunnistamismenetelmä on se, joka useimmiten määrittää suuremman ribosomitiheyden X:lle PPX-motiivin jokaisessa esiintymässä.

Sovelsimme tätä testiä voimakkaimmin hidastuviin PPX-motiiveihin, eli PPG:hen S. cerevisiassa ja PPE:hen mESC:ssä. S. cerevisiaessa Integer Programming -menetelmä tuottaa suurimman ribosomitiheyden PPG-motiivin glysiinikodonin kohdalla, kun sitä sovelletaan sekä Pooled- (Kuva 6A) että Pop-tietoaineistoihin (Supplementary Fig. S7A). Tarkasteltaessa jokaista PPG:n esiintymää geenitietoaineistossamme havaitsimme, että suurimmassa osassa tapauksista menetelmämme määrittää suuremman ribosomitiheyden glysiinille kuin kaikki muut menetelmät, kun sitä sovelletaan sekä Pooled (Kuva 6B, Wilcoxon signed-rank test (n = 224), P < 0.0005 kaikille menetelmille paitsi Hussmannille (P = 0,164)) ja Pop-tietoaineistoille (Täydentävä kuva S7B, Wilcoxon signed-rank-testaus (n = 35), P < 10-5 kaikille menetelmille paitsi Hussmannille (P = 0,026) ja Ribodeblurille (P = 0,01)). Sama analyysi, jota sovellettiin mESC:iin PPE-motiivien kohdalla, osoittaa, että menetelmämme päihittää muut yhdeksän menetelmää (kuva 6C,D), sillä menetelmämme määritteli suuremman ribosomitiheyden glutamiinihapon kohdalla vähintään 85 prosentille aineistomme PPE-motiiveista verrattuna kaikkiin muihin menetelmiin (kuva 6D, Wilcoxonin allekirjoitettu järjestysjärjestys-testi (n = 104), P < 10-15 kaikille menetelmille). Näin ollen S. cerevisiaen ja mESC:n osalta Integer Programming -lähestymistapamme on muita menetelmiä tarkempi tunnistettaessa A-kohtaa ribosomilta suojatuissa fragmenteissa.

Kuvio 6

Kokonaislukuohjelmointialgoritmi määrittää oikein muita menetelmiä suuremman ribosomitiheyden glysiinille PPG-motiiveissa S. cerevisiae:ssa ja glutamiinihapolle PPE-motiiveissa mESC:ssa. (A) Normalisoitu ribosomitiheys, joka on saatu A-kohdan tunnistamiseen käytetyillä eri menetelmillä, on esitetty PPG-motiivin esiintymälle geenissä YLR375W, jossa on G koodonipaikassa 303 S. cerevisiae:n yhdistetyssä tietokokonaisuudessa (Legenda osoittaa menetelmän, ja yksityiskohtaiset tiedot kustakin menetelmästä löytyvät kohdasta Menetelmät). (B) Niiden PPG-instanssien (n = 224) osuus, joissa Integer Programming -menetelmä tuottaa suuremman ribosomitiheyden glysiinin kohdalla verrattuna kaikkiin muihin menetelmiin. Värikoodaus on sama kuin paneelin (A) legendassa. Menetelmämme menestyy paremmin, jos se antaa suuremman ribosomitiheyden yli puolessa tapauksista (vaakasuora viiva paneelissa B). Integer Programming -menetelmä menestyy paremmin kuin kaikki muut menetelmät (P < 0,0005) paitsi Hussmann, joka ei eroa tilastollisesti (P = 0,164). (C) Normalisoitu ribosomitiheys on esitetty PPE-motiivin esiintymälle geenissä uc007zma.1, jossa on E koodonipaikassa 127 hiiren ESC:ien yhdistetyssä tietokokonaisuudessa (katso Legend ja pääteksti menetelmiä koskevien yksityiskohtien osalta). (D) Niiden PPE-tapausten osuus, joissa Integer Programming -menetelmä tuottaa suuremman ribosomitiheyden glutamaattihapolla verrattuna kaikkiin muihin menetelmiin. Värikoodaus on sama kuin paneelin (C) legendassa. Integer Programming -menetelmä onnistuu kaikkia muita menetelmiä paremmin (P < 10-15) määrittämään ribosomitiheyden tarkasti glutamiinihapolle PPE-motiiveissa (n = 104). Kohdissa (B) ja (D) esitetyissä analyyseissä kaksipuoliset p-arvot laskettiin Wilcoxonin allekirjoitetun rank-testin avulla. Virhepalkit edustavat 95 prosentin luottamusväliä mediaanista, joka on laskettu Bootstrapping-menetelmällä.

Lukuiset molekyylitekijät vaikuttavat koodonien translaationopeuteen ja ribosomitiheyteen transkriptien varrella39. Yksi tekijä on kognatiivisen tRNA:n konsentraatio, sillä kognatiivisen tRNA:n dekoodaamilla koodoneilla, joiden konsentraatio on korkeampi, pitäisi olla keskimäärin alhaisempi ribosomitiheys15,16,40. Tämän vuoksi odotamme laadullisena lisätestinä, että tarkin A-kohdan menetelmä tuottaa suurimman antikorrelaation koodonin ribosomitiheyden ja sen kognatiivisen tRNA:n pitoisuuden välillä. Tämä testi on vain kvalitatiivinen, sillä koodonin ribosomitiheyden ja kognatiivisen tRNA:n konsentraation väliseen korrelaatioon voivat vaikuttaa muut tekijät, kuten koodonin käyttö ja uudelleen ladattujen tRNA:iden uudelleenkäyttö ribosomin läheisyydessä41,42. Käyttämällä tRNA-runsauksia, jotka on aiemmin arvioitu S. cerevisiae -bakteerilla tehdyistä RNA-Seq-kokeista16 , havaitsimme, että Integer Programming -menetelmämme tuottaa suurimman antikorrelaation verrattuna yhteentoista muuhun tarkasteltuun menetelmään (lisätaulukko S8), mikä tukee edelleen menetelmämme tarkkuutta. Emme voineet suorittaa tätä testiä mESC:llä, koska tRNA-konsentraation mittauksia ei ole raportoitu kirjallisuudessa.

Vastaa

Sähköpostiosoitettasi ei julkaista.