Identifying A- and P-site locations on ribosome-protected mRNS fragments using Integer Programming

Integer Programming Algorithm

A Ribo-Seq adatok elemzése során az mRNS-fragmentumokat először a referencia transzkriptomhoz igazítjuk, és a helyüket az 5′ végükhöz viszonyítva jelentjük. Ez azt jelenti, hogy egy fragmentum egy olvasattal járul hozzá, amelyet azon a genomkoordinátán jelentünk, amelyhez a fragmentum 5′ végének nukleotidját igazítottuk (1A. ábra). A Ribo-Seq-adatokban különböző hosszúságú fragmentumok figyelhetők meg, amelyek az RNS nem teljes emésztéséből és az mRNS-nek a kísérletben használt RNáz általi hasításának sztochasztikus természetéből adódhatnak (2. ábra, S1. kiegészítő ábra). A Ribo-Seq-adatok kvantitatív elemzésének központi kihívása, hogy ezekből a Ribo-Seq-olvasatokból azonosítsuk, hol helyezkedtek el az A- és P-helyek az emésztés időpontjában. Ez nem triviális feladat, mivel a fragmentum mindkét végén előfordulhat hiányos emésztés és sztochasztikus hasítás. Például a 29 nt méretű fragmentumot eredményező mRNS-emésztés különböző módon történhet, amelyek közül kettőt az 1B. ábra szemléltet. Az a mennyiség, amelyet pontosan meg kell becsülnünk, az a nukleotidok száma, amelyek elválasztják az A-helyen lévő kodont a fragmentum 5′ végétől, ezt nevezzük eltolásnak, és Δ-vel jelöljük. Δ ismerete meghatározza az A-site és a P-site helyzetét is, mivel a P-site mindig Δ mínusz 3 nt-nél lesz.

1. ábra

Az A-site helyét a riboszóma által védett fragmentumok 5′ végétől való eltolásként határozhatjuk meg. (A) Egy transzlációs riboszóma sematikus ábrázolása (felső rajz) és a Ribo-Seq leolvasások közötti ∆ eltolás, amelyet a lábnyomok 5′ végéhez képest térképeztek fel, és az A-site-ra központosítottak (kék sávok). A riboszóma egy 28 nt-os fragmentum védelmét mutatja, amelynek 5′ vége a gén ATG startkódonjától meghatározott 0. olvasási keretben van. A riboszómán belüli E-, P- és A-site-ok jelölve vannak. A leolvasásokat ezután az 5′ végtől a ∆ offset értékkel eltoljuk az A-site felé. (B) A sztochasztikus nukleáz emésztés különböző fragmentumokat eredményezhet. Az 1. keretben lévő 5′ végű 29 nt-os lábnyom két legvalószínűbb változata látható, határaikat a genomhoz igazodó szaggatott vonalakkal ábrázolva, amelyek 15 nt (fent) és 18 nt (lent) eltolódást eredményezhetnek. (C) Az integer programozási algoritmus alkalmazásának illusztrálására tekintsünk egy 60 nt hosszúságú hipotetikus transzkriptet. Az első panel a 33-as méretű fragmentumok 5′ végéhez rendelt olvasatokból származó riboszómaprofilt mutatja a 0. keretben. A start és a stop kodon fel van tüntetve, míg a CDS régió többi része világos barackszínnel van színezve. Az algoritmus ezt a riboszómaprofilt 3 nt-tal eltolja, és kiszámítja a \(\,T({\rm{\Delta }}|i,S,F)\) objektív függvényt. Az eltolás mértéke a Δ eltolás. Az \(\,T({\rm{\Delta }}|i,S,F)\) értékei Δ = 12, 15, 18, 21 nts esetén fel vannak tüntetve. Ebben a példában az olvasások átlagos száma kódononként 7,85. A két legfelső, 18 (T = 222) és 15 (T = 215) offset közötti különbség kisebb, mint az átlag. Ezért ellenőrizzük a másodlagos kritériumokat (Eredmények). A 18-as offset megfelel annak a kritériumnak, hogy a startkódonban lévő olvasatok száma kevesebb, mint a második, harmadik és negyedik kodonban lévő olvasatok átlagának egyötöde, valamint hogy a második kodonban lévő olvasatok száma nagyobb, mint a harmadik kodonban lévő olvasatok száma. Ezért Δ = 18 nt az optimális eltolás ehhez a transzkriptumhoz.

2. ábra

mRNS-fragmentméret-eloszlás az S. cerevisiae Ribo-Seq-adatkészlethez Pop és munkatársai (A) és a Pooled dataset (B) esetében.

A probléma megoldása azon a biológiai tényen alapul, hogy a kanonikus transzkriptek esetében, ahol nincs upstream transzláció, az aktívan fordító riboszómák A-helyének a CDS17 második kodonja és a stopkódon között kell elhelyezkednie. Ezért egy adott méretű (S) és olvasási keret (F) fragmentumok esetében a Δ optimális offset-érték az, amely maximalizálja az ezen kodonok közötti \(\,T({\rm{\Delta }}|i,S,F)\) olvasások teljes számát minden olyan i gén esetében, amelyre a fragmentumok leképeződnek. Az mRNS fragmens S méretét nukleotidokban mérjük, az F keret pedig 0, 1 vagy 2 értékű, ahogyan azt a gén ATG startkódonja meghatározza, és megfelel annak a keretnek, amelyben a fragmens 5′ végi nukleotidja található (1A. ábra). Az 5′ végi F keret az RNáz emésztés eredménye, és különbözik a riboszóma olvasási keretétől, amely jellemzően a keretben transzlál (az A-site 0. kerete). Más szóval, az (S, F) minden egyes kombinációjára az 5′-hez igazított olvasási profilt egyszerre 3 nukleotiddal eltoljuk (hogy megőrizzük az F olvasási keretet), amíg meg nem találjuk azt a ∆ értéket, amely maximalizálja a második és a stopkódon közötti olvasásokat (1C. ábra, lásd a következő alfejezetet). Ezt az eljárást szisztematikusan végezzük el minden egyes S fragmensméretre és F olvasókeretre külön-külön, mivel mindegyiknek más-más optimális ∆ értéke lehet (és úgy találjuk, hogy néhánynak van).

Az adathalmazunkban szereplő minden génre vonatkozó Δ′ érték azonosítása során a hamis pozitív eredmények előfordulását is minimalizáljuk azáltal, hogy biztosítjuk, hogy a legmagasabb pontszám, \(\,T({\rm{\Delta }}^{\prime} |i,S,F)\) jelentősen magasabb, mint a következő legmagasabb pontszám, \(T({\rm{\Delta }}^{\prime\prime} |i,S,F)\), amely egy másik Δ″ eltolásnál fordul elő. Ha a két legjobb pontszám közötti különbség kisebb, mint a kodononkénti átlagos olvasásszám, akkor a következő további kiválasztási kritériumokat alkalmazzuk. A Δ′ és Δ″ közötti választáshoz azt választjuk, amelyik a startkódonnál legalább egyötödével kevesebb olvasatot eredményez, mint a második, harmadik és negyedik kodonnál lévő olvasatok átlagos száma. Továbbá megköveteljük, hogy a második kodonnál több leolvasás legyen, mint a harmadik kodonnál. E további kritériumok biológiai alapja az, hogy a valódi offset (azaz az A-site tényleges helye) nem található a startkódonnál, és hogy a második kodonnál az olvasások számának átlagosan nagyobbnak kell lennie, mint a harmadik kodonnál, a transzláció iniciációs lépésének hozzájárulása miatt, amely során a riboszóma a P-site-ban lévő startkódonnal szerelődik össze az mRNS-en. Az alábbiakban bemutatjuk, hogy a módszerünk eredményei robusztusak e küszöbértékek változásával szemben.

Az integer programozási optimalizálási eljárás szemléltetése

A riboszómával védett fragmentumok fragmensméret- és kereteloszlása (2. ábra) S. cerevisiae-ben nem génfüggő (S2. kiegészítő ábra), és ezért a Δ eltolási értékek sem lehetnek génfüggők. Így az A-site elhelyezkedése egy S méretű és F keretű fragmens 5′ végéhez viszonyítva megfelel az offset legvalószínűbb értékének az adathalmazban szereplő összes génre vonatkozóan.

A-site elhelyezkedése az S. cerevisiae Ribo-Seq-adatokban fragmensméret- és keretfüggő

Először a Pop és munkatársai19 által publikált S. cerevisiae Ribo-Seq-adatokra alkalmaztuk az Integer Programming módszert. Az S és F minden egyes kombinációjára először azonosítottuk azokat a géneket, amelyeknek a megfelelő riboszómaprofiljában átlagosan legalább 1 leolvasás van kodononként. Az e kritériumnak megfelelő gének számát az S1. kiegészítő táblázat tartalmazza. Ezután a gének ezen részhalmazára alkalmaztuk az Integer Programming módszert. Az így kapott Δ értékek eloszlásait a 3A. ábra mutatja a fragmentumhossz és a keret különböző kombinációira. Csak a 27 és 33 nt közötti fragmensméretekre vonatkozó eredményeket mutatjuk be, mivel a leolvasások több mint 90%-a ebbe a tartományba esik (2A ábra). A 20 és 35 nt közötti összes fragmensméretre vonatkozó legvalószínűbb offset-értéket offset-táblázat formájában közöljük (Supplementary Table S2).

3. ábra

A S. cerevisiae transzkriptumaira alkalmazott Integer Programming algoritmus offset-értékeinek eloszlása. Az (A) ábrázolt adatok a Pop adathalmazból, a (B) pedig a Pooled adathalmazból származnak. Az eloszlásokat az offset érték függvényében ábrázoltuk, és 27 és 33 nt közötti fragmensméretek esetén balról jobbra haladva a 0., 1. és 2. keretre vonatkozóan mutatjuk be. Adott fragmensméret és keret esetén az A-site helye az eloszlásban a legvalószínűbb Δ értéken van, feltéve, hogy az offset a gének több mint 70%-ánál fordul elő (szaggatott vonalak a panelekben). A hibasávok a Bootstrapping segítségével számított 95%-os konfidenciaintervallumokat jelentik. A mintanagyságokat az S1 kiegészítő táblázat tartalmazza.

Azt látjuk, hogy az optimális Δ érték – azaz az A-site helye – az S és F különböző kombinációi esetén változik, a legvalószínűbb értékek vagy 15 vagy 18 nt-nél vannak. Az A-site elhelyezkedése tehát függ az S és F értékektől. A legtöbb esetben az S és F értékek egy adott párosához egy domináns csúcs tartozik. Például a 27-30 nt méretű fragmentumok esetében a 0. keretben a géntípusonkénti optimalizált Δ-értékek több mint 70%-a 15 nt távolságra van e fragmentumok 5′ végétől. Hasonló eredményeket találunk más kombinációk esetében is, mint például a 30, 31 és 32 nt méretűek az 1. keretben és a 28-32 nt méretűek a 2. keretben, ahol az optimalizált Δ értékek 18 nt. Így az egész transzkriptomban az A-site kodon pozíciója ezeken a fragmentumokon egyértelműen azonosítható.

Vannak azonban olyan S és F kombinációk, amelyeknek az A-site helye ezen eloszlások alapján nem egyértelmű. Például az 1. keretben található 27 nt méretű fragmentumok esetében a génoptimalizált Δ értékek 47%-a 15 nt-en, míg 30%-a 18 nt-en található. Hasonló eredmények figyelhetők meg a 28 és 29 nt-os fragmentumok esetében az 1. keretben, valamint a 31 és 32 nt-os fragmentumok esetében a 0. keretben. Így ezen S és F kombinációk esetében hasonló a valószínűsége annak, hogy az A-site egyik vagy másik kodonnál található, és ezért úgy tűnik, hogy nem tudjuk egyértelműen azonosítani az A-site helyét.

A nagyobb lefedettség több egyedi offsethelyhez vezet

Feltételeztük, hogy az A-site azonosításának kétértelműsége bizonyos S- és F-kombinációk esetében az alacsony lefedettségnek tudható be (ill, rossz mintavételi statisztika). E hipotézis teszteléséhez a különböző publikált Ribo-Seq-adatkészletekből származó leolvasásokat egyetlen, következésképpen nagyobb lefedettségű és a kiválasztási kritériumainknak megfelelő több gént tartalmazó adatkészletbe vontuk össze (Kiegészítő S1 táblázat). Módszerünk alkalmazása erre a pooled adathalmazra több S és F kombinációra ad egyedi offsetet az eredeti Pop adathalmazhoz képest (3B. ábra és S2. kiegészítő táblázat), ami összhangban van a hipotézisünkkel. Például a 27-es méretű fragmentumok és az 1. keret esetében most 15 nt egyedi offsetet kapunk, a génoptimalizált Δ értékek 72%-a 15 nt-nál van (3B. ábra). Bizonyos (S, F) kombinációk esetében azonban még mindig jelen van a kétértelműség.

Egy további stratégiát alkalmaztunk a lefedettség növelésére, amikor az elemzésünket olyan génekre korlátoztuk, amelyekben az egy kodonra jutó átlagos olvasások száma nagyobb. Ha a hipotézis helyes, akkor statisztikailag szignifikáns tendenciát kell látnunk a legvalószínűbb Δ érték növekedésére az olvasási mélység növekedésével. Ezt az elemzést alkalmaztuk a Pooled adathalmazra, és azt találtuk, hogy néhány kezdetben kétértelmű S és F kombináció a lefedettség növekedésével egyértelművé válik. Például a (25, 0), (27, 2) és (30, 1) (S, F) kombinációk kodononként átlagosan 1 olvasat esetén nem egyértelműek, mivel a 70%-os küszöbérték alá esnek. A (25, 0) fragmentumok esetében azonban statisztikailag szignifikáns tendenciát látunk (meredekség = 0,5, p = 3,94 × 10-6), hogy a 15 nt-os eltolás a lefedettség növelésével egyre valószínűbbé válik, és végül átlépi a 70%-os küszöböt (4A. ábra). Hasonlóképpen, a (27, 2) (meredekség = 0,58, p = 5,77 × 10-5) és (30, 1) (meredekség = 0,25, p = 0,009) esetében is a 18 nt-os eltolódás felé mutat a trend, és a gének több mint 70%-a rendelkezik ezzel az eltolódással a legnagyobb lefedettség mellett (4B,C ábra). Ezért ezeknél a fragmentumoknál a növekvő lefedettség egyértelműen azonosítja a Δ′-t és így az A-site helyét. Néhány (S, F) kombináció esetében, mint például (32, 0), a kétértelműség még nagyon magas lefedettség esetén sem oldódik fel (4D. ábra), ami feltételezésünk szerint a nukleáz emésztés inherens jellemzőinek köszönhető, amelyek egynél több offset esetében is egyformán valószínűek.

4. ábra

A növekvő lefedettség azonosítja az A-site helyét a kezdetben kétértelmű S és F kombinációk esetében. Az ábrán az adott Δ-értékkel rendelkező transzkriptek százalékos aránya látható különböző S- és F-kombinációkhoz az S. cerevisiae összesített adathalmazából. Minden panelben több eloszlás van ábrázolva, amelyek a növekvő lefedettségű transzkripteknek felelnek meg, amit a legenda alján jelez. Például a kék és a piros színű eloszlások olyan átiratokból származnak, amelyek átlagosan legalább 1, illetve 2 olvasatot tartalmaznak kódononként. Megfigyelhető, hogy S = 25, F = 0 (A) esetén az A-site helye 15 nt felé, S = 27, F = 2 (B) és S = 30, F = 1 (C) esetén 18 nt felé tendál. S = 32, F = 0 (D) esetén még nagyobb lefedettség esetén sincs tendencia. Megjegyzendő, hogy az S = 27, F = 2 (B panel) esetében kevesebb mint 10 olyan gén van, amelynek átlagos leolvasása meghaladja az 50 leolvasást kodononként, ezért a 45 leolvasást kodononként meghaladó átlagot meghaladó adatpontot nem vesszük figyelembe (lásd Módszerek). A hibasávok a Bootstrapping segítségével számított 95%-os konfidenciaintervallumokat jelölik.

Egy elég nagy lefedettség tehát az 1. táblázatban bemutatott optimális offset táblázatot eredményezi, ahol az offset az A-site legvalószínűbb helyét jelenti az S. cerevisiae-ben generált mRNS-fragmentumok 5′ végéhez képest.

1. táblázat Az S. cerevisiae-ben a Pooled adathalmazra az Integer Programming algoritmus alkalmazásával meghatározott A-site helyek (nukleotid offsets az 5′ végtől) a fragmens méretének és a keretnek a függvényében.

Konzisztencia a különböző adathalmazokban

A Ribo-Seq-adatok érzékenyek a kísérleti protokollokra, amelyek torzításokat vezethetnek be a riboszómával védett fragmentumok emésztése és ligálása során. Az adatkészletek összevonása a nagyobb lefedettség előnyét kínálja, de elfedheti az egyes adatkészletekre jellemző torzításokat. Annak megállapítására, hogy az egyedi eltolódásaink (1. táblázat) összhangban vannak-e az egyedi adatkészletek eredményeivel, az Integer Programming algoritmust alkalmaztuk minden egyes adatkészletre. Ezen adatkészletek többsége alacsony lefedettségű, ami azt eredményezi, hogy kevesebb gén felel meg a szűrési kritériumainknak (Supplementary File S1). Az 1. táblázatban szereplő minden egyes egyedi eltolás esetében azt az egyedi adatkészlettel konzisztensnek minősítjük, feltéve, hogy az egyedi adatkészletből származó legvalószínűbb eltolás (még akkor is, ha a lefedettség mélységének korlátai miatt nem éri el a 70%-os küszöbértéket) megegyezik az 1. táblázatban szereplővel. Megállapítottuk, hogy az 1. táblázatban szereplő egyedi eltolódások túlnyomó többsége (24-ből 22) az egyedi adatkészletek legalább 75%-ában konzisztens (a statisztikákat az S3. kiegészítő táblázat tartalmazza). Csak két (S, F) kombináció mutat gyakori következetlenséget. (S, F) kombinációk (27, 1) és (27, 2) az egyes adatkészletek 33%-ában vagy annál is több esetben ellentmondásosak (S3 kiegészítő táblázat). Ez azt sugallja, hogy azoknak a kutatóknak, akik minimalizálni szeretnék a hamis pozitív eredményeket, el kell vetniük ezeket az (S, F) kombinációkat, amikor A-site riboszómaprofilokat készítenek.

A offset-táblázat ellenálló képessége a küszöbérték-változással szemben

Az Integer Programming algoritmus két küszöbértéket használ az egyedi offsetek azonosítására. Az egyik az, hogy a gének 70%-a mutassa a legvalószínűbb offsetet, a másik, amelyet a Ribo-Seq-adatok mintavételi zajából eredő hamis pozitív eredmények minimalizálására terveztek, az, hogy az első kodonban lévő olvasatoknak a második, harmadik és negyedik kodonban lévő átlagos olvasatok egyötödénél kisebbnek kell lenniük. Bár e küszöbértékek bevezetésének jó okai vannak, e küszöbértékek pontos értékei önkényesek. Ezért megvizsgáltuk, hogy e küszöbértékek változtatása megváltoztatja-e az 1. táblázatban közölt eredményeket. Az első küszöbértéket 60%-ra és 80%-ra változtattuk, és újra kiszámítottuk az eltolási táblázatot. Az S3. kiegészítő táblázatban a bejelentett offset mellett egy “R” vagy “S” (a robusztus és érzékeny értékek esetében) feltüntetésével jelentjük, hogy változott-e az egyedi offset. Azt találtuk, hogy az egyedi (S, F) kombinációk kétharmada nem változott (S3. kiegészítő táblázat). Az (S, F) kombinációk (25, 0), (25, 2), (27, 0), (27, 1), (28, 1), (31, 0), (33, 0) és (33, 2) kétértelművé váltak, amikor a küszöbértéket 80%-ra emeltük.

Változtattuk a második, fent említett küszöbértéket egyötödtől egyig és egytizedig, és azt találtuk, hogy a (25, 2), (33, 0), (33, 2) és (34, 1) kivételével minden egyedi (S, F) kombináció változatlan maradt (az S3 kiegészítő táblázatban “R”-ként szerepel). Összefoglalva tehát, az esetek túlnyomó többségében az 1. táblázatban közölt egyedi eltolódások nagyon kevéssé függenek e küszöbértékek konkrét értékeitől.

Az integer programozási algoritmus tesztelése mesterséges Ribo-Seq adatokon

A megközelítésünk helyességének és robusztusságának tesztelésére létrehoztunk egy adathalmazt, amely 4487 S. cerevisiae transzkriptum szimulált riboszómafoglaltságát tartalmazza, és megkérdeztük, hogy módszerünk képes-e pontosan meghatározni az A-site helyeket. Mesterséges Ribo-Seq olvasatokat generáltunk ezekből a foglaltságokból, feltételezve, hogy a (S, F) értékek Poisson-eloszlása a kísérletekhez hasonló véletlenszerű lábnyomhosszúságokat használ (lásd a Módszerek és a Kiegészítő S3A, B ábrát). Megvizsgáltuk, hogy módszerünk képes-e helyesen meghatározni a valódi A-helyeket négy különböző, előre meghatározott eltolási értékkészlet esetén (lásd Módszerek). Ezután az Integer Programming algoritmust alkalmaztuk az így kapott mesterséges Ribo-Seq adatokra. Úgy találtuk, hogy az algoritmus által generált offset-táblázat reprodukálja a használt bemeneti offseteket (Kiegészítő S3C ábra és Kiegészítő S4 táblázat). Ezt az eljárást megismételtük különböző olvasáshossz-eloszlásokkal, valamint különböző bemeneti offsetekkel, és azt találtuk, hogy az algoritmusunk által generált offset-táblák az összes (S, F) kombináció több mint 93%-ában reprodukálják a bemeneti offset-táblákat (S3B,C kiegészítő ábra és S2 kiegészítő fájl). A módszer kis számú kétértelmű offsetet azonosít, ami az alacsony olvasási lefedettségnek köszönhető az eloszlások farkainál. Ez a megállapítás tovább hangsúlyozza a leolvasási lefedettség fontosságát, mint az A-site pontos azonosításának kritikus tényezőjét.

A-site offsets in mouse embryonic stem cells

A biológiai tény, hogy a riboszóma A-site csak a második és a stop kodon között található, nem korlátozódik az S. cerevisiae-re, ezért az Integer Programming algoritmusnak bármely szervezet Ribo-Seq adataira alkalmazhatónak kell lennie. Ezért módszerünket egér embrionális őssejtek (mESC) Pooled Ribo-Seq adathalmazán alkalmaztuk. Az így kapott A-site offset tábla három (S, F) kombináció kivételével minden esetben kétértelmű offseteket mutatott (Supplementary Table S5). A mESC-kben széles körben elterjedt a transzlációs megnyúlás, amely a kommentált CDS-régiók határain túl, az upstream nyitott olvasókeretekben (uORF-ek)20 történik. Az ilyen transzlációs uORF-ekből származó riboszómavédett fragmentumok feldúsulása megnehezítheti algoritmusunk számára az egyedi offsetek megtalálását, mivel ezek hozzájárulhatnak a kanonikusan annotált CDS-ek startkódonja körüli olvasatokhoz. Ezért azt feltételeztük, hogy ha algoritmusunkat csak azokra a transzkriptumokra alkalmazzuk, amelyek nem tartalmaznak uORF-eket és egyetlen indítóhelyet tartalmaznak, akkor algoritmusunknak több egyedi offsetet kell azonosítania. Ingolia és munkatársai11 kísérletileg azonosították a jól transzlált mESCs transzkriptumok esetében az iniciációs helyek számát és azt, hogy vannak-e uORF-ok. Ezért kiválasztottuk azokat a géneket, amelyeknek csak egy transzlációs iniciációs helye van az annotált startkódon közelében, és elemzésünket tovább korlátoztuk az egyetlen izoformával rendelkező transzkriptekre, mivel több izoformának különböző terminációs helye lehet.

Az Integer Programming algoritmus alkalmazása erre a génkészletre az egyedi offsetek számát 3-ról 13 (S, F) kombinációra növeli (Supplementary Table S6). Ugyanazokat a robusztussági és konzisztenciateszteket alkalmazva, mint amelyeket a S. cerevisiae esetében végeztünk, kiderül, hogy az egyedi offsets 77%-a robusztus a küszöbérték-változással szemben, és hasonló százalékos arányban konzisztens mindkét egyedi adatkészletben, amelyet a Pooled adatok létrehozásához használtunk (Supplementary Table S6). Így a mESCs esetében jelentett egyedi eltérések robusztusak és konzisztensek az adatkészletek túlnyomó többségében. Ez az eredmény azt is jelzi, hogy az A-site helyek sikeres azonosításához csak azokat a transzkripteket kell elemezni, amelyek nem tartalmaznak uORF-okat.

Az egészszámú programozás nem eredményez egyedi offseteket az E. coli esetében

Az algoritmusunk széleskörű alkalmazhatóságának további teszteléseként alkalmaztuk azt a prokarióta szervezet, az E. coli Pooled Ribo-Seq adataira. A szűrési kritériumainknak megfelelő gének számát a Kiegészítő S7. táblázatban közöljük. Az E. coli Ribo-Seq protokolljában használt nukleáz, az MNáz elfogult módon emészti az mRNS-t – az 5′ végéről történő emésztést előnyben részesítve a 3′ végével szemben21,22 . Ezért – más tanulmányokhoz21,22,23 hasonlóan – úgy alkalmaztuk az algoritmusunkat, hogy az 5′ vég helyett a 3′ végtől való eltolásként azonosítottuk az A-site helyét. A policisztronikus mRNS-ek (azaz a több CDS-t tartalmazó transzkriptek) problémákat okozhatnak az algoritmusunk számára, mivel az összefüggő CDS-ek határán lévő, szorosan egymás mellett elhelyezkedő leolvasásokat a két CDS-ben eltérő offsettel pontozzák. A pontatlan eredmények elkerülése érdekében elemzésünket azokra az 1915 monocisztronikus transzkriptre korlátozzuk, amelyeknek a CDS-től 40 nt-en belül nincs másik transzkript a folyásirányban vagy a folyásirányban. A mESCs adathalmaz elemzése során szerzett tapasztalataink alapján kiszűrjük a több transzlációs iniciációs helyet tartalmazó transzkripteket, valamint azokat a transzkripteket, amelyek annotált iniciációs helye vitatott. Nakahigashi és munkatársai24 tetraciklin mint transzlációs inhibitor segítségével 92 olyan transzkriptet azonosítottak E. coli-ban, amelyeknek a referencia annotációtól eltérő iniciációs helyei voltak. Ezeket a transzkripteket is kizártuk az elemzésünkből. Ebben a nagy lefedettségű összevont adathalmazban azonban minden (S, F) kombináció esetében kétértelmű offsetsort találunk (S5. kiegészítő táblázat). A normalizált riboszómasűrűség metagén-elemzése a CDS-ben és a CDS-hez fel- és lefelé eső 30 nt-os régióban a CDS határain túli transzláció jeleit mutatja (Kiegészítő ábra S4), különösen a startkódon előtt néhány nukleotiddal a leolvasások átlagosnál nagyobb mértékű feldúsulását. Feltételezzük, hogy a Shine-Dalgarno (SD) szekvencia bázispárosítása a 16S rRNS25 komplementer anti-SD szekvenciájával megvédi ezeket a startkódon előtti néhány nukleotidot a ribonukleáz emésztéstől, és ezért eredményezi a Ribo-Seq olvasatok feldúsulását. Mivel ezeket az “ál” riboszómavédett fragmentumokat nem lehet megkülönböztetni a tényleges riboszómavédett fragmentumoktól, amelyek a riboszóma A-site-ot tartalmazó kodont tartalmaznak, algoritmusunk korlátozottan alkalmazható ezekre az adatokra.

A transzlációs lassuláshoz vezető ismert PPX és XPP motívumok reprodukálása

A S. cerevisiae26 és az E. coli21,27 esetében bizonyos PPX és XPP polipeptid motívumok (amelyekben az X a 20 aminosav közül bármelyiknek megfelel) képesek a riboszómát megakasztani, ha a harmadik maradék az A-site-on van. Az eIF5A (S. cerevisiae-ben) és az EF-P (E. coli-ban) elongációs faktorok segítenek feloldani az egyes motívumok által kiváltott megakadást, de mások nem26. Ingolia és munkatársai11 még a mESC-kben is kimutatták a PPD és a PPE motívumokat, mint erős szünetelő motívumokat. Ezért megvizsgáltuk, hogy megközelítésünk képes-e reprodukálni az ismert megakasztási motívumokat. Ezt úgy tettük, hogy kiszámítottuk a normalizált olvasási sűrűséget a PPX és XPP motívum különböző előfordulási helyein.

A S. cerevisiae-ben nagy riboszómasűrűségeket figyeltünk meg a PPG, PPD, PPE és PPN motívumoknál (5A ábra), amelyek mindegyike az S. cerevisiae26-ban és az E. coli27-ben is erős megakasztóknak minősült. Ezzel szemben a PPP-nél átlagosan nincs megakadás, ami összhangban van más vizsgálatokkal26. Ez valószínűleg az eIF5A hatásának köszönhető. Az XPP motívumok esetében a legerősebb megtorpanást a GPP és a DPP motívumoknál figyeltük meg, ami összhangban van a S. cerevisiae-ben és az E. coli-ban kapott eredményekkel (5B. ábra). A mESC-kben a legerősebb megtorpanást a PPE és PPD motívumoknál tapasztaltuk, ami reprodukálja Ingolia és munkatársai11 eredményeit (S5A kiegészítő ábra). Az XPP motívumok esetében csak a DPP-nél figyeltünk meg nagyon gyenge megtorpanást (Kiegészítő ábra S5B). Így a riboszóma-lábnyomokon az A-hely feltérképezésére szolgáló megközelítésünk lehetővé teszi a kialakult transzlációs szünetelés pontos kimutatását bizonyos PPX és XPP naszcens polipeptid motívumoknál.

5. ábra

Sok PPX és XPP motívum vezet riboszómális megakadáshoz az S. cerevisiae-ben. A medián normalizált riboszómasűrűséget kaptuk az (A) PPX és (B) XPP motívumok minden olyan esetére, amelyben az X megfelel a 20 természetesen előforduló aminosav bármelyikének. Permutációs teszt segítségével meghatározzuk, hogy a riboszómasűrűség mediánja statisztikailag szignifikáns-e, vagy véletlenszerűen következik be. A statisztikailag szignifikáns motívumok sötétvörössel vannak kiemelve. Ezt az elemzést a Pop adathalmazon végeztük el az olyan transzkriptek esetében, amelyekben a kodonpozíciók legalább 50%-ához leolvasások vannak leképezve. A hibasávok a Bootstrapping segítségével kapott medián 95%-os konfidenciaintervallumai.

Emlő emlőssejtek Ribo-Seq-adatainak vizsgálata28 szekvenciafüggetlen transzlációs szünetet figyelt meg, amikor a transzkript 5. kodonja a P-helyen van. Ezt a beindulás utáni szünetet a polifenilalaninszintézis in vitro vizsgálatában is megfigyelték, ahol megakadást figyeltek meg, amikor a 4. kodon a P-helyen volt29. A S. cerevisiae és mESCs esetében az offset táblázatok segítségével kapott A-site profilok segítségével; szintén megfigyeltük ezeket a szüneteltetési eseményeket, amikor a 4. és az 5. kodon is a P-site-ban van (S6. kiegészítő ábra).

Nagyobb A-site helymeghatározási pontosság, mint más módszerek

Nincs független kísérleti módszer a mi módszerünkkel vagy bármely más módszerrel azonosított A-site helyek pontosságának ellenőrzésére4,5,6,7,8,9,10,12,30,31,32,33,34,35. Azt állítjuk, hogy az egyes PPX-szekvencia-motívumoknál jól ismert riboszóma-szünetelés a legjobb rendelkezésre álló eszköz a meglévő módszerek pontosságának differenciálására. Ennek oka, hogy ezeket a megállási motívumokat E. coliban36,37 és S. cerevisiae-ben38 ortogonális kísérleti módszerekkel (beleértve az enzimológiai vizsgálatokat és a lábujjlenyomatot) azonosították, és az ilyen lassítás során az A-hely pontos helye ismert a motívum harmadik maradékát kódoló kodonnál36. Így a legpontosabb A-site-azonosítási módszer az lesz, amely a PPX-motívum minden egyes előfordulási helyén a leggyakrabban nagyobb riboszómasűrűséget rendel X-hez.

Ezt a tesztet a legerősebb lassító PPX-motívumokra, azaz a PPG-re S. cerevisiae-ben és a PPE-re mESC-ben alkalmaztuk. S. cerevisiae-ben az Integer Programming módszer a PPG motívum glicin kodonjánál adja a legnagyobb riboszómasűrűséget, ha mind a Pooled (6A. ábra), mind a Pop adathalmazra alkalmazzuk (Supplementary Fig. S7A). A PPG minden egyes előfordulását megvizsgálva a génadatkészletünkben azt találtuk, hogy az esetek többségében a módszerünk nagyobb riboszómasűrűséget rendel a glicinhez, mint minden más módszer, amikor mind a Pooled (6B. ábra, Wilcoxon signed-rank teszt (n = 224), P < 0.0005 minden módszerre, kivéve Hussmann (P = 0,164)) és Pop adathalmazokra (Kiegészítő ábra S7B, Wilcoxon signed-rank teszt (n = 35), P < 10-5 minden módszerre, kivéve Hussmann (P = 0,026) és Ribodeblur (P = 0,01)). Ugyanezek az elemzések a PPE-motívumok mESC-jeire alkalmazva azt mutatják, hogy a mi módszerünk felülmúlja a többi kilenc módszert (6C,D ábra): a mi módszerünk az összes többi módszerhez képest nagyobb riboszómasűrűséget rendel a glutaminsavhoz az adatállományunkban szereplő PPE-motívumok legalább 85%-ánál (6D ábra, Wilcoxon signed-rank teszt (n = 104), P < 10-15 minden módszer esetében). Így az S. cerevisiae és a mESCs esetében az integer programozási megközelítésünk pontosabb, mint más módszerek a riboszómával védett fragmentumok A-site-jának azonosításában.

6. ábra

Az Integer Programming algoritmus az S. cerevisiae esetében a PPG-motívumokban a glicinhez, az mESC esetében pedig a PPE-motívumokban a glutaminsavhoz rendel helyesen nagyobb riboszómasűrűséget, mint más módszerek. (A) Az A-site azonosítására használt különböző módszerekkel kapott normalizált riboszómasűrűség látható az YLR375W génben lévő PPG-motívum egy példányára, amelynek G a 303-as kodonpozícióban található az S. cerevisiae összesített adatállományában (A legenda jelzi a módszert, és az egyes módszerek teljes részletei a Módszerek részben találhatók). (B) A PPG-példányok (n = 224) azon hányada, amelyeknél az Integer Programming módszer minden más módszerhez képest nagyobb riboszómasűrűséget eredményez a glicinnél. A színkódolás megegyezik az (A) panel legendájában láthatóval. A mi módszerünk akkor teljesít jobban, ha az esetek több mint felében nagyobb riboszómasűrűséget rendel hozzá (vízszintes vonal a B panelben). Az Integer Programming módszer jobban teljesít, mint az összes többi módszer (P < 0,0005), kivéve a Hussmann módszert, amely statisztikailag nem különbözik (P = 0,164). (C) A normalizált riboszómasűrűség az uc007zma.1 génben lévő PPE-motívum egy példányára látható, E-vel a 127-es kodonpozícióban az egér ESC-k összesített adathalmazában (a módszerek részleteit lásd a Legendában és a főszövegben). (D) A PPE-példányok azon frakciója, amelyeknél az Integer Programming módszer nagyobb riboszómasűrűséget eredményez a glutaminsavnál, mint minden más módszer. A színkódolás megegyezik a (C) panel legendájában láthatóval. Az Integer Programming módszer jobban teljesít az összes többi módszernél (P < 10-15) a riboszómasűrűség pontos hozzárendelésében a glutaminsavhoz a PPE-motívumokban (n = 104). A (B) és (D) elemzésekhez a kétoldalas p-értékeket a Wilcoxon előjeles rangsor teszt segítségével számoltuk ki. A hibasávok a bootstrapping segítségével számított 95%-os konfidenciaintervallumot jelentik a medián körül.

Számos molekuláris tényező befolyásolja a kodonok transzlációs sebességét és a riboszómasűrűséget a transzkriptumok mentén39. Az egyik tényező a kognitív tRNS koncentrációja, mivel a magasabb koncentrációjú kognitív tRNS által dekódolt kodonoknak átlagosan alacsonyabb riboszómasűrűséggel kell rendelkezniük15,16,40. Ezért egy további minőségi tesztként azt várjuk, hogy a legpontosabb A-site módszer a legnagyobb antikorrelációt fogja eredményezni a riboszómasűrűség egy kodonnál és annak kognitív tRNS-koncentrációja között. Ez a teszt csak kvalitatív, mivel a kodon riboszóma-sűrűsége és a kognitív tRNS-koncentráció közötti korrelációt más tényezők is befolyásolhatják, beleértve a kodonhasználatot és a riboszóma közelében lévő újratöltött tRNS-ek újrafelhasználását41,42. Az S. cerevisiae16 -on végzett RNS-Seq-kísérletekből korábban becsült tRNS-mennyiségek felhasználásával azt találtuk, hogy a mi Integer Programming módszerünk adja a legnagyobb antikorrelációt a tizenegy másik figyelembe vett módszerhez képest (Supplementary Table S8), ami tovább erősíti módszerünk pontosságát. Ezt a tesztet nem tudtuk lefuttatni mESC-eken, mivel a tRNS-koncentráció méréseiről nem számoltunk be az irodalomban.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.