Identifikace míst A a P na fragmentech mRNA chráněných ribozomem pomocí celočíselného programování

Algoritmus celočíselného programování

Při analýze dat Ribo-Seq jsou fragmenty mRNA nejprve zarovnány na referenční transkriptom a jejich umístění je uvedeno s ohledem na jejich 5′ konec. To znamená, že jeden fragment přispěje jedním čtením, které je hlášeno na souřadnici genomu, ke které je zarovnán nukleotid 5′ konce fragmentu (obr. 1A). V datech Ribo-Seq jsou pozorovány fragmenty různých délek, které mohou vznikat neúplným štěpením RNA a stochastickou povahou štěpení mRNA RNázou použitou v experimentu (obr. 2, doplňkový obr. S1). Hlavním úkolem při kvantitativní analýze dat Ribo-Seq je určit z těchto čtení Ribo-Seq, kde se v době štěpení nacházely A- a P-částice. To není triviální, protože k neúplnému štěpení a stochastickému štěpení může dojít na obou koncích fragmentu. Například štěpení mRNA, jehož výsledkem je fragment o velikosti 29 nt, může probíhat různými způsoby, z nichž dva jsou znázorněny na obr. 1B. Veličina, kterou potřebujeme přesně odhadnout, je počet nukleotidů, které dělí kodon v místě A od 5′ konce fragmentu, který označujeme jako offset a značíme Δ. Znalost Δ určuje polohu místa A i místa P, protože místo P bude vždy na Δ minus 3 nt.

Obrázek 1

Umístění místa A lze definovat jako offset od 5′ konce fragmentů chráněných ribozomem. (A) Schematické znázornění překládajícího ribozomu (horní obrázek) a odsazení ∆ mezi Ribo-Seq čteními mapovanými vzhledem k 5′ konci stop a centrovanými na A-site (modré pruhy). Ribozom je znázorněn tak, že chrání 28 nt fragment s 5′ koncem ve čtecím rámci 0, jak je definován od start kodonu ATG genu. Místa E, P a A uvnitř ribozomu jsou vyznačena. Čtení jsou pak posunuta z 5′ konce do místa A o hodnotu posunu ∆. (B) Výsledkem stochastického štěpení nukleázami mohou být různé fragmenty. Dvě nejpravděpodobnější varianty 29 nt stopy s 5′ koncem v rámci 1 jsou zobrazeny s jejich hranicemi mapovanými tečkovanými čarami zarovnanými ke genomu, které mohou vést k posunům 15 nt (nahoře), resp. 18 nt (dole). (C) Pro ilustraci použití algoritmu celočíselného programování uvažujme hypotetický transkript o délce 60 nt. První panel ukazuje profil ribozomu pocházející ze čtení přiřazených k 5′ konci fragmentů o velikosti 33 v rámci 0. Start a stop kodon jsou označeny, zatímco zbytek oblasti CDS je zbarven světle broskvovou barvou. Algoritmus posune tento profil ribozomu o 3 nt a vypočítá objektivní funkci \(\,T({\rm{\Delta }}|i,S,F)\). Rozsah posunu je posun Δ. Jsou uvedeny hodnoty \(\,T({\rm{\Delta }}|i,S,F)\) pro Δ = 12, 15, 18, 21 nt. V tomto příkladu je průměrný počet čtení na kodon 7,85. Rozdíl mezi dvěma nejvyššími počty, 18 (T = 222) a 15 (T = 215), je menší než průměr. Proto zkontrolujeme sekundární kritérium (Výsledky). Offset 18 splňuje kritérium, že počet čtení v počátečním kodonu je menší než pětina průměru čtení ve druhém, třetím a čtvrtém kodonu a také že počet čtení ve druhém kodonu je větší než čtení ve třetím kodonu. Proto je pro tento transkript optimální offset Δ = 18 nt.

Obrázek 2

Rozdělení velikosti fragmentů mRNA pro soubor dat S. cerevisiae Ribo-Seq od Popa a spolupracovníků (A) a soubor dat Pooled (B).

Naše řešení tohoto problému se opírá o biologický fakt, že u kanonických transkriptů, u nichž nedochází k translaci proti proudu, se místo A aktivně překládajících ribozomů musí nacházet mezi druhým kodonem a stop kodonem CDS17. Proto je optimální hodnota posunu Δ pro fragmenty určité velikosti (S) a čtecího rámce (F) taková, která maximalizuje celkový počet čtení \(\,T({\rm{\Delta }}|i,S,F)\) mezi těmito kodony pro každý gen i, na který jsou fragmenty mapovány. Velikost fragmentu mRNA S se měří v nukleotidech a rámec F má hodnoty 0, 1 nebo 2, jak je definováno startovacím kodonem genu ATG, a odpovídá rámci, ve kterém se nachází 5′ koncový nukleotid fragmentu (obr. 1A). Rámec F na 5′ konci je výsledkem štěpení RNázou a liší se od čtecího rámce ribozomu, který se obvykle překládá v rámci (rámec 0 místa A). Jinými slovy, pro každou kombinaci (S, F) posuneme profil zarovnaných 5′ čtení vždy o 3 nukleotidy (abychom zachovali čtecí rámec F), dokud neurčíme hodnotu ∆, která maximalizuje počet čtení mezi druhým a stop kodonem (obr. 1C, viz další podkapitola). Tento postup provádíme systematicky pro každou velikost fragmentu S a čtecí rámec F zvlášť, protože každý z nich může mít (a my zjistíme, že některé mají) jiné optimum ∆.

Při určování hodnoty Δ′ pro každý gen v našem souboru dat také minimalizujeme výskyt falešně pozitivních výsledků tím, že zajistíme, aby nejvyšší skóre, \(\,T({\rm{\Delta }}^{\prime} |i,S,F)\), je výrazně vyšší než další nejvyšší skóre, \(T({\rm{\Delta }}^{\prime\prime} |i,S,F)\), které se vyskytuje při jiném posunu Δ″. Pokud je rozdíl mezi dvěma nejvyššími skóre menší než průměrný počet čtení na kodon, použijeme následující další kritéria výběru. Pro výběr mezi Δ′ a Δ″ vybereme ten, který dává počet čtení na počátečním kodonu, který je alespoň o pětinu nižší než průměrný počet čtení na druhém, třetím a čtvrtém kodonu. Dále požadujeme, aby druhý kodon měl větší počet čtení než třetí kodon. Biologickým základem těchto dodatečných kritérií je, že skutečný offset (tj. skutečné umístění místa A) se nemůže nacházet na počátečním kodonu a že počet čtení na druhém kodonu by měl být v průměru vyšší než na třetím kodonu v důsledku příspěvků z iniciačního kroku translace, během něhož se ribozom sestavuje na mRNA s počátečním kodonem v místě P. V případě, že se počáteční kodon nachází v místě P, je počet čtení na druhém kodonu vyšší než na třetím kodonu. Níže demonstrujeme, že výsledky naší metody jsou robustní vůči změnám těchto prahových hodnot.

Ilustrace optimalizačního postupu celočíselného programování

Rozložení velikosti fragmentů a rámců fragmentů chráněných ribosomem (obr. 2) u S. cerevisiae nezávisí na genu (doplňkový obr. S2), a proto by ani hodnoty posunu Δ neměly být závislé na genu. Umístění místa A vzhledem k 5′ konci fragmentu o velikosti S a rámci F tedy odpovídá nejpravděpodobnější hodnotě offsetu napříč všemi geny v souboru dat.

Umístění místa A v datech Ribo-Seq S. cerevisiae závisí na velikosti fragmentu a rámci

Na data Ribo-Seq S. cerevisiae publikovaná Popem a spolupracovníky19 jsme nejprve použili metodu Integer Programming. Pro každou kombinaci S a F jsme nejprve identifikovali ty geny, které mají v příslušném profilu ribosomu v průměru alespoň 1 čtení na kodon. Počet genů splňujících toto kritérium je uveden v doplňkové tabulce S1. Na tuto podmnožinu genů jsme pak použili metodu celočíselného programování. Výsledná rozdělení hodnot Δ jsou znázorněna na obr. 3A pro různé kombinace délky fragmentu a rámce. Uvádíme pouze výsledky pro velikosti fragmentů mezi 27 a 33 nt, protože více než 90 % čtení je mapováno v tomto rozsahu (obr. 2A). Nejpravděpodobnější hodnota offsetu pro všechny velikosti fragmentů mezi 20 a 35 nt je uvedena jako tabulka offsetů (Doplňková tabulka S2).

Obrázek 3

Rozdělení hodnot offsetů z algoritmu Integer Programming aplikovaného na transkripty ze S. cerevisiae. Data vynesená v (A) pocházejí ze souboru dat Pop a (B) ze souboru dat Pooled. Rozdělení jsou vynesena jako funkce hodnoty offsetu a pro fragmenty o velikosti 27 až 33 nt jsou zobrazena zleva doprava pro rámce 0, 1 a 2. Pro danou velikost fragmentu a rámec je umístění místa A na nejpravděpodobnější hodnotě Δ v distribuci za předpokladu, že se offset vyskytuje u více než 70 % genů (čárkované čáry v panelech). Chybové úsečky představují 95% intervaly spolehlivosti vypočtené pomocí Bootstrappingu. Velikosti vzorků jsou uvedeny v doplňkové tabulce S1.

Vidíme, že optimální hodnota Δ – tedy umístění místa A – se mění pro různé kombinace S a F, přičemž nejpravděpodobnější hodnoty jsou buď na 15, nebo 18 nt. Umístění místa A tedy závisí na S a F. Ve většině případů je pro danou dvojici hodnot S a F jeden dominantní vrchol. Například pro fragmenty o velikosti 27 až 30 nt v rámci 0 se více než 70 % jejich per-gene optimalizovaných hodnot Δ nachází 15 nt od 5′ konce těchto fragmentů. Podobné výsledky jsou i u dalších kombinací, jako jsou velikosti 30, 31 a 32 nt v rámci 1 a 28 až 32 nt v rámci 2, kde jsou optimalizované hodnoty Δ 18 nt. V celém transkriptomu je tedy pozice kodonu místa A na těchto fragmentech jednoznačně identifikována.

Existují však kombinace S a F, které mají na základě těchto distribucí nejednoznačné umístění místa A. Na základě těchto distribucí je pozice kodonu místa A na těchto fragmentech jednoznačně identifikována. Například u fragmentů o velikosti 27 nt v rámci 1 je 47 % genově optimalizovaných hodnot Δ na 15 nt, zatímco 30 % na 18 nt. Podobné výsledky jsou pozorovány pro fragmenty 28 a 29 nt v rámci 1 a 31 a 32 nt v rámci 0. Pro tyto kombinace S a F tedy existuje podobná pravděpodobnost, že se místo A nachází na tom či onom kodonu, a proto se zdá, že nemůžeme jednoznačně určit umístění místa A. V případě těchto kombinací S a F je pravděpodobnost umístění místa A podobná.

Vyšší pokrytí vede k většímu počtu jedinečných posunů

Předpokládali jsme, že nejednoznačnost při identifikaci místa A pro určité kombinace S a F může být způsobena nízkým pokrytím (tj, špatná statistika výběru vzorků). Abychom tuto hypotézu otestovali, spojili jsme čtení z různých publikovaných souborů dat Ribo-Seq do jednoho souboru dat s následně vyšším pokrytím a větším počtem genů, které splňují naše kritéria výběru (doplňková tabulka S1). Aplikace naší metody na tento Pooled dataset poskytuje unikátní offsety pro více kombinací S a F ve srovnání s původním Pop datasetem (obr. 3B a doplňková tabulka S2), což je v souladu s naší hypotézou. Například pro fragmenty o velikosti 27 a rámec 1 máme nyní jedinečný offset 15 nt se 72 % genově optimalizovaných hodnot Δ na 15 nt (obr. 3B). Stále však vidíme nejednoznačnost přítomnou pro určité kombinace (S, F).

Pro zvýšení pokrytí jsme použili další strategii omezením naší analýzy na geny s větším průměrným počtem čtení na kodon. Pokud je hypotéza správná, pak bychom měli pozorovat statisticky významný trend nárůstu nejpravděpodobnější hodnoty Δ s rostoucí hloubkou čtení. Tuto analýzu jsme aplikovali na soubor sdružených dat a zjistili jsme, že některé původně nejednoznačné kombinace S a F se s rostoucím pokrytím stávají jednoznačnými. Například při průměrné hodnotě 1 čtení na kodon jsou kombinace (S, F) (25, 0), (27, 2) a (30, 1) nejednoznačné, protože spadají pod naši 70% hranici. U fragmentů (25, 0) však vidíme statisticky významný trend (slope = 0,5, p = 3,94 × 10-6), že se 15 nt offset stává pravděpodobnějším při zvyšujícím se pokrytí a nakonec překročí 70% práh (obr. 4A). Podobně u fragmentů (27, 2) (sklon = 0,58, p = 5,77 × 10-5) a (30, 1) (sklon = 0,25, p = 0,009) je patrný trend k posunu o 18 nt, přičemž při nejvyšším pokrytí má tento posun více než 70 % genů (obr. 4B,C). U těchto fragmentů tedy zvyšující se pokrytí jednoznačně identifikuje Δ′, a tedy umístění místa A. U několika kombinací (S, F), jako je (32, 0), není nejednoznačnost vyřešena ani při velmi vysokém pokrytí (obr. 4D), o čemž spekulujeme, že může být způsobeno vrozenými vlastnostmi nukleázového štěpení, které je stejně pravděpodobné pro více než jeden offset.

Obrázek 4

Zvyšující se pokrytí identifikuje umístění místa A pro kombinace S a F, které byly původně nejednoznačné. Vykresleno je procento transkriptů s určitou hodnotou Δ pro různé kombinace S a F ze souboru sdružených dat S. cerevisiae. V každém panelu je vyneseno více rozdělení odpovídajících transkriptům s rostoucím pokrytím, což je uvedeno v legendě dole. Například modrá a červená rozdělení pocházejí z transkriptů s průměrným pokrytím alespoň 1, resp. 2 čtení na kodon. Pozorujeme, že umístění místa A směřuje k 15 nt pro S = 25, F = 0 (A) a k 18 nt pro S = 27, F = 2 (B) a S = 30, F = 1 (C). Pro S = 32, F = 0 (D) není žádný trend ani při vyšším pokrytí. Všimněte si, že pro S = 27, F = 2 (panel B) je méně než 10 genů s průměrem větším než 50 čtení na kodon, a proto neuvádíme datový bod za průměrem větším než 45 čtení na kodon (viz Metody). Chybové úsečky představují 95% intervaly spolehlivosti vypočtené pomocí Bootstrappingu.

Dostatečně vysoké pokrytí dává tabulku optimálního posunu znázorněnou v tabulce 1, kde posun představuje nejpravděpodobnější umístění místa A vzhledem k 5′ konci fragmentů mRNA generovaných v S. cerevisiae.

Tabulka 1 Umístění místa A (odsazení nukleotidů od 5′ konce) určené použitím algoritmu Integer Programming na soubor dat Pooled v S. cerevisiae je znázorněno jako funkce velikosti fragmentu a rámce.

Konzistence napříč různými soubory dat

Data Ribo-Seq jsou citlivá na experimentální protokoly, které mohou vnášet zkreslení do trávení a ligování fragmentů chráněných ribozomem. Sdružování souborů dat nabízí výhodu vyššího pokrytí, ale může zakrýt zkreslení specifická pro jednotlivé soubory dat. Abychom zjistili, zda naše jedinečné posuny (tabulka 1) odpovídají výsledkům z jednotlivých datových sad, použili jsme na každou jednotlivou datovou sadu algoritmus Integer Programming. Většina těchto datových souborů má nízké pokrytí, což má za následek menší počet genů splňujících naše kritéria filtrování (doplňkový soubor S1). Každý jedinečný posun v tabulce 1 klasifikujeme jako konzistentní s individuální datovou sadou za předpokladu, že nejpravděpodobnější posun z individuální datové sady (i když nedosahuje 70% prahové hodnoty kvůli omezením v hloubce pokrytí) je stejný jako v tabulce 1. Zjistili jsme, že naprostá většina jedinečných offsetů (22 z 24) v tabulce 1 je konzistentní v 75 % nebo více jednotlivých datových sadách (statistiky jsou uvedeny v doplňkové tabulce S3). Pouze dvě kombinace (S, F) vykazují časté nesrovnalosti. (S, F) kombinace (27, 1) a (27, 2) jsou nekonzistentní ve 33 % nebo více jednotlivých souborů dat (doplňková tabulka S3). To naznačuje, že výzkumníci, kteří chtějí minimalizovat falešně pozitivní výsledky, by měli tyto kombinace (S, F) při vytváření profilů ribozomů v místě A vyřadit.

Odolnost tabulky offsetů vůči prahové variabilitě

Algoritmus celočíselného programování používá k identifikaci jedinečných offsetů dva prahy. Jedním z nich je, že 70 % genů vykazuje nejpravděpodobnější offset, druhým, určeným k minimalizaci falešně pozitivních výsledků vznikajících v důsledku šumu při vzorkování dat Ribo-Seq, je, že čtení v prvním kodonu musí být menší než jedna pětina průměrného počtu čtení ve druhém, třetím a čtvrtém kodonu. Ačkoli existují dobré důvody pro zavedení těchto prahových kritérií, přesné hodnoty těchto prahů jsou libovolné. Proto jsme testovali, zda změna těchto prahových hodnot změní výsledky uvedené v tabulce 1. První práh jsme měnili na 60 % a 80 % a přepočítali jsme tabulku offsetů. Zda se změnil jedinečný offset, uvádíme uvedením znaku „R“ nebo „S“ (pro robustní, resp. citlivý) vedle uváděného offsetu v doplňkové tabulce S3. Zjistili jsme, že dvě třetiny jedinečných kombinací (S, F) se nezměnily (Doplňková tabulka S3). Kombinace (S, F) (25, 0), (25, 2), (27, 0), (27, 1), (28, 1), (31, 0), (33, 0) a (33, 2) se staly nejednoznačnými, když jsme zvýšili práh na 80 %.

Druhý, výše zmíněný práh jsme měnili od jedné pětiny do jedné a dolů do jedné desetiny a zjistili jsme, že všechny jedinečné kombinace (S, F) kromě (25, 2), (33, 0), (33, 2) a (34, 1) zůstávají nezměněny (v doplňkové tabulce S3 jsou uvedeny jako „R“). Lze tedy shrnout, že v naprosté většině případů závisí jedinečné posuny uvedené v tabulce 1 jen velmi málo na konkrétních hodnotách těchto prahů.

Testování algoritmu celočíselného programování na umělých datech Ribo-Seq

Pro otestování správnosti a robustnosti našeho přístupu jsme vytvořili datovou sadu simulovaných obsazení ribozomů ve 4 487 transkriptech S. cerevisiae a položili jsme si otázku, zda naše metoda dokáže přesně určit umístění míst A. V tabulce 1 jsme uvedli, že v naprosté většině případů jsou unikátní posuny závislé na konkrétních hodnotách těchto prahů. Z těchto obsazení byla generována umělá čtení Ribo-Seq za předpokladu Poissonova rozdělení jejich hodnot (S, F) s použitím náhodných délek stop podobných těm, které byly zjištěny v experimentech (viz Metody a doplňkový obr. S3A, B). Zkoumali jsme schopnost naší metody správně určit skutečné umístění míst A pro čtyři různé sady předem definovaných hodnot posunu (viz Metody). Na výsledná umělá data Ribo-Seq byl poté aplikován algoritmus Integer Programming. Zjistili jsme, že tabulka offsetů vygenerovaná algoritmem reprodukuje použité vstupní offsety (doplňkový obr. S3C a doplňková tabulka S4). Tento postup byl opakován pro různá rozložení délky čtení i s různými vstupními offsety a zjistili jsme, že tabulky offsetů vygenerované naším algoritmem reprodukují tabulky vstupních offsetů ve více než 93 % všech kombinací (S, F) (Doplňkový obr. S3B,C a Doplňkový soubor S2). Metoda identifikuje malý počet nejednoznačných offsetů v důsledku nízkého pokrytí čtení na chvostech distribucí. Zjištění, které dále zdůrazňuje význam pokrytí čtení jako kritického faktoru pro přesnou identifikaci místa A.

A-site offsets in mouse embryonic stem cells

Biologický fakt, že místo A ribozomu se nachází pouze mezi druhým a stop kodonem, není omezen na S. cerevisiae, a proto by algoritmus Integer Programming měl být použitelný pro data Ribo-Seq z jakéhokoli organismu. Proto jsme naši metodu použili na soubor dat Ribo-Seq myších embryonálních kmenových buněk (mESC). Výsledná tabulka posunů míst A vykazovala nejednoznačné posuny u všech kombinací kromě tří (S, F) (doplňková tabulka S5). V mESC dochází k rozsáhlé translační elongaci, která probíhá za hranicemi anotovaných oblastí CDS v otevřených čtecích rámcích (upstream open reading frames, uORF)20 . Obohacení fragmentů chráněných ribozomem z těchto translačních uORF může našemu algoritmu ztížit nalezení jedinečných offsetů, protože mohou přispívat čteními kolem start kodonu kanonických anotovaných CDS. Proto jsme předpokládali, že pokud použijeme náš algoritmus pouze na ty transkripty, které neobsahují uORF a mají jediné iniciační místo, pak by náš algoritmus měl identifikovat více jedinečných offsetů. Ingolia a spolupracovníci11 experimentálně určili u dobře translatovaných transkriptů mESCs jejich počet iniciačních míst a to, zda jsou přítomny uORF. Proto jsme vybrali ty geny, které mají pouze jedno iniciační místo translace v blízkosti anotovaného start kodonu, a dále jsme naši analýzu omezili na transkripty s jednou izoformou, protože více izoforem může mít různá terminační místa.

Aplikace algoritmu Integer Programming na tento soubor genů zvyšuje počet unikátních offsetů ze 3 na 13 (S, F) kombinací (doplňková tabulka S6). Použití stejných testů robustnosti a konzistence, jaké jsme provedli u S. cerevisiae, ukazuje, že 77 % unikátních offsetů je robustních vůči prahové variabilitě a podobné procento je konzistentní v obou jednotlivých souborech dat použitých k vytvoření sdružených dat (Doplňková tabulka S6). Jedinečné offsety, které uvádíme pro mESC, jsou tedy robustní a konzistentní v naprosté většině datových souborů. Tento výsledek také naznačuje, že úspěšná identifikace míst A vyžaduje analýzu pouze těch transkriptů, které neobsahují uORF.

Integer Programming does not yield unique offsets for E. coli

Jako další test, jak široce můžeme náš algoritmus použít, jsme jej aplikovali na data Pooled Ribo-Seq z prokaryotického organismu E. coli. Počet genů splňujících naše filtrační kritéria je uveden v doplňkové tabulce S7. MNáza, nukleáza používaná v protokolu E. coli Ribo-Seq, tráví mRNA zkresleně – upřednostňuje trávení z 5′ konce před 3′ koncem21,22 . Proto jsme stejně jako v jiných studiích21,22,23 použili náš algoritmus tak, že jsme místo A určili jako odsazení od 3′ konce místo od 5′ konce. Polycistronní mRNA (tj. transkripty obsahující více CDS) mohou našemu algoritmu působit problémy, protože těsně od sebe vzdálená čtení na hranicích sousedících CDS jsou hodnocena pro různé posuny v obou CDS. Abychom se vyhnuli nepřesným výsledkům, omezili jsme naši analýzu na 1 915 monocistronických transkriptů, které nemají žádný jiný transkript v okruhu 40 nt před nebo za CDS. Na základě našich zkušeností s analýzou datové sady mESCs odfiltrujeme transkripty s více iniciačními místy translace a také transkripty, jejichž anotovaná iniciační místa byla zpochybněna. Nakahigashi a spolupracovníci24 použili tetracyklin jako inhibitor translace k identifikaci 92 transkriptů v E. coli s odlišnými iniciačními místy od referenční anotace. Tyto transkripty jsme z naší analýzy rovněž vyloučili. U tohoto souboru sdružených dat s vysokým pokrytím však nacházíme nejednoznačné offsety pro všechny kombinace (S, F) (doplňková tabulka S5). Metaanalýza normalizované hustoty ribozomů v CDS a 30 nt oblasti před a za ním odhaluje znaky translace za hranicemi CDS (doplňkový obr. S4), zejména vyšší než průměrné obohacení čtení několik nukleotidů před start kodonem. Předpokládáme, že párování bází sekvence Shine-Dalgarno (SD) s komplementární sekvencí anti-SD v 16S rRNA25 chrání těchto několik nukleotidů před start kodonem před trávením ribonukleázou, a proto dochází k obohacení čtení Ribo-Seq. Protože tyto „pseudo“ fragmenty chráněné ribozomem nelze odlišit od skutečných fragmentů chráněných ribozomem, které obsahují kodon s místem A ribozomu, je použití našeho algoritmu pro tato data omezené.

Reprodukce známých motivů PPX a XPP, které vedou ke zpomalení translace

V S. cerevisiae26 a E. coli21,27 mohou některé polypeptidové motivy PPX a XPP (v nichž X odpovídá kterékoli z 20 aminokyselin) zdržovat ribozomy, pokud se třetí zbytek nachází v místě A. V případě, že se třetí zbytek nachází v místě A, může dojít ke zpomalení translace. Elongační faktory eIF5A (v S. cerevisiae) a EF-P (v E. coli) pomáhají zmírnit zdržení vyvolané některými motivy, ale ne jinými26. Dokonce i v mESC Ingolia a spol.11 zjistili PPD a PPE jako silné pauzovací motivy. Proto jsme zkoumali, zda náš přístup dokáže reprodukovat známé zastavovací motivy. Učinili jsme tak výpočtem normalizované hustoty čtení při různých výskytech motivu PPX a XPP.

V S. cerevisiae jsme pozorovali velké hustoty ribozomů při PPG, PPD, PPE a PPN (obr. 5A), které byly všechny klasifikovány jako silné pauzovací motivy v S. cerevisiae26 a také v E. coli27. Naproti tomu u PPP v průměru nedochází k žádnému stallingu, což je v souladu s jinými studiemi26. To je pravděpodobně způsobeno působením eIF5A. U motivů XPP bylo nejsilnější zastavení pozorováno u motivů GPP a DPP, což je v souladu s výsledky v S. cerevisiae a v E. coli (obr. 5B). U mESCs pozorujeme nejsilnější zastavení u PPE a PPD, což reprodukuje výsledky Ingolia a spolupracovníků11 (doplňkový obr. S5A). U motivů XPP jsme pozorovali velmi slabé zastavení pouze u DPP (doplňkový obr. S5B). Náš přístup k mapování místa A na otiscích ribozomů tedy umožňuje přesnou detekci zavedené translační pauzy u konkrétních motivů PPX a XPP nascentních polypeptidů.

Obr. 5

Několik motivů PPX a XPP vede u S. cerevisiae k ribozomálnímu zastavení. Medián normalizované hustoty ribozomů je získán pro všechny případy (A) motivů PPX a (B) motivů XPP, v nichž X odpovídá některé z 20 přirozeně se vyskytujících aminokyselin. Pomocí permutačního testu určíme, zda je medián hustoty ribozomů statisticky významný, nebo se vyskytuje náhodně. Statisticky významné motivy jsou zvýrazněny tmavě červeně. Tato analýza byla provedena na souboru dat Pop pro transkripty, u nichž bylo mapováno alespoň 50 % kodonových pozic. Chybové úsečky jsou 95% konfidenční intervaly pro medián získané pomocí Bootstrappingu.

Studie dat Ribo-Seq savčích buněk28 pozorovala sekvenčně nezávislou translační pauzu v případě, že se 5. kodon transkriptu nachází v P-místě. Tato postiniciační pauza byla pozorována také ve studii syntézy polyfenylalaninu in vitro, kde bylo pozorováno zastavení, když se 4. kodon nacházel v místě P29. U profilů v místě A získaných pomocí našich offsetových tabulek pro S. cerevisiae a mESC; tyto pauzy pozorujeme také tehdy, když se 4. i 5. kodon nachází v místě P (doplňkový obr. S6).

Větší přesnost umístění A-situ než jiné metody

Neexistuje žádná nezávislá experimentální metoda, která by ověřila přesnost identifikovaných umístění A-situ pomocí naší metody nebo jiné metody4,5,6,7,8,9,10,12,30,31,32,33,34,35 . Tvrdíme, že dobře zavedené pozastavení ribozomu na konkrétních sekvenčních motivech PPX je nejlepším dostupným prostředkem k rozlišení přesnosti stávajících metod. Důvodem je skutečnost, že tyto zastavovací motivy byly identifikovány u E. coli36,37 a S. cerevisiae38 pomocí ortogonálních experimentálních metod (včetně enzymologických studií a tisku prstů) a je známo, že přesné umístění místa A při takovém zpomalení je na kodonu kódujícím třetí zbytek motivu36. Nejpřesnější metoda identifikace místa A bude tedy ta, která nejčastěji přiřadí větší hustotu ribozomu X při každém výskytu motivu PPX.

Tento test jsme aplikovali na nejsilnější zpomalovací motivy PPX, tj. na PPG u S. cerevisiae a PPE u mESC. V S. cerevisiae dává metoda Integer Programming největší hustotu ribozomů na glycinovém kodonu motivu PPG, když se aplikuje na soubory dat Pooled (obr. 6A) i Pop (doplňkový obr. S7A). Při zkoumání jednotlivých výskytů motivu PPG v našem souboru genů jsme zjistili, že ve většině případů naše metoda přiřazuje větší hustotu ribozomů na glycin než každá jiná metoda při aplikaci jak na Pooled (obr. 6B, Wilcoxonův signed-rank test (n = 224), P < 0.0005 pro všechny metody s výjimkou Hussmannovy (P = 0,164)) i souboru Pop (doplňkový obr. S7B, Wilcoxonův signed-rank test (n = 35), P < 10-5 pro všechny metody s výjimkou Hussmannovy (P = 0,026) a Ribodeblurovy (P = 0,01)). Stejné analýzy aplikované na mESC u motivů PPE ukazují, že naše metoda překonává ostatních devět metod (obr. 6C,D), přičemž naše metoda přiřazuje větší hustotu ribozomů u kyseliny glutamové pro nejméně 85 % motivů PPE v našem souboru dat ve srovnání se všemi ostatními metodami (obr. 6D, Wilcoxon signed-rank test (n = 104), P < 10-15 pro všechny metody). Pro S. cerevisiae a mESC je tedy náš přístup Integer Programming při identifikaci místa A na fragmentech chráněných ribozomem přesnější než ostatní metody.

Obrázek 6

Algoritmus Integer Programming správně přiřazuje větší hustotu ribozomu než ostatní metody glycinu v PPG motivech u S. cerevisiae a kyselině glutamové v PPE motivech u mESC. (A) Normalizovaná hustota ribozomů získaná pomocí různých metod použitých k identifikaci místa A je zobrazena pro případ motivu PPG v genu YLR375W s G na pozici kodonu 303 v souboru sdružených dat S. cerevisiae (v legendě je uvedena metoda a veškeré podrobnosti o každé metodě lze nalézt v části Metody). (B) Podíl případů PPG (n = 224), u nichž metoda Integer Programming poskytuje větší hustotu ribozomů na glycinu ve srovnání s každou jinou metodou. Barevné označení je stejné jako v legendě v panelu (A). Naše metoda si vede lépe, pokud přiřazuje větší hustotu ribozomů ve více než polovině případů (vodorovná čára v panelu B). Metoda Integer Programming si vede lépe než všechny ostatní metody (P < 0,0005) s výjimkou Hussmannovy metody, která se statisticky neliší (P = 0,164). (C) Normalizovaná hustota ribozomů je zobrazena pro instanci motivu PPE v genu uc007zma.1 s E na pozici kodonu 127 v souboru sdružených dat myších ESC (podrobnosti o metodách viz Legenda a hlavní text). (D) Podíl instancí PPE, u nichž metoda Integer Programming poskytuje větší hustotu ribozomů u glutamátové kyseliny ve srovnání s každou jinou metodou. Barevné označení je stejné, jako je uvedeno v legendě panelu (C). Metoda Integer Programming si vede lépe než všechny ostatní metody (P < 10-15) při přesném přiřazení hustoty ribozomů ke glutamové kyselině v motivech PPE (n = 104). Pro analýzy uvedené v bodech (B) a (D) byly vypočteny oboustranné p-hodnoty pomocí Wilcoxonova podepsaného rank testu. Chybové úsečky představují 95% konfidenční interval kolem mediánu vypočtený pomocí Bootstrappingu.

Rychlost translace kodonů a hustotu ribozomů podél transkriptů ovlivňuje velké množství molekulárních faktorů39. Jedním z faktorů je koncentrace kognitivní tRNA, protože kodony dekódované kognitivní tRNA s vyšší koncentrací by měly mít v průměru nižší hustotu ribozomů15,16,40. Proto jako další kvalitativní test očekáváme, že nejpřesnější metoda místa A poskytne největší antikorelaci mezi hustotou ribozomů u kodonu a koncentrací jeho kognátní tRNA. Tento test je pouze kvalitativní, protože korelace mezi hustotou ribosomu na kodonu a koncentrací kognátní tRNA může být ovlivněna dalšími faktory, včetně použití kodonu a opětovného použití nabitých tRNA v blízkosti ribosomu41,42 . Při použití abundancí tRNA dříve odhadnutých z experimentů RNA-Seq na S. cerevisiae16 jsme zjistili, že naše metoda Integer Programming poskytuje největší antikorelaci ve srovnání s jedenácti dalšími uvažovanými metodami (doplňková tabulka S8), což dále podporuje přesnost naší metody. Tento test jsme nemohli provést v mESC, protože měření koncentrace tRNA nebylo v literatuře zaznamenáno

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.