Identificarea locațiilor situsurilor A și P pe fragmente de ARNm protejate de ribozom folosind programarea în numere întregi

Algoritm de programare în numere întregi

În analiza datelor Ribo-Seq, fragmentele de ARNm sunt inițial aliniate la transcriptomul de referință și locația lor este raportată în raport cu capătul lor 5′. Aceasta înseamnă că un fragment va contribui cu o citire care este raportată la coordonata genomului la care este aliniat nucleotidul de la capătul 5′ al fragmentului (Fig. 1A). În datele Ribo-Seq, se observă fragmente de diferite lungimi care pot rezulta din digestia incompletă a ARN și din natura stocastică a clivajului ARNm de către RNaza utilizată în experiment (Fig. 2, Fig. Suplimentară S1). O provocare centrală în analiza cantitativă a datelor Ribo-Seq este de a identifica din aceste lecturi Ribo-Seq unde au fost localizați situsurile A și P în momentul digestiei. Acest lucru nu este trivial, deoarece digestia incompletă și scindarea stocastică pot avea loc la ambele capete ale fragmentului. De exemplu, digestia ARNm care are ca rezultat un fragment de 29 nt poate avea loc în diferite moduri, dintre care două sunt ilustrate în figura 1B. Cantitatea pe care trebuie să o estimăm cu exactitate este numărul de nucleotide care separă codonul din situsul A de capătul 5′ al fragmentului, pe care îl numim offset și îl notăm Δ. Cunoașterea lui Δ determină poziția situsului A, precum și a situsului P, deoarece situsul P se va afla întotdeauna la Δ minus 3 nt.

Figura 1

Locația situsului A poate fi definită ca un decalaj față de capătul 5′ al fragmentelor protejate de ribozom. (A) Reprezentarea schematică a unui ribozom în translație (desenul de sus) și a decalajului ∆ între citirile Ribo-Seq cartografiate în raport cu capătul 5′ al amprentelor și centrate pe situsul A (bare albastre). Ribosomul este reprezentat protejând un fragment de 28 nt cu capătul său 5′ în cadrul de citire 0, așa cum este definit de la codonul de start ATG al genei. Sunt indicate situsurile E, P și A din cadrul ribozomului. Lecturile sunt apoi deplasate de la capătul 5′ la situsul A cu valoarea de decalaj ∆. (B) Digestia nucleazei stocastică poate avea ca rezultat fragmente diferite. Cele două variante cele mai probabile ale unei amprente de 29 nt cu capătul 5′ în cadrul 1 sunt prezentate cu limitele lor cartografiate prin linii punctate care se aliniază la genom, ceea ce poate duce la decalaje de 15 nt (sus) și, respectiv, 18 nt (jos). (C) Pentru a ilustra aplicarea algoritmului de programare cu numere întregi, luați în considerare un transcript ipotetic care are o lungime de 60 nt. Primul panou prezintă profilul ribozomului care provine din citirile atribuite la capătul 5′ al fragmentelor de dimensiunea 33 din cadrul 0. Codonul de început și cel de oprire sunt indicate, în timp ce restul regiunii CDS este colorat în culoarea piersicii deschise. Algoritmul deplasează acest profil de ribozom cu 3 nt și calculează funcția obiectiv \(\,T({\rm{\Delta }}|i,S,F)\). Amplitudinea deplasării este decalajul Δ. Sunt indicate valorile lui \(\,T({\rm{\Delta }}|i,S,F)\) pentru Δ = 12, 15, 18, 21 nts. În acest exemplu, numărul mediu de citiri pe codon este de 7,85. Diferența dintre primele două decalaje, 18 (T = 222) și 15 (T = 215), este mai mică decât media. Prin urmare, verificăm criteriul secundar (Rezultate). Offsetul 18 îndeplinește criteriul conform căruia numărul de citiri din codonul de început este mai mic decât o cincime din media citirilor din al doilea, al treilea și al patrulea codon și, de asemenea, numărul de citiri din al doilea codon este mai mare decât cel din al treilea codon. Prin urmare, Δ = 18 nt este decalajul optim pentru acest transcript.

Figura 2

Distribuția dimensiunii fragmentelor de ARNm pentru setul de date Ribo-Seq din S. cerevisiae de la Pop și colaboratorii (A) și setul de date Pooled (B).

Soluția noastră la această problemă se bazează pe faptul biologic că pentru transcriptele canonice, fără traducere în amonte, situsul A al ribozomilor în traducere activă trebuie să fie situat între al doilea codon și codonul de oprire al CDS17. Prin urmare, valoarea optimă a decalajului Δ pentru fragmente de o anumită dimensiune (S) și cadru de citire (F) este cea care maximizează numărul total de citiri \(\,T({\rm{\Delta }}|i,S,F)\) între acești codoni pentru fiecare genă i pe care se află fragmentele. Dimensiunea unui fragment de ARNm S se măsoară în nucleotide, iar cadrul F are valorile 0, 1 sau 2, așa cum este definit de codonul de început al genei ATG și corespunde cadrului în care se află nucleotidul de capăt 5′ al fragmentului (Fig. 1A). Cadrul F de la capătul 5′ este rezultatul digestiei RNazei și este distinct de cadrul de citire al ribozomului care traduce de obicei în cadru (cadrul 0 al situsului A). Cu alte cuvinte, pentru fiecare combinație de (S, F), deplasăm profilul de citire aliniat 5′ cu câte 3 nucleotide (pentru a păstra cadrul de citire F) până când identificăm valoarea ∆ care maximizează citirile între al doilea codon și codonul de oprire (Fig. 1C, a se vedea următoarea subsecțiune). Această procedură se efectuează în mod sistematic pentru fiecare dimensiune a fragmentului S și cadru de citire F în parte, deoarece fiecare poate avea (și am constatat că unele au) un ∆ optim diferit.

În timp ce identificăm valoarea Δ′ pentru fiecare genă din setul nostru de date, minimizăm, de asemenea, apariția de rezultate fals pozitive, asigurându-ne că cel mai mare scor, \(\,T({\rm{\Delta }}^{\prime} |i,S,F)\), este semnificativ mai mare decât următorul scor cel mai mare, \(T({\rm{\Delta }}^{\prime\prime} |i,S,F)\), care apare la un alt decalaj Δ″. În cazul în care diferența dintre cele două scoruri superioare este mai mică decât numărul mediu de citiri pe codon, aplicăm următoarele criterii de selecție suplimentare. Pentru a alege între Δ′ și Δ″, îl selectăm pe cel care generează un număr de citiri la nivelul codonului inițial care este cu cel puțin o cincime mai mic decât numărul mediu de citiri la al doilea, al treilea și al patrulea codon. De asemenea, solicităm ca al doilea codon să aibă un număr mai mare de citiri decât al treilea codon. Baza biologică pentru aceste criterii suplimentare este că adevăratul decalaj (adică locația reală a situsului A) nu poate fi localizat la nivelul codonului inițial și că numărul de citiri la cel de-al doilea codon ar trebui să fie în medie mai mare decât la cel de-al treilea codon datorită contribuțiilor din etapa de inițiere a traducerii, în timpul căreia ribozomul se asamblează pe ARNm cu codonul inițial în situsul P. Mai jos, demonstrăm că rezultatele metodei noastre sunt robuste la modificări ale acestor praguri.

Ilustrarea procedurii de optimizare prin programare întreagă

Distribuția dimensiunilor fragmentelor și a cadrelor fragmentelor protejate de ribozom (Fig. 2) în S. cerevisiae nu depinde de genă (Fig. Suplimentară S2) și, prin urmare, nici valorile offset Δ nu ar trebui să depindă de genă. Astfel, locația situsului A, în raport cu capătul 5′ al unui fragment de mărime S și cadru F, corespunde celei mai probabile valori a decalajului în toate genele din setul de date.

Locațiile situsului A în datele Ribo-Seq din S. cerevisiae sunt dependente de mărimea fragmentului și de cadru

Am aplicat mai întâi metoda de programare cu numere întregi la datele Ribo-Seq din S. cerevisiae publicate de Pop și colaboratorii19. Pentru fiecare combinație de S și F, am identificat mai întâi acele gene care au în medie cel puțin 1 citire pe codon în profilul ribozomului corespunzător. Numărul de gene care îndeplinesc acest criteriu este raportat în tabelul suplimentar S1. Am aplicat apoi metoda de programare în numere întregi la acest subset de gene. Distribuțiile rezultate ale valorilor Δ sunt prezentate în Fig. 3A pentru diferite combinații de lungime a fragmentului și cadru. Prezentăm doar rezultatele pentru dimensiunile fragmentelor cuprinse între 27 și 33 nt, deoarece mai mult de 90 % din lecturi se încadrează în acest interval (Fig. 2A). Cea mai probabilă valoare de decalaj pentru toate dimensiunile fragmentelor cuprinse între 20 și 35 nt este raportată sub forma unui tabel de decalaj (tabelul suplimentar S2).

Figura 3

Distribuția valorilor de decalaj din algoritmul de programare cu numere întregi aplicat la transcripții din S. cerevisiae. Datele reprezentate în (A) provin din setul de date Pop, iar (B) din setul de date Pooled. Distribuțiile sunt reprezentate ca o funcție a valorii de decalaj și, pentru dimensiuni ale fragmentelor cuprinse între 27 și 33 nt, sunt prezentate, de la stânga la dreapta, pentru cadrele 0, 1 și 2. Pentru o anumită dimensiune a fragmentului și un cadru dat, locația situsului A se află la cea mai probabilă valoare Δ din distribuție, cu condiția ca decalajul să apară pentru mai mult de 70 % din gene (linii punctate în panouri). Barele de eroare reprezintă intervale de încredere de 95% calculate folosind Bootstrapping. Dimensiunile eșantioanelor sunt raportate în tabelul suplimentar S1.

Vezi că valoarea optimă Δ – adică locația situsului A – se schimbă pentru diferite combinații de S și F, cu cele mai probabile valori fie la 15, fie la 18 nt. Astfel, localizarea situsului A depinde de S și F. În majoritatea cazurilor, există un singur vârf dominant pentru o anumită pereche de valori S și F. De exemplu, pentru fragmentele de dimensiuni cuprinse între 27 și 30 nt din cadrul 0, mai mult de 70 % din valorile Δ optimizate per genă se află la 15 nt de la capătul 5′ al acestor fragmente. Rezultate similare sunt găsite pentru alte combinații, cum ar fi dimensiunile 30, 31 și 32 nt în cadrul 1 și 28 până la 32 nt în cadrul 2, unde valorile Δ optimizate sunt de 18 nt. Astfel, în tot transcriptomul, poziția codonului de situs A pe aceste fragmente este identificată în mod unic.

Există, totuși, combinații S și F care au poziții ambigue ale situsului A pe baza acestor distribuții. De exemplu, pentru fragmentele cu dimensiunea de 27 nt din cadrul 1, 47% din valorile Δ optimizate genetic sunt la 15 nt, în timp ce 30% sunt la 18 nt. Rezultate similare sunt observate pentru fragmentele 28 și 29 nt în cadrul 1 și 31 și 32 nt în cadrul 0. Astfel, pentru aceste combinații S și F există o probabilitate similară ca situsul A să fie localizat la un codon sau altul și, prin urmare, s-ar părea că nu putem identifica în mod unic locația situsului A.

O acoperire mai mare duce la mai multe deplasări unice

Am emis ipoteza că ambiguitatea în identificarea situsului A pentru anumite combinații S și F se poate datora unei acoperiri scăzute (de ex, statistici de eșantionare slabe). Pentru a testa această ipoteză, am reunit citirile din diferite seturi de date Ribo-Seq publicate într-un singur set de date cu o acoperire în consecință mai mare și mai multe gene care îndeplinesc criteriile noastre de selecție (tabelul suplimentar S1). Aplicarea metodei noastre la acest set de date Pooled oferă decalaje unice pentru mai multe combinații S și F în comparație cu setul de date Pop original (Fig. 3B și tabelul suplimentar S2), în concordanță cu ipoteza noastră. De exemplu, pentru fragmentele cu dimensiunea 27 și cadrul 1, avem acum decalajul unic de 15 nt, cu 72 % din valorile Δ optimizate pentru gene la 15 nt (Fig. 3B). Cu toate acestea, observăm încă ambiguitatea prezentă pentru anumite combinații (S, F).

Am utilizat o strategie suplimentară pentru a crește acoperirea prin limitarea analizei noastre la genele cu o medie mai mare de citiri pe codon. Dacă ipoteza este corectă, atunci ar trebui să observăm o tendință semnificativă din punct de vedere statistic de creștere a celei mai probabile valori Δ odată cu creșterea adâncimii de citire. Am aplicat această analiză la setul de date Pooled și am constatat că unele combinații S și F inițial ambigue devin neambigue pe măsură ce crește acoperirea. De exemplu, la o medie de 1 citire pe codon, combinațiile (S, F) de (25, 0), (27, 2) și (30, 1) sunt ambigue, deoarece se situează sub pragul nostru de 70 %. Cu toate acestea, observăm o tendință semnificativă din punct de vedere statistic (pantă = 0,5, p = 3,94 × 10-6) pentru fragmente de (25, 0), conform căreia decalajul de 15 nt devine mai probabil odată cu creșterea acoperirii, depășind în cele din urmă pragul de 70 % (Fig. 4A). În mod similar, pentru (27, 2) (pantă = 0,58, p = 5,77 × 10-5) și (30, 1) (pantă = 0,25, p = 0,009) există o tendință către un decalaj de 18 nt, mai mult de 70 % din gene având acest decalaj la cea mai mare acoperire (Fig. 4B,C). Prin urmare, pentru aceste fragmente, creșterea acoperirii identifică în mod unic Δ′ și, prin urmare, localizarea situsului A. Pentru câteva combinații de (S, F), cum ar fi (32, 0), ambiguitatea nu este rezolvată nici măcar la o acoperire foarte mare (Fig. 4D), ceea ce speculăm că se poate datora caracteristicilor inerente ale digestiei nucleazei, fiind la fel de probabil pentru mai mult de un decalaj.

Figura 4

Creșterea acoperirii identifică locațiile situsului A pentru combinațiile S și F care au fost inițial ambigue. Este reprezentat grafic procentul de transcripte cu o anumită valoare Δ pentru diferite combinații S și F din setul de date Pooled din S. cerevisiae. În fiecare panou, sunt reprezentate mai multe distribuții care corespund transcriptelor cu acoperire crescândă, indicate de legenda din partea de jos. De exemplu, distribuțiile de culoare albastră și roșie provin de la transcripte cu, în medie, cel puțin 1, respectiv 2 citiri pe codon. Observăm că locația situsului A tinde spre 15 nt pentru S = 25, F = 0 (A) și spre 18 nt pentru S = 27, F = 2 (B) și S = 30, F = 1 (C). Pentru S = 32, F = 0 (D), nu există nicio tendință chiar și la o acoperire mai mare. Rețineți că pentru S = 27, F = 2 (panoul B), există mai puțin de 10 gene cu o medie mai mare de 50 de citiri pe codon și, prin urmare, nu includem punctul de date dincolo de media mai mare de 45 de citiri pe codon (a se vedea Metode). Barele de eroare reprezintă intervale de încredere de 95% calculate folosind Bootstrapping.

Așa, o acoperire suficient de mare produce tabelul de decalaj optim reprezentat în tabelul 1, unde decalajul este cea mai probabilă locație a situsului A în raport cu capătul 5′ al fragmentelor de ARNm generate în S. cerevisiae.

Tabelul 1 Locațiile situsului A (decalajele nucleotidelor față de capătul 5′) determinate prin aplicarea algoritmului de programare în numere întregi la setul de date Pooled în S. cerevisiae sunt prezentate în funcție de dimensiunea și cadrul fragmentului.

Consistența între diferite seturi de date

Datele Ribo-Seq sunt sensibile la protocoalele experimentale care pot introduce distorsiuni în digestia și ligatura fragmentelor protejate de ribozom. Punerea în comun a seturilor de date oferă avantajul unei acoperiri mai mari, dar poate masca prejudecățile specifice unui set de date individual. Pentru a determina dacă decalajele noastre unice (tabelul 1) sunt în concordanță cu rezultatele din seturile de date individuale, am aplicat algoritmul de programare cu numere întregi la fiecare set de date individual. Cele mai multe dintre aceste seturi de date au o acoperire scăzută, ceea ce duce la mai puține gene care îndeplinesc criteriile noastre de filtrare (Fișier suplimentar S1). Pentru fiecare decalaj unic din tabelul 1, îl clasificăm ca fiind în concordanță cu un set de date individual, cu condiția ca cel mai probabil decalaj din setul de date individual (chiar dacă nu atinge pragul de 70 % din cauza limitărilor în ceea ce privește profunzimea acoperirii) să fie același cu cel din tabelul 1. Am constatat că marea majoritate a decalajelor unice (22 din 24) din tabelul 1 sunt consecvente în 75 % sau mai mult din seturile de date individuale (statisticile sunt raportate în tabelul suplimentar S3). Doar două combinații (S, F) prezintă inconsecvențe frecvente. (S, F) combinațiile (27, 1) și (27, 2) sunt inconsecvente în 33% sau mai multe dintre seturile de date individuale (tabelul suplimentar S3). Acest lucru sugerează că cercetătorii care doresc să reducă la minimum falsurile pozitive ar trebui să înlăture aceste combinații (S, F) atunci când creează profiluri de ribozomi de situs A.

Robustețea tabelului de offset la variația pragurilor

Argitmul de programare în numere întregi utilizează două praguri pentru a identifica offset-urile unice. Unul este ca 70% din gene să prezinte cel mai probabil offset, iar celălalt, conceput pentru a minimiza falsurile pozitive care apar din cauza zgomotului de eșantionare în datele Ribo-Seq, este ca citirile din primul codon să fie mai mici de o cincime din media citirilor din al doilea, al treilea și al patrulea codon. Deși există motive întemeiate pentru a introduce aceste criterii de prag, valorile exacte ale acestor praguri sunt arbitrare. Prin urmare, am testat dacă variația acestor praguri modifică rezultatele raportate în tabelul 1. Am variat primul prag la 60% și 80% și am recalculat tabelul de compensare. Raportăm dacă offsetul unic s-a modificat prin enumerarea unui „R” sau „S” (pentru robust și, respectiv, sensibil) alături de offsetul raportat în tabelul suplimentar S3. Am constatat că două treimi dintre combinațiile unice (S, F) nu se schimbă (Tabelul suplimentar S3). Combinațiile (S, F) (25, 0), (25, 2), (27, 0), (27, 1), (28, 1), (31, 0), (33, 0) și (33, 2) devin ambigue atunci când am crescut pragul la 80%.

Am variat cel de-al doilea prag, menționat anterior, de la o cincime până la unu și până la o zecime, și am constatat că toate combinațiile unice (S, F), cu excepția (25, 2), (33, 0), (33, 2) și (34, 1) rămân neschimbate (raportate ca „R” în tabelul suplimentar S3). Astfel, în rezumat, în marea majoritate a cazurilor, decalajele unice raportate în Tabelul 1 depind foarte puțin de valorile specifice ale acestor praguri.

Testarea algoritmului de programare cu numere întregi pe date artificiale Ribo-Seq

Pentru a testa corectitudinea și robustețea abordării noastre, am generat un set de date de ocupări simulate ale ribozomului în 4.487 de transcripte S. cerevisiae și am întrebat dacă metoda noastră poate determina cu precizie locațiile situsului A. Lecturi Ribo-Seq artificiale au fost generate din aceste ocupări presupunând o distribuție Poissoniană în valorile lor (S, F) folosind lungimi aleatoare ale amprentelor similare cu cele găsite în experimente (a se vedea Metode și Fig. Suplimentară S3A, B). Am investigat capacitatea metodei noastre de a determina corect adevăratele locații ale situsului A pentru patru seturi diferite de valori de decalaj prestabilite (a se vedea Metode). Algoritmul de programare în numere întregi a fost apoi aplicat la datele Ribo-Seq artificiale rezultate. Am constatat că tabelul de decalaje generat de algoritm reproduce decalajele de intrare utilizate (figura suplimentară S3C și tabelul suplimentar S4). Această procedură a fost repetată pentru diferite distribuții ale lungimilor de citire, precum și cu diferite decalaje de intrare și am constatat că tabelele de decalaj generate de algoritmul nostru reproduc tabelele de decalaj de intrare în mai mult de 93 % din toate combinațiile (S, F) (Fig. suplimentară S3B,C și fișierul suplimentar S2). Metoda identifică un număr mic de decalaje ambigue din cauza acoperirii scăzute a citirilor la cozile distribuțiilor. O constatare care subliniază și mai mult importanța acoperirii citirilor ca factor critic în identificarea precisă a situsului A.

A-site offsets in mouse embryonic stem cells

Faptul biologic că situsul A al unui ribozom rezidă numai între al doilea codon și cel de oprire nu se limitează la S. cerevisiae și, prin urmare, algoritmul de programare întreagă ar trebui să fie aplicabil datelor Ribo-Seq din orice organism. Prin urmare, am aplicat metoda noastră la un set de date Pooled Ribo-Seq de celule stem embrionare de șoarece (mESCs). Tabelul de decalaj al situsului A rezultat a prezentat decalaje ambigue la toate combinațiile, cu excepția a trei (S, F) (tabelul suplimentar S5). În mESCs există o alungire extinsă a traducerii care are loc dincolo de limitele regiunilor CDS adnotate în cadrele de citire deschise din amonte (uORFs)20. Îmbogățirea fragmentelor protejate de ribozom din aceste uORF-uri de traducere poate îngreuna găsirea de către algoritmul nostru a unor offsets unice, deoarece acestea pot contribui cu lecturi în jurul codonului de început al CDS-urilor canonice notate. Prin urmare, am emis ipoteza că, dacă aplicăm algoritmul nostru numai la acele transcripte lipsite de uORF-uri și care posedă un singur situs de inițiere, atunci algoritmul nostru ar trebui să identifice mai multe decalaje unice. Ingolia și colaboratorii11 au identificat experimental numărul de situsuri de inițiere pentru transcriptele bine traduse ale mESCs și dacă sunt prezente sau nu uORF-uri. Prin urmare, am selectat acele gene care au doar un singur situs de inițiere a traducerii în apropierea codonului de start adnotat și am restrâns în continuare analiza noastră la transcripții cu o singură izoformă, deoarece izoformele multiple pot avea situsuri de terminare diferite.

Aplicarea algoritmului de programare în numere întregi la acest set de gene mărește numărul de combinații unice de la 3 la 13 (S, F) combinații (S, F) (tabelul suplimentar S6). Aplicarea acelorași teste de robustețe și consecvență ca și în cazul S. cerevisiae relevă faptul că 77% din combinațiile unice sunt robuste la variația pragului, iar un procent similar este consecvent în ambele seturi de date individuale utilizate pentru a crea datele Pooled (tabelul suplimentar S6). Astfel, valorile unice pe care le raportăm pentru mESCs sunt robuste și consecvente în marea majoritate a seturilor de date. Acest rezultat indică, de asemenea, faptul că identificarea cu succes a locațiilor situsului A necesită analizarea numai a acelor transcripte care nu conțin uORF-uri.

Programarea cu numere întregi nu produce decalaje unice pentru E. coli

Ca un test suplimentar pentru a verifica cât de larg putem aplica algoritmul nostru, l-am aplicat la un Pooled Ribo-Seq data din organismul procariot E coli. Numărul de gene care îndeplinesc criteriile noastre de filtrare este raportat în tabelul suplimentar S7. MNase, nucleaza utilizată în protocolul Ribo-Seq din E. coli, digeră ARNm într-o manieră părtinitoare – favorizând digestia de la capătul 5′ în detrimentul capătului 3′21,22. Prin urmare, așa cum s-a procedat în alte studii21,22,23, am aplicat algoritmul nostru astfel încât am identificat locația situsului A ca fiind decalajul de la capătul 3′ în loc de capătul 5′. ARNm policistronici (adică transcripții care conțin mai multe CDS) pot cauza probleme pentru algoritmul nostru din cauza citirilor foarte apropiate la limitele CDS-urilor contigue care sunt marcate pentru decalaje diferite în ambele CDS-uri. Pentru a evita rezultatele inexacte, ne limităm analiza noastră la cele 1 915 transcripte monocistronice care nu au niciun alt transcris în limita a 40 nt în amonte sau în aval de CDS. Pe baza experienței noastre în analiza setului de date mESCs, filtrăm transcriptele cu mai multe situsuri de inițiere a traducerii, precum și transcriptele ale căror situsuri de inițiere adnotate au fost contestate. Nakahigashi și colaboratorii24 au utilizat tetraciclina ca inhibitor de traducere pentru a identifica 92 de transcripte în E. coli cu situsuri de inițiere diferite de cele din adnotarea de referință. Am exclus și aceste transcripte din analiza noastră. Cu toate acestea, pentru acest set de date grupate cu acoperire ridicată, găsim decalaje ambigue pentru toate combinațiile (S, F) (tabelul suplimentar S5). O analiză meta-genetică a densității normalizate a ribozomilor în CDS și în regiunea de 30 nt în amonte și în aval relevă semnături de traducere dincolo de limitele CDS (Fig. Suplimentară S4), în special o îmbogățire mai mare decât media a citirilor cu câteva nucleotide înainte de codonul de început. Presupunem că împerecherea bazelor secvenței Shine-Dalgarno (SD) cu secvența complementară anti-SD din 16S ARNr25 protejează aceste câteva nucleotide de dinaintea codonului de start de digestia ribonucleazei și, prin urmare, duce la o îmbogățire a citirilor Ribo-Seq. Deoarece aceste fragmente „pseudo” protejate de ribozom nu pot fi diferențiate de fragmentele reale protejate de ribozom care conțin un codon cu situsul A al ribozomului, algoritmul nostru este limitat în aplicarea sa pentru aceste date.

Reproducerea motivelor PPX și XPP cunoscute care conduc la încetinirea traducerii

În S. cerevisiae26 și E. coli21,27 anumite motive polipeptidice PPX și XPP (în care X corespunde oricăruia dintre cei 20 de aminoacizi) pot bloca ribozomii atunci când a treia reziduu se află în situsul A. Factorii de alungire eIF5A (în S. cerevisiae) și EF-P (în E. coli) contribuie la reducerea blocajului indus de anumite motive, dar nu și de altele26. Chiar și în mESCs, Ingolia și colaboratorii11 au detectat PPD și PPE ca motive puternice de pauză. Prin urmare, am examinat dacă abordarea noastră poate reproduce motivele de împotmolire cunoscute. Am făcut acest lucru prin calcularea densității de citire normalizate la diferitele apariții ale unui motiv PPX și XPP.

În S. cerevisiae, am observat densități mari de ribozomi la PPG, PPD, PPE și PPN (Fig. 5A), toate acestea fiind clasificate ca fiind motive puternice de stagnare în S. cerevisiae26 și, de asemenea, în E. coli27. În schimb, nu există niciun blocaj, în medie, la PPP, în concordanță cu alte studii26. Acest lucru se datorează, cel mai probabil, acțiunii lui eIF5A. În ceea ce privește motivele XPP, cel mai puternic blocaj a fost observat pentru motivele GPP și DPP, ceea ce este în concordanță cu rezultatele obținute în S. cerevisiae și în E. coli (Fig. 5B). La mESCs, observăm cel mai puternic blocaj la PPE și PPD, reproducând rezultatele lui Ingolia și ale colaboratorilor11 (Fig. Suplimentară S5A). În cazul motivelor XPP, am observat un blocaj foarte slab doar pentru DPP (Fig. Suplimentară S5B). Astfel, abordarea noastră de cartografiere a situsului A pe urmele ribozomului permite detectarea precisă a pauzei de traducere stabilite la anumite motive polipeptidice nazale PPX și XPP.

Figura 5

Diverse motive PPX și XPP duc la blocaj ribozomal în S. cerevisiae. Densitatea mediană normalizată a ribozomilor este obținută pentru toate cazurile de (A) motive PPX și (B) motive XPP în care X corespunde oricăruia dintre cei 20 de aminoacizi naturali. Cu ajutorul unui test de permutare, determinăm dacă densitatea mediană a ribozomilor este semnificativă din punct de vedere statistic sau dacă apare din întâmplare. Motivele semnificative din punct de vedere statistic sunt evidențiate cu roșu închis. Această analiză a fost efectuată pe setul de date Pop pentru transcripții în care cel puțin 50 % din pozițiile de codon au citiri cartografiate. Barele de eroare sunt intervale de încredere de 95% pentru mediana obținută cu ajutorul Bootstrapping.

Un studiu al datelor Ribo-Seq din celulele de mamifere28 a observat o pauză de traducere independentă de secvență atunci când al 5-lea codon al transcrisului se află în situsul P. Această pauză postinițiere a fost, de asemenea, observată într-un studiu in vitro al sintezei de polifenilalanină, în care s-a observat o stagnare atunci când al 4-lea codon se afla în situsul P29. Cu profilurile situsului A obținute cu ajutorul tabelelor noastre de decalaj pentru S. cerevisiae și mESCs; observăm, de asemenea, aceste evenimente de pauză atunci când atât al 4-lea cât și al 5-lea codon se află în situsul P (Fig. suplimentară S6).

Precizie mai mare de localizare a situsului A decât alte metode

Nu există o metodă experimentală independentă pentru a verifica precizia localizărilor identificate ale situsului A folosind metoda noastră sau orice altă metodă4,5,6,6,7,7,8,8,9,10,12,30,31,32,33,34,35. Noi susținem că pauza bine stabilită a ribozomului la anumite motive de secvențe PPX este cel mai bun mijloc disponibil pentru a diferenția acuratețea metodelor existente. Motivul este acela că aceste motive de stagnare au fost identificate în E. coli36,37 și S. cerevisiae38 prin metode experimentale ortogonale (inclusiv studii enzimologice și imprimare de degete), iar locația exactă a situsului A în timpul unei astfel de încetiniri este cunoscută ca fiind la nivelul codonului care codifică cel de-al treilea reziduu al motivului 36. Astfel, cea mai precisă metodă de identificare a situsului A va fi cea care atribuie cel mai frecvent o densitate mai mare a ribozomului X la fiecare apariție a motivului PPX.

Am aplicat acest test la cele mai puternice motive PPX de încetinire, și anume PPG în S. cerevisiae și PPE în mESCs. În S. cerevisiae, metoda de programare întreagă produce cea mai mare densitate de ribozomi la nivelul codonului de glicină al motivului PPG atunci când este aplicată atât la seturile de date Pooled (Fig. 6A), cât și Pop (Fig. suplimentară S7A). Examinând fiecare apariție a PPG în setul nostru de date genetice, constatăm că, în majoritatea cazurilor, metoda noastră atribuie mai multă densitate de ribozomi la glicină decât orice altă metodă atunci când este aplicată atât la Pooled (Fig. 6B, testul Wilcoxon signed-rank (n = 224), P < 0.0005 pentru toate metodele, cu excepția Hussmann (P = 0,164)) și a seturilor de date Pop (Fig. suplimentară S7B, testul Wilcoxon signed-rank (n = 35), P < 10-5 pentru toate metodele, cu excepția Hussmann (P = 0,026) și Ribodeblur (P = 0,01)). Aceleași analize aplicate la mESCs la motivele PPE arată că metoda noastră depășește celelalte nouă metode (Fig. 6C,D), metoda noastră atribuind o densitate mai mare de ribozomi la acidul glutamic pentru cel puțin 85 % din motivele PPE din setul nostru de date, în comparație cu toate celelalte metode [Fig. 6D, testul Wilcoxon signed-rank (n = 104), P < 10-15 pentru toate metodele]. Astfel, pentru S. cerevisiae și mESCs, abordarea noastră de programare în numere întregi este mai precisă decât alte metode în identificarea situsului A pe fragmente protejate de ribozom.

Figura 6

Algoritmul de Programare Integeră atribuie corect o densitate mai mare a ribozomului decât alte metode la Glicina din motivele PPG în S. cerevisiae și la acidul Glutamic din motivele PPE în mESCs. (A) Este prezentată densitatea normalizată a ribozomilor obținută cu ajutorul diferitelor metode utilizate pentru identificarea situsului A pentru un exemplu de motiv PPG în gena YLR375W cu G la poziția codonului 303 în setul de date Pooled din S. cerevisiae (Legenda indică metoda, iar detalii complete pentru fiecare metodă pot fi găsite în secțiunea Metode). (B) Fracțiunea de instanțe PPG (n = 224) la care metoda de programare cu numere întregi produce o densitate mai mare de ribozomi la glicină în comparație cu fiecare altă metodă. Codificarea culorilor este aceeași cu cea prezentată în legenda din panoul (A). Metoda noastră se descurcă mai bine dacă atribuie o densitate mai mare a ribozomilor în mai mult de jumătate din cazuri (linia orizontală din panoul B). Metoda de programare în numere întregi se descurcă mai bine decât toate celelalte metode (P < 0,0005), cu excepția Hussmann, care nu este diferită din punct de vedere statistic (P = 0,164). (C) Densitatea normalizată a ribozomilor este prezentată pentru o instanță a motivului PPE în gena uc007zma.1 cu E la poziția de codon 127 în setul de date Pooled de ESC-uri de șoarece (a se vedea Legenda și textul principal pentru detalii despre metode). (D) Fracțiunea de instanțe PPE la care metoda de programare cu numere întregi produce o densitate mai mare de ribozomi la nivelul acidului glutamatic în comparație cu orice altă metodă. Codificarea culorilor este aceeași cu cea prezentată în legenda panoului (C). Metoda Integer Programming se descurcă mai bine decât toate celelalte metode (P < 10-15) în atribuirea precisă a densității ribozomiale la acidul glutamic în motivele PPE (n = 104). Pentru analizele prezentate în (B) și (D), valorile p bilaterale au fost calculate cu ajutorul testului Wilcoxon signed rank. Barele de eroare reprezintă intervalul de încredere de 95% în jurul medianei, calculat utilizând Bootstrapping.

Un număr mare de factori moleculari influențează ratele de traducere a codonilor și densitatea ribozomilor de-a lungul transcriptelor39. Unul dintre factori este concentrația ARNt cognat, deoarece codonii decodificați de ARNt cognat cu concentrații mai mari ar trebui să aibă în medie densități ribozomiale mai mici15,16,40. Prin urmare, ca un test calitativ suplimentar, ne așteptăm ca cea mai precisă metodă A-site să producă cea mai mare anti-corelație între densitatea ribozomilor la un codon și concentrația ARNt cognat al acestuia. Acest test este doar calitativ, deoarece corelația dintre densitatea ribozomică a codonului și concentrația de ARNt cognat poate fi afectată de alți factori, inclusiv utilizarea codonului și reutilizarea ARNt reîncărcați în vecinătatea ribozomului41,42. Utilizând abundențele de ARNt estimate anterior din experimentele RNA-Seq pe S. cerevisiae16, am constatat că metoda noastră de programare întreagă produce cea mai mare anticorelație în comparație cu celelalte unsprezece metode luate în considerare (tabelul suplimentar S8), ceea ce susține și mai mult acuratețea metodei noastre. Nu am putut efectua acest test pe mESCs, deoarece măsurătorile concentrației de ARNt nu au fost raportate în literatura de specialitate.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.