Identificare A- e P-sito posizioni su frammenti di mRNA protetto dal ribosoma utilizzando Programmazione Integrale

Algoritmo di programmazione integrale

Nell’analisi dei dati Ribo-Seq, frammenti di mRNA sono inizialmente allineati sul trascrittoma di riferimento e la loro posizione è riportata rispetto alla loro fine 5′. Ciò significa che un frammento contribuirà una lettura che è riportato sulla coordinata del genoma a cui il nucleotide 5′ fine del frammento è allineato (Fig. 1A). In Ribo-Seq dati, frammenti di diverse lunghezze si osservano che possono derivare dalla digestione incompleta di RNA e dalla natura stocastica di scissione mRNA dalla RNasi utilizzato nell’esperimento (Fig. 2, Fig. S1 supplementare). Una sfida centrale in quantitativamente analizzare Ribo-Seq dati è quello di identificare da questi Ribo-Seq legge dove il A- e P-siti sono stati situati al momento della digestione. Non è banale fare questo poiché la digestione incompleta e la scissione stocastica possono verificarsi ad entrambe le estremità del frammento. Per esempio, la digestione dell’mRNA che risulta in un frammento di dimensione 29 nt può avvenire in modi diversi, due dei quali sono illustrati in Fig. 1B. La quantità che abbiamo bisogno di stimare con precisione è il numero di nucleotidi che separano il codone nel sito A dall’estremità 5′ del frammento, a cui ci riferiamo come l’offset e denotiamo Δ. Conoscere Δ determina la posizione del sito A così come il sito P, poiché il sito P sarà sempre a Δ meno 3 nt.

Figura 1

La posizione del sito A può essere definita come un offset dalla fine 5′ dei frammenti protetti dal ribosoma. (A) Una rappresentazione schematica di un ribosoma in traslazione (disegno in alto) e dell’offset ∆ tra le letture Ribo-Seq mappate rispetto all’estremità 5′ delle impronte e centrate sul sito A (barre blu). Il ribosoma è mostrato proteggendo un frammento di 28 nt con la sua estremità 5′ nel reading frame 0, come definito dal codone di inizio ATG del gene. I siti E, P e A all’interno del ribosoma sono indicati. Le letture sono poi spostate dall’estremità 5′ al sito A del valore di offset ∆. (B) La digestione stocastica della nucleasi può risultare in frammenti diversi. Le due varianti più probabili di un impronta 29 nt con l’estremità 5′ nel telaio 1 sono mostrati con i loro confini mappati da linee tratteggiate allineamento al genoma che può risultare in offset di 15 nt (superiore) e 18 nt (inferiore), rispettivamente. (C) Per illustrare l’applicazione dell’algoritmo di programmazione integrale, si consideri un ipotetico trascritto di 60 nt di lunghezza. Il primo pannello mostra il profilo ribosomico originato dalle letture assegnate all’estremità 5′ dei frammenti di dimensione 33 nel frame 0. Il codone di inizio e quello di stop sono indicati mentre il resto della regione CDS è colorato di pesca chiaro. L’algoritmo sposta questo profilo ribosomico di 3 nt e calcola la funzione obiettivo \(\,T({\rm{\Delta }|i,S,F)\). L’estensione dello spostamento è l’offset Δ. I valori di \(\,T({\rm{\Delta }|i,S,F)\) per Δ = 12, 15, 18, 21 nts sono indicati. In questo esempio, il numero medio di letture per codone è 7,85. La differenza tra i primi due offset, 18 (T = 222) e 15 (T = 215), è inferiore alla media. Quindi, controlliamo i criteri secondari (Risultati). L’offset 18 soddisfa i criteri che il numero di letture nel codone iniziale è inferiore a un quinto della media delle letture nel secondo, terzo e quarto codone e anche che il numero di letture nel secondo codone è maggiore delle letture nel terzo codone. Quindi, Δ = 18 nt è l’offset ottimale per questo trascritto.

Figura 2

distribuzione delle dimensioni dei frammenti di mRNA per S. cerevisiae Ribo-Seq dataset da Pop e collaboratori (A) e il dataset Pooled (B).

La nostra soluzione a questo problema si basa sul fatto biologico che per i trascritti canonici, senza traduzione a monte, il sito A dei ribosomi in traduzione attiva deve essere situato tra il secondo codone e il codone di stop del CDS17. Pertanto, il valore ottimale di offset Δ per frammenti di una particolare dimensione (S) e cornice di lettura (F) è quello che massimizza il numero totale di letture \(\,T({\rm{\Delta }|i,S,F)\) tra questi codoni per ogni gene i su cui i frammenti mappano. La dimensione di un frammento di mRNA S è misurata in nucleotidi, e la cornice F ha valori di 0, 1 o 2 come definito dal codone di inizio del gene ATG e corrisponde alla cornice in cui si trova il nucleotide 5′ fine del frammento (Fig. 1A). Il frame F dell’estremità 5′ è il risultato della digestione della RNasi ed è distinto dal frame di lettura del ribosoma che sta tipicamente traducendo in-frame (frame 0 del sito A). In altre parole, per ogni combinazione di (S, F) spostiamo il profilo di lettura allineato al 5′ di 3 nucleotidi alla volta (per preservare il frame di lettura F) fino a identificare il valore ∆ che massimizza le letture tra il secondo e il codone di stop (Fig. 1C, vedi sottosezione successiva). Questa procedura viene eseguita sistematicamente per ogni dimensione di frammento S e frame di lettura F separatamente, poiché ognuno può avere (e noi troviamo che alcuni abbiano) un ∆ ottimale diverso.

Mentre identifichiamo il valore Δ′ per ogni gene nel nostro set di dati, minimizziamo anche il verificarsi di falsi positivi assicurandoci che il punteggio più alto, \(\,T({\rm{Delta }^{\prime} |i,S,F)\), sia significativamente più alto del prossimo punteggio più alto, \(T({\rm{Delta }^{\prime\prime} |i,S,F)\), che si verifica ad un diverso offset Δ″. Se la differenza tra i primi due punteggi è inferiore al numero medio di letture per codone, applichiamo i seguenti criteri di selezione aggiuntivi. Per scegliere tra Δ′ e Δ″, selezioniamo quello che produce un numero di letture al codone iniziale che è almeno un quinto inferiore al numero medio di letture al secondo, terzo e quarto codone. Richiediamo inoltre che il secondo codone abbia un numero maggiore di letture rispetto al terzo codone. La base biologica per questi criteri aggiuntivi è che il vero offset (cioè la posizione effettiva del sito A) non può essere localizzato al codone iniziale, e che il numero di letture al secondo codone dovrebbe essere più alto in media rispetto al terzo codone a causa dei contributi dalla fase di inizio della traduzione, durante la quale il ribosoma si sta assemblando sull’mRNA con il codone iniziale nel sito P. Di seguito, dimostriamo che i risultati del nostro metodo sono robusti ai cambiamenti di queste soglie.

Illustrazione della procedura di ottimizzazione di programmazione integrale

Le distribuzioni delle dimensioni del frammento e del frame dei frammenti protetti dal ribosoma (Fig. 2) in S. cerevisiae non sono dipendenti dal gene (Fig. supplementare S2), e quindi, neanche i valori di offset Δ dovrebbero essere dipendenti dal gene. Così, la posizione del sito A, rispetto all’estremità 5′ di un frammento di dimensione S e frame F, corrisponde al valore più probabile dell’offset attraverso tutti i geni nel set di dati.

Posizioni A-site in S. cerevisiae Ribo-Seq dati sono dimensioni del frammento e frame dipendente

Abbiamo applicato il metodo di programmazione integrale ai dati Ribo-Seq da S. cerevisiae pubblicato da Pop e collaboratori19. Per ogni combinazione di S e F abbiamo prima identificato quei geni che hanno almeno 1 lettura per codone in media nel loro profilo ribosomico corrispondente. Il numero di geni che soddisfano questo criterio è riportato nella tabella supplementare S1. Abbiamo poi applicato il metodo di programmazione integrale a questo sottoinsieme di geni. Le distribuzioni risultanti dei valori Δ sono mostrate in Fig. 3A per diverse combinazioni di lunghezza del frammento e del frame. Mostriamo solo i risultati per le dimensioni del frammento tra 27 e 33 nt perché più del 90% delle letture mappa a questo intervallo (Fig. 2A). Il valore di offset più probabile per tutte le dimensioni del frammento tra 20 a 35 nt è riportato come una tabella di offset (Tabella supplementare S2).

Figura 3

Distribuzione dei valori di offset dall’algoritmo Integer Programming applicato a trascrizioni da S. cerevisiae. I dati tracciati in (A) provengono dal set di dati Pop e (B) dal set di dati Pooled. Le distribuzioni sono tracciate in funzione del valore di offset e per frammenti di dimensioni da 27 a 33 nt, sono mostrate, da sinistra a destra, per i frame 0, 1 e 2. Per una data dimensione del frammento e telaio, la posizione A-sito è al più probabile valore Δ nella distribuzione, a condizione che l’offset si verifica per più del 70% dei geni (linee tratteggiate nei pannelli). Le barre di errore rappresentano intervalli di confidenza al 95% calcolati utilizzando Bootstrapping. Le dimensioni del campione sono riportate nella tabella supplementare S1.

Vediamo che il valore ottimale Δ – cioè la posizione del sito A – cambia per diverse combinazioni di S e F, con i valori più probabili a 15 o 18 nt. Quindi, la posizione del sito A dipende da S e F. Nella maggior parte dei casi, c’è un picco dominante per una data coppia di valori S e F. Per esempio, per i frammenti di dimensioni da 27 a 30 nt nel frame 0, più del 70% dei loro valori Δ ottimizzati per gene sono a 15 nt dall’estremità 5′ di questi frammenti. Risultati simili si trovano per altre combinazioni come le dimensioni 30, 31 e 32 nt nel frame 1 e da 28 a 32 nt nel frame 2, dove i valori Δ ottimizzati sono 18 nt. Così, in tutto il trascrittoma, la posizione del codone A-site su questi frammenti è identificata in modo univoco.

Ci sono, tuttavia, combinazioni S e F che hanno posizioni A-site ambigue basate su queste distribuzioni. Per esempio, per i frammenti di dimensione 27 nt nel frame 1, il 47% dei valori Δ ottimizzati per il gene sono a 15 nt mentre il 30% sono a 18 nt. Risultati simili sono osservati per i frammenti 28 e 29 nt nel frame 1, e 31 e 32 nt nel frame 0. Quindi, per queste combinazioni S e F c’è una probabilità simile che il sito A si trovi in un codone o in un altro, e quindi sembrerebbe che non possiamo identificare univocamente la posizione del sito A.

Una maggiore copertura porta a più offset unici

Abbiamo ipotizzato che l’ambiguità nell’identificazione del sito A per particolari combinazioni S e F possa essere dovuta alla bassa copertura (cioè, statistiche di campionamento scadenti). Per testare questa ipotesi abbiamo unito le letture da diversi set di dati Ribo-Seq pubblicati in un unico set di dati con conseguente copertura più alta e più geni che soddisfano i nostri criteri di selezione (Tabella supplementare S1). L’applicazione del nostro metodo a questo set di dati Pooled dà offset unici per più combinazioni S e F rispetto al dataset originale Pop (Fig. 3B e Tabella supplementare S2), coerente con la nostra ipotesi. Ad esempio, per i frammenti di dimensione 27 e frame 1, ora abbiamo l’offset unico di 15 nt con il 72% dei valori Δ ottimizzati per il gene a 15 nt (Fig. 3B). Tuttavia, vediamo ancora l’ambiguità presente per alcune combinazioni (S, F).

Abbiamo impiegato un’ulteriore strategia per aumentare la copertura, limitando la nostra analisi ai geni con una maggiore media di letture per codone. Se l’ipotesi è corretta, allora dovremmo vedere una tendenza statisticamente significativa di un aumento del valore Δ più probabile con l’aumento della profondità di lettura. Abbiamo applicato questa analisi al set di dati Pooled e troviamo che alcune combinazioni S e F inizialmente ambigue diventano non ambigue con l’aumentare della copertura. Per esempio, ad una media di 1 lettura per codone, le combinazioni (S, F) di (25, 0), (27, 2) e (30, 1) sono ambigue perché cadono sotto la nostra soglia del 70%. Tuttavia, vediamo una tendenza statisticamente significativa (pendenza = 0.5, p = 3.94 × 10-6) per i frammenti di (25, 0) che l’offset 15 nt diventa più probabile su aumentando la copertura, alla fine attraversando la soglia 70% (Fig. 4A). Allo stesso modo, per (27, 2) (pendenza = 0,58, p = 5,77 × 10-5) e (30, 1) (pendenza = 0,25, p = 0,009) vi è una tendenza verso un offset di 18 nt, con più del 70% dei geni che hanno questo offset alla copertura più alta (Fig. 4B,C). Quindi, per questi frammenti, aumentando la copertura identifica in modo univoco Δ′ e quindi la posizione A-sito. Per alcune combinazioni di (S, F), come (32, 0), l’ambiguità non è risolto anche su copertura molto alta (Fig. 4D), che si ipotizza può essere dovuto alle caratteristiche intrinseche della digestione nucleasi essere ugualmente probabile per più di un offset.

Figura 4

Copertura crescente identifica A-sito posizioni per S e F combinazioni che erano inizialmente ambigue. La percentuale di trascrizioni con un particolare valore Δ per diverse combinazioni S e F dal set di dati Pooled di S. cerevisiae è tracciata. In ogni pannello, più distribuzioni sono tracciati corrispondenti a trascrizioni con copertura crescente, indicato dalla leggenda in basso. Per esempio, le distribuzioni in blu e rosso derivano da trascrizioni con, rispettivamente, almeno 1 o 2 letture per codone in media. Osserviamo che la posizione del sito A tende verso 15 nt per S = 25, F = 0 (A) e verso 18 nt per S = 27, F = 2 (B), e S = 30, F = 1 (C). Per S = 32, F = 0 (D), non c’è alcuna tendenza anche a copertura maggiore. Si noti che per S = 27, F = 2 (pannello B), ci sono meno di 10 geni con una media maggiore di 50 legge per codone e quindi non includiamo il punto di dati oltre la media maggiore di 45 legge per codone (vedi metodi). Le barre di errore rappresentano intervalli di confidenza al 95% calcolati utilizzando Bootstrapping.

Quindi, abbastanza alta copertura produce la tabella di offset ottimale rappresentata nella tabella 1, dove l’offset è la posizione più probabile del sito A rispetto all’estremità 5′ dei frammenti di mRNA generati in S. cerevisiae.

Tabella 1 Posizioni A-site (offset nucleotidico dalla fine 5′) determinate applicando l’algoritmo di programmazione integrale al set di dati Pooled in S. cerevisiae sono mostrati come funzione della dimensione del frammento e del frame.

Consistenza tra diversi set di dati

I datiibo-Seq sono sensibili ai protocolli sperimentali che possono introdurre distorsioni nella digestione e legatura dei frammenti protetti dal ribosoma. Pooling set di dati insieme offre il vantaggio di una maggiore copertura, ma può mascherare le distorsioni specifiche di un singolo set di dati. Per determinare se i nostri offset unici (Tabella 1) sono coerenti con i risultati dei singoli set di dati abbiamo applicato l’algoritmo di programmazione integrale ad ogni singolo set di dati. La maggior parte di questi set di dati hanno una bassa copertura con conseguente minor numero di geni che soddisfano i nostri criteri di filtraggio (File supplementare S1). Per ogni offset unico nella Tabella 1, lo classifichiamo come coerente con un singolo set di dati a condizione che l’offset più probabile dal singolo set di dati (anche se non raggiunge la soglia del 70% a causa di limitazioni nella profondità di copertura) è lo stesso della Tabella 1. Troviamo che la stragrande maggioranza degli offset unici (22 su 24) nella Tabella 1 sono coerenti attraverso il 75% o più dei singoli set di dati (statistiche riportate nella Tabella supplementare S3). Solo due combinazioni (S, F) mostrano frequenti incoerenze. Le combinazioni (S, F) (27, 1) e (27, 2) non sono coerenti nel 33% o più dei singoli set di dati (Tabella supplementare S3). Questo suggerisce che i ricercatori che desiderano minimizzare i falsi positivi dovrebbero scartare queste combinazioni (S, F) quando creano profili di ribosomi A-site.

Robustezza della tabella degli offset alla variazione della soglia

L’algoritmo di programmazione integrale utilizza due soglie per identificare gli offset unici. Una è che il 70% dei geni mostri l’offset più probabile, l’altra, progettata per minimizzare i falsi positivi derivanti dal rumore di campionamento nei dati Ribo-Seq, è che le letture nel primo codone siano meno di un quinto della media delle letture nel secondo, terzo e quarto codone. Mentre ci sono buone ragioni per introdurre questi criteri di soglia, i valori esatti di queste soglie sono arbitrari. Pertanto, abbiamo testato se variando queste soglie cambiano i risultati riportati nella tabella 1. Abbiamo variato la prima soglia al 60% e all’80%, e ricalcolato la tabella degli offset. Riportiamo se l’offset unico è cambiato elencando una ‘R’ o una ‘S’ (per robusto e sensibile, rispettivamente) accanto all’offset riportato nella Tabella supplementare S3. Troviamo che due terzi delle combinazioni uniche (S, F) non cambiano (Tabella supplementare S3). Le combinazioni (S, F) (25, 0), (25, 2), (27, 0), (27, 1), (28, 1), (31, 0), (33, 0) e (33, 2) diventano ambigue quando abbiamo aumentato la soglia all’80%.

Abbiamo variato la seconda, suddetta soglia da un quinto fino a uno e fino a un decimo, e troviamo che tutte le combinazioni uniche (S, F) tranne (25, 2), (33, 0), (33, 2) e (34, 1) rimangono invariate (riportate come ‘R’ nella Tabella supplementare S3). Quindi, in sintesi, nella stragrande maggioranza dei casi, gli offset unici riportati nella Tabella 1 dipendono molto poco dai valori specifici di queste soglie.

Testando l’algoritmo di programmazione integrale contro i dati artificiali Ribo-Seq

Per testare la correttezza e la robustezza del nostro approccio abbiamo generato un set di dati di occupazioni ribosomiche simulate attraverso 4.487 trascrizioni di S. cerevisiae e abbiamo chiesto se il nostro metodo potrebbe determinare con precisione le posizioni A-site. Artificiale Ribo-Seq legge sono stati generati da queste occupazioni assumendo una distribuzione Poissoniana nel loro (S, F) valori utilizzando lunghezze impronta casuale simile a quella trovata in esperimenti (vedi metodi e Supplementary Fig. S3A, B). Abbiamo studiato la capacità del nostro metodo di determinare correttamente le vere posizioni A-site per quattro diversi set di valori di offset predefiniti (vedi Metodi). L’algoritmo di programmazione integrale è stato poi applicato al risultante artificiale Ribo-Seq dati. Troviamo la tabella offset generato dall’algoritmo riproduce gli offset di input utilizzati (Supplementary Fig. S3C e Tabella supplementare S4). Questa procedura è stata ripetuta per diverse distribuzioni di lunghezza di lettura così come con diversi offset di ingresso e troviamo che le tabelle di offset generato dal nostro algoritmo riprodurre le tabelle di offset di ingresso in più del 93% di tutte le (S, F) combinazioni (Supplementary Fig. S3B,C e Supplementary File S2). Il metodo identifica un piccolo numero di offset ambigui a causa della bassa copertura di lettura alle code delle distribuzioni. Una scoperta che sottolinea ulteriormente l’importanza della copertura di lettura come un fattore critico per identificare con precisione il sito A.

Il fatto biologico che il sito A di un ribosoma risiede solo tra il secondo codone di stop non è limitato a S. cerevisiae e quindi l’algoritmo di programmazione integrale dovrebbe essere applicabile ai dati Ribo-Seq da qualsiasi organismo. Pertanto, abbiamo applicato il nostro metodo a un pool di dati Ribo-Seq di cellule staminali embrionali di topo (mESC). Il risultante A-sito tabella offset esposto offset ambiguo a tutti tranne tre (S, F) combinazioni (Tabella supplementare S5). In mESCs c’è diffusa elongazione traduzione che si verifica oltre i confini delle regioni CDS annotati in upstream cornici di lettura aperta (uORFs) 20. Arricchimento di frammenti protetti dal ribosoma da questi uORFs traduzione può rendere difficile per il nostro algoritmo per trovare offset unico perché possono contribuire legge intorno al codone di inizio di CDS canonici annotati. Pertanto, abbiamo ipotizzato che se applichiamo il nostro algoritmo solo a quelle trascrizioni prive di uORF e in possesso di un singolo sito di inizio, allora il nostro algoritmo dovrebbe identificare più offset unici. Ingolia e collaboratori11 hanno identificato sperimentalmente per trascrizioni mESCs ben tradotto il suo numero di siti di iniziazione e se uORFs sono presenti. Pertanto, abbiamo selezionato quei geni che hanno solo un sito di inizio della traduzione vicino al codone di inizio annotato e ulteriormente limitato la nostra analisi a trascrizioni con una singola isoforma, come isoforme multiple possono avere diversi siti di terminazione.

Applicazione di algoritmo di programmazione integrale a questo set di geni aumenta il numero di offset unico da 3 a 13 (S, F) combinazioni (Tabella supplementare S6). Applicando gli stessi test di robustezza e coerenza come abbiamo fatto in S. cerevisiae rivela che il 77% delle compensazioni uniche sono robusti alla variazione di soglia, e una percentuale simile è coerente attraverso entrambi i set di dati individuali utilizzati per creare i dati Pooled (Tabella supplementare S6). Così, le compensazioni uniche che riportiamo per mESCs sono robusti e coerente nella stragrande maggioranza dei set di dati. Questo risultato indica anche che l’identificazione di successo di A-sito posizioni richiede l’analisi solo quelle trascrizioni che non contengono uORFs.

Integer Programming non produce offset unici per E. coli

Come un ulteriore test di quanto ampiamente possiamo applicare il nostro algoritmo, abbiamo applicato a un Pooled Ribo-Seq dati dall’organismo procariota E. coli. Il numero di geni che soddisfano i nostri criteri di filtraggio è riportato nella tabella supplementare S7. MNase, la nucleasi utilizzata nel E. coli Ribo-Seq protocollo, digerisce mRNA in modo distorto – favorendo la digestione dalla fine 5′ rispetto alla fine 3′ 21,22. Pertanto, come fatto in altri studi21,22,23, abbiamo applicato il nostro algoritmo in modo che abbiamo identificato la posizione A-sito come l’offset dalla fine 3′ invece della fine 5′. MRNA policistronici (cioè, trascrizioni contenenti più CDS) può causare problemi per il nostro algoritmo a causa di legge strettamente distanziati ai confini di CDS contigui essere segnato per offset diversi in entrambi i CDS. Per evitare risultati imprecisi, limitiamo la nostra analisi ai 1.915 trascritti monocistronici che non hanno nessun altro trascritto entro 40 nt a monte o a valle del CDS. Sulla base della nostra esperienza nell’analisi del dataset mESCs, filtriamo trascrizioni con più siti di iniziazione della traduzione così come trascrizioni i cui siti di iniziazione annotati sono stati contestati. Nakahigashi e collaboratori24 hanno usato tetraciclina come un inibitore di traduzione per identificare 92 trascrizioni in E. coli con diversi siti di iniziazione dall’annotazione di riferimento. Escludiamo anche questi trascritti dalla nostra analisi. Tuttavia, per questo gruppo di dati ad alta copertura, troviamo offset ambigui per tutte le combinazioni (S, F) (Tabella supplementare S5). Un’analisi meta-genetica della densità ribosomiale normalizzata nel CDS e 30 nt regione a monte ea valle rivelano firme di traduzione oltre i confini del CDS (Supplementary Fig. S4), in particolare un arricchimento superiore alla media di legge pochi nucleotidi prima del codone di inizio. Si ipotizza che la base-accoppiamento della sequenza Shine-Dalgarno (SD) con la sequenza complementare anti-SD in 16S rRNA25 protegge questi pochi nucleotidi prima del codone di inizio dalla digestione ribonucleasi e quindi risulta in un arricchimento di Ribo-Seq legge. Poiché questi frammenti “pseudo” protetti dal ribosoma non possono essere differenziati dai veri frammenti protetti dal ribosoma che contengono un codone con il sito A del ribosoma, il nostro algoritmo è limitato nella sua applicazione per questi dati.

Riproduzione di noti motivi PPX e XPP che portano al rallentamento traslazionale

In S. cerevisiae26 e E. coli21,27 certi motivi polipeptidici PPX e XPP (in cui X corrisponde a uno qualsiasi dei 20 aminoacidi) possono bloccare i ribosomi quando il terzo residuo è nel sito A. I fattori di allungamento eIF5A (in S. cerevisiae) e EF-P (in E. coli) aiutano ad alleviare lo stallo indotto da alcuni motivi ma non da altri26. Anche in mESCs, Ingolia e collaboratori11 rilevato PPD e PPE come motivi di pausa forte. Pertanto, abbiamo esaminato se il nostro approccio può riprodurre i noti motivi di stallo. Abbiamo fatto questo calcolando la densità di lettura normalizzata alle diverse occorrenze di un motivo PPX e XPP.

In S. cerevisiae, abbiamo osservato grandi densità di ribosomi a PPG, PPD, PPE e PPN (Fig. 5A), che sono stati tutti classificati come forti stallers in S. cerevisiae26 e anche in E. coli27. Al contrario, non c’è stallo, in media, a PPP, coerente con altri studi26. Questo è molto probabilmente dovuto all’azione di eIF5A. Per i motivi XPP, il più forte stallo è stato osservato per i motivi GPP e DPP, che sono coerenti con i risultati in S. cerevisiae e in E. coli (Fig. 5B). In mESCs, vediamo il più forte stallo a PPE e PPD, riproducendo i risultati di Ingolia e collaboratori 11 (Supplementary Fig. S5A). Per i motivi XPP, abbiamo osservato molto debole stallo solo per DPP (Fig. supplementare S5B). Così, il nostro approccio per mappare il sito A su impronte ribosomiche permette il rilevamento accurato della pausa traduzione stabilito a particolari motivi PPX e XPP polipeptide nascente.

Figura 5

Diversi motivi PPX e XPP portano allo stallo ribosomale in S. cerevisiae. La densità mediana normalizzata dei ribosomi è ottenuta per tutte le istanze di (A) PPX e (B) motivi XPP in cui X corrisponde a uno qualsiasi dei 20 aminoacidi presenti in natura. Usando un test di permutazione, determiniamo se la densità mediana del ribosoma è statisticamente significativa o si verifica per caso. I motivi statisticamente significativi sono evidenziati in rosso scuro. Questa analisi è stata effettuata sul set di dati Pop per le trascrizioni in cui almeno il 50% delle posizioni del codone hanno letto mappato a loro. Le barre di errore sono intervalli di confidenza al 95% per la mediana ottenuta utilizzando Bootstrapping.

Uno studio di dati Ribo-Seq di cellule di mammifero28 ha osservato una pausa di traduzione indipendente dalla sequenza quando il 5° codone della trascrizione è nel sito P. Questa pausa post-iniziazione è stata osservata anche in uno studio in vitro sulla sintesi della polifenilalanina, dove è stato osservato uno stallo quando il 4° codone era nel sito P29. Con i profili A-sito ottenuti utilizzando le nostre tabelle di offset per S. cerevisiae e mESCs; osserviamo anche questi eventi di pausa quando entrambi i codoni 4th e 5th sono al P-sito (Supplementary Fig. S6).

Maggiore accuratezza della localizzazione del sito A rispetto ad altri metodi

Non esiste un metodo sperimentale indipendente per verificare l’accuratezza delle locazioni del sito A identificate utilizzando il nostro metodo o qualsiasi altro metodo4,5,6,7,8,9,10,12,30,31,32,33,34,35. Noi sosteniamo che la consolidata pausa del ribosoma a particolari motivi di sequenza PPX è il miglior mezzo disponibile per differenziare la precisione dei metodi esistenti. La ragione è che questi motivi di stallo sono stati identificati in E. coli36,37 e S. cerevisiae38 attraverso metodi sperimentali ortogonali (compresi gli studi di enzimologia e la stampa di punta), e la posizione esatta del sito A durante tale rallentamento è nota per essere al codone che codifica il terzo residuo del motivo 36. Quindi, il metodo di identificazione del sito A più accurato sarà quello che più frequentemente assegna una maggiore densità ribosomiale a X ad ogni occorrenza del motivo PPX.

Abbiamo applicato questo test ai motivi PPX di rallentamento più forti, cioè PPG in S. cerevisiae e PPE in mESCs. In S. cerevisiae, il metodo di programmazione integrale produce la più grande densità di ribosomi al codone glicina del motivo PPG quando applicato a entrambi i set di dati Pooled (Fig. 6A) e Pop (Supplementary Fig. S7A). Esaminando ogni occorrenza di PPG nel nostro set di dati del gene, troviamo che in una maggioranza di casi il nostro metodo assegna più densità ribosomiale alla glicina di ogni altro metodo quando applicato sia al Pooled (Fig. 6B, Wilcoxon signed-rank test (n = 224), P < 0.0005 per tutti i metodi tranne Hussmann (P = 0.164)) e set di dati Pop (Supplementary Fig. S7B, Wilcoxon signed-rank test (n = 35), P < 10-5 per tutti i metodi tranne Hussmann (P = 0.026) e Ribodeblur (P = 0.01)). Le stesse analisi applicate a mESCs a motivi PPE mostra che il nostro metodo supera gli altri nove metodi (Fig. 6C,D) con il nostro metodo assegnando maggiore densità ribosoma all’acido glutammico per almeno 85% dei motivi PPE nel nostro set di dati rispetto a tutti gli altri metodi (Fig. 6D, Wilcoxon signed-rank test (n = 104), P < 10-15 per tutti i metodi). Pertanto, per S. cerevisiae e mESCs il nostro approccio di programmazione integrale è più accurato di altri metodi per identificare il sito A su frammenti protetti dal ribosoma.

Figura 6

L’algoritmo di programmazione integrale assegna correttamente una maggiore densità di ribosomi rispetto ad altri metodi alla glicina nei motivi PPG in S. cerevisiae e all’acido glutammico nei motivi PPE in mESCs. (A) La densità normalizzata dei ribosomi ottenuta utilizzando i vari metodi usati per identificare il sito A è mostrata per un’istanza del motivo PPG nel gene YLR375W con G in posizione codone 303 nel set di dati Pooled di S. cerevisiae (La leggenda indica il metodo e i dettagli completi per ogni metodo possono essere trovati nella sezione Metodi). (B) La frazione di istanze PPG (n = 224) in cui il metodo di programmazione integrale produce una maggiore densità di ribosomi alla glicina rispetto ad ogni altro metodo. Il codice colore è lo stesso mostrato nella legenda del pannello (A). Il nostro metodo fa meglio se assegna una maggiore densità di ribosomi in più della metà delle istanze (linea orizzontale nel pannello B). Il metodo Integer Programming fa meglio di tutti gli altri metodi (P < 0,0005) tranne Hussmann, che non è statisticamente diverso (P = 0,164). (C) La densità normalizzata dei ribosomi è mostrata per un’istanza del motivo PPE nel gene uc007zma.1 con E in posizione codone 127 nel set di dati Pooled di ESCs del mouse (vedi Legenda e testo principale per i dettagli sui metodi). (D) La frazione di istanze PPE in cui il metodo di programmazione integrale produce una maggiore densità di ribosomi all’acido glutammatico rispetto ad ogni altro metodo. Il codice colore è lo stesso mostrato nella legenda del pannello (C). Il metodo Integer Programming fa meglio di tutti gli altri metodi (P < 10-15) nell’assegnare accuratamente la densità del ribosoma all’acido glutammico nei motivi PPE (n = 104). Per le analisi presentate in (B) e (D), i p-valori a due facce sono stati calcolati usando il test di rango firmato Wilcoxon. Le barre di errore rappresentano l’intervallo di confidenza del 95% circa la mediana calcolata utilizzando Bootstrapping.

Un gran numero di fattori molecolari influenza i tassi di traduzione dei codoni e la densità dei ribosomi lungo i trascritti39. Un fattore è la concentrazione del tRNA cognato, poiché i codoni decodificati dal tRNA cognato con concentrazioni più alte dovrebbero avere in media densità ribosomiche inferiori15,16,40. Pertanto, come un ulteriore test qualitativo, ci aspettiamo che il metodo A-site più accurato produrrà la più grande anti-correlazione tra la densità del ribosoma a un codone e la sua concentrazione di tRNA cognato. Questo test è solo qualitativo in quanto la correlazione tra la densità del ribosoma del codone e la concentrazione del tRNA cognato può essere influenzata da altri fattori, tra cui l’uso del codone e il riutilizzo dei tRNA ricaricati nelle vicinanze del ribosoma41,42. Utilizzando abbondanze tRNA precedentemente stimato da RNA-Seq esperimenti su S. cerevisiae 16, troviamo che il nostro metodo di programmazione integrale produce il più grande anti-correlazione rispetto agli altri undici metodi considerati (Tabella supplementare S8), sostenendo ulteriormente la precisione del nostro metodo. Non siamo stati in grado di eseguire questo test in mESCs come misure di concentrazione di tRNA non sono stati riportati in letteratura.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.