Identificação das localizações A e P em fragmentos de mRNA protegidos com ribossomo usando Programação Inteira

Algoritmo de Programação Inteira

Na análise dos dados do Ribo-Seq, os fragmentos de mRNA são inicialmente alinhados no transcriptoma de referência e a sua localização é relatada em relação ao seu fim em 5′. Isto significa que um fragmento contribuirá com uma leitura que é relatada na coordenada do genoma à qual o nucleotídeo final do fragmento 5′ está alinhado (Fig. 1A). Nos dados da Ribo-Seq, são observados fragmentos de diferentes comprimentos que podem surgir da digestão incompleta do RNA e da natureza estocástica da clivagem do mRNA pelo RNase utilizado no experimento (Fig. 2, Suplemento da Fig. S1). Um desafio central na análise quantitativa dos dados do Ribo-Seq é identificar a partir destas leituras Ribo-Seq onde os locais A e P estavam localizados no momento da digestão. Isto não é trivial, uma vez que a digestão incompleta e a clivagem estocástica podem ocorrer em ambas as extremidades do fragmento. Por exemplo, a digestão do mRNA resultando em um fragmento de tamanho 29 nt pode ocorrer de diferentes maneiras, duas das quais são ilustradas na Fig. 1B. A quantidade que precisamos estimar com precisão é o número de nucleotídeos que separam o códon no site A do final do fragmento 5′, que denominamos de offset e denota Δ. Sabendo que Δ determina a posição do A-site, bem como do P-site já que o P-site estará sempre em Δ menos 3 nt.

Figure 1

A localização do A-site pode ser definida como um offset a partir da extremidade 5′ dos fragmentos protegidos da ribossom. (A) Uma representação esquemática de um ribossomo traduzido (desenho superior) e do offset ∆ entre o Ribo-Seq lê mapeado em relação à extremidade 5′ das pegadas e centrado no A-site (barras azuis). O ribossomo é mostrado protegendo um fragmento de 28 nt com o seu fim 5′ no quadro de leitura 0, tal como definido a partir do códon inicial do ATG do gene. Os locais E, P e A dentro do ribossomo são indicados. As leituras são então deslocadas do final do 5′ para o site A pelo valor de offset ∆. (B) A digestão estocástica de nuclease pode resultar em diferentes fragmentos. As duas variantes mais prováveis de uma pegada de 29 nt com o extremo 5′ no quadro 1 são mostradas com seus limites mapeados por linhas pontilhadas alinhadas ao genoma que podem resultar em deslocamentos de 15 nt (topo) e 18 nt (fundo), respectivamente. (C) Para ilustrar a aplicação do algoritmo de Programação Inteira, considere uma transcrição hipotética que tenha 60 nt de comprimento. O primeiro painel mostra o perfil do ribossomo proveniente das leituras atribuídas ao final do 5′ de fragmentos de tamanho 33 no quadro 0. O códon inicial e o códon final são indicados enquanto o resto da região do CDS é de pêssego claro colorido. O algoritmo muda este perfil do ribossomo em 3 nt e calcula a função objetiva \i, T\i, S\i, F)\i). A extensão do deslocamento é o deslocamento Δ. Os valores de \i,T,S,F) para Δ = 12, 15, 18, 21 nts são indicados. Neste exemplo, o número médio de leituras por códão é 7,85. A diferença entre os dois primeiros offsets, 18 (T = 222) e 15 (T = 215), é menor do que a média. Portanto, verificamos o critério secundário (Resultados). O offset 18 satisfaz o critério de que o número de leituras no códão inicial é inferior a um quinto da média de leituras no segundo, terceiro e quarto códões e também que o número de leituras no segundo códão é superior às leituras no terceiro códão. Assim, Δ = 18 nt é o offset ideal para esta transcrição.

Figure 2
>>

mRNA distribuição do tamanho do fragmento de S. cerevisiae Ribo-Seq conjunto de dados do Pop e colegas de trabalho (A) e do conjunto de dados Pooled (B).

A nossa solução para este problema baseia-se no facto biológico de que para transcrições canónicas, sem tradução a montante, o local A de tradução activa dos ribossomas deve estar situado entre o segundo códão e o códão de paragem do CDS17. Portanto, o valor ótimo de offset Δ para fragmentos de um determinado tamanho (S) e quadro de leitura (F) é o que maximiza o número total de leituras entre esses códons para cada gene i no qual os fragmentos são mapeados. O tamanho de um fragmento de mRNA S é medido em nucleotídeos, e o quadro F tem valores 0, 1 ou 2 como definido pelo códon inicial do gene ATG e corresponde ao quadro no qual se encontra o nucleotídeo final do fragmento 5′ (Fig. 1A). O quadro final F de 5′ é o resultado da digestão RNase e é distinto do quadro de leitura do ribossomo que está tipicamente traduzindo no quadro (quadro 0 do site A). Em outras palavras, para cada combinação de (S, F) deslocamos o perfil de leitura 5′ alinhado por 3 nucleotídeos de cada vez (para preservar o quadro de leitura F) até identificarmos o valor ∆ que maximiza as leituras entre o segundo e o códon de parada (Fig. 1C, ver próxima sub-secção). Este procedimento é realizado sistematicamente para cada fragmento de tamanho S e quadro de leitura F separadamente, pois cada um pode ter (e nós encontramos alguns têm) um óptimo diferente ∆.

Apesar de identificar o valor Δ′ para cada gene em nosso conjunto de dados, nós também minimizamos a ocorrência de falsos positivos, assegurando que a pontuação mais alta, \(\),O T(Delta), é significativamente mais alto que o próximo maior resultado, (T(T(Delta), que ocorre em um offset diferente Δ″. Se a diferença entre as duas melhores pontuações for inferior à média de leituras por códão, aplicamos os seguintes critérios de selecção adicionais. Para escolher entre Δ′ e Δ″, selecionamos aquele que produz um número de leituras no códão inicial que seja pelo menos um quinto menor que a média de leituras no segundo, terceiro e quarto códões. Exigimos ainda que o segundo códão tenha um número de leituras maior do que o terceiro. A base biológica para estes critérios adicionais é que a verdadeira compensação (ou seja, a localização real do local A) não pode ser localizada no códão inicial, e que o número de leituras no segundo códão deve ser superior em média ao do terceiro códão, devido às contribuições da etapa de iniciação da tradução, durante a qual o ribossomo está se montando no mRNA com o códão inicial no local P. Abaixo, demonstramos que os resultados do nosso método são robustos a mudanças nestes limiares.

Illustrando o procedimento de otimização da Programação Inteira

As distribuições de fragmentos e quadros de fragmentos protegidos por ribossomo (Fig. 2) em S. cerevisiae não são dependentes de genes (Fig. Complementar S2), e portanto, os valores de desvio Δ também não devem ser dependentes de genes. Assim, a localização do local A, em relação ao final do 5′ de um fragmento de tamanho S e quadro F, corresponde ao valor mais provável do desvio entre todos os genes do conjunto de dados.

As localizações do local A em S. cerevisiae Ribo-Seq são dependentes do tamanho do fragmento e do quadro

Primeiro aplicamos o método de Programação Inteira aos dados Ribo-Seq de S. cerevisiae publicados por Pop e colaboradores19. Para cada combinação de S e F identificamos primeiro aqueles genes que têm pelo menos 1 leitura por códon em média no perfil do ribossomo correspondente. O número de genes que satisfazem este critério é relatado na Tabela Complementar S1. Em seguida, aplicamos o método de Programação Inteira a este subconjunto de genes. As distribuições resultantes dos valores de Δ são mostradas na Fig. 3A para diferentes combinações de comprimento de fragmento e moldura. Mostramos os resultados apenas para tamanhos de fragmentos entre 27 e 33 nt porque mais de 90% das leituras mapeadas para esta faixa (Fig. 2A). O valor de offset mais provável para todos os tamanhos de fragmentos entre 20 e 35 nt é relatado como uma tabela de offset (Tabela Complementar S2).

Figure 3

Distribuição de valores de offset do algoritmo de Programação Inteira aplicado às transcrições de S. cerevisiae. Os dados plotados em (A) são do conjunto de dados Pop, e (B) do conjunto de dados Pooled. As distribuições são plotadas em função do valor do desvio e para tamanhos de fragmentos de 27 a 33 nt, são mostradas, da esquerda para a direita, para os quadros 0, 1 e 2. Para um determinado tamanho de fragmento e quadro, a localização do local A está no valor mais provável de Δ na distribuição, desde que o desvio ocorra para mais de 70% dos genes (linhas tracejadas em painéis). As barras de erro representam 95% de intervalos de confiança calculados usando o Bootstrapping. Os tamanhos das amostras são reportados na Tabela Complementar S1.

Vemos que o valor óptimo de Δ – isto é, a localização do local A – muda para diferentes combinações de S e F, com os valores mais prováveis ou a 15 ou 18 nt. Assim, a localização do local A depende de S e F. Na maioria dos casos, há um pico dominante para um determinado par de valores S e F. Por exemplo, para fragmentos de tamanho 27 até 30 nt no quadro 0, mais de 70% de seus valores por-gene otimizados Δ são 15 nt a partir do final de 5′ desses fragmentos. Resultados semelhantes são encontrados para outras combinações como os tamanhos 30, 31 e 32 nt no quadro 1 e 28 até 32 nt no quadro 2, onde os valores otimizados do Δ são 18 nt. Assim, através da transcriptoma, a posição do códon do site A nestes fragmentos é identificada de forma única.

Existem, no entanto, combinações S e F que têm localizações ambíguas do site A com base nestas distribuições. Por exemplo, para fragmentos de tamanho 27 nt no quadro 1, 47% dos valores otimizados para o gênero Δ estão em 15 nt enquanto 30% estão em 18 nt. Resultados semelhantes são observados para os fragmentos 28 e 29 nt no quadro 1, e 31 e 32 nt no quadro 0. Assim, para estas combinações S e F existe uma probabilidade semelhante de o local A estar localizado em um ou outro códon, e portanto parece que não podemos identificar de forma única a localização do local A.

Uma cobertura mais elevada leva a mais compensações únicas

Ponhamos a hipótese de que a ambiguidade na identificação do local A para determinadas combinações de S e F pode ser devida à baixa cobertura (ou seja estatísticas de amostragem deficientes). Para testar esta hipótese, reunimos as leituras de diferentes conjuntos de dados Ribo-Seq publicados em um único conjunto de dados com conseqüente maior cobertura e mais genes que satisfazem nossos critérios de seleção (Tabela Suplementar S1). A aplicação do nosso método a este conjunto de dados agrupados dá compensações únicas para mais combinações S e F em comparação com o conjunto de dados Pop original (Fig. 3B e Tabela Suplementar S2), consistente com a nossa hipótese. Por exemplo, para fragmentos de tamanho 27 e quadro 1, temos agora o deslocamento único de 15 nt com 72% dos valores de Δ otimizados para gênero a 15 nt (Fig. 3B). Entretanto, ainda vemos a ambiguidade presente para certas combinações (S, F).

Empregamos uma estratégia adicional para aumentar a cobertura, restringindo nossa análise a genes com maior média de leituras por códon. Se a hipótese estiver correta, então devemos ver uma tendência estatisticamente significativa de aumento no valor mais provável de Δ com aumento da profundidade de leitura. Aplicamos esta análise ao conjunto de dados Pooled e descobrimos que algumas combinações S e F inicialmente ambíguas tornam-se inequívocas à medida que a cobertura aumenta. Por exemplo, a uma média de 1 leitura por códão, (S, F) combinações de (25, 0), (27, 2) e (30, 1) são ambíguas, uma vez que caem abaixo do nosso limiar de 70%. Entretanto, vemos uma tendência estatisticamente significativa (inclinação = 0,5, p = 3,94 × 10-6) para fragmentos de (25, 0) que a compensação de 15 nt se torna mais provável ao aumentar a cobertura, eventualmente cruzando o limiar de 70% (Fig. 4A). Da mesma forma, para (27, 2) (inclinação = 0,58, p = 5,77 × 10-5) e (30, 1) (inclinação = 0,25, p = 0,009) há uma tendência para um offset de 18 nt, com mais de 70% dos genes tendo esse offset na cobertura mais alta (Fig. 4B,C). Assim, para estes fragmentos, o aumento da cobertura identifica de forma única Δ′ e, portanto, a localização do local A. Para algumas combinações de (S, F), como (32, 0), a ambiguidade não é resolvida mesmo com cobertura muito alta (Fig. 4D), o que especulamos ser devido às características inerentes à digestão nuclease serem igualmente prováveis para mais de um offset.

Figure 4
>

A cobertura crescente identifica as localizações do local A para combinações S e F que eram inicialmente ambíguas. Plotted é a percentagem de transcrições com um determinado valor Δ para diferentes combinações de S e F do conjunto de dados Pooled de S. cerevisiae. Em cada painel são plotadas múltiplas distribuições correspondentes a transcrições com cobertura crescente, indicada pela legenda na parte inferior. Por exemplo, as distribuições em azul e vermelho surgem das transcrições com, respectivamente, pelo menos 1 ou 2 leituras por códon em média. Observamos que o local A tende para 15 nt para S = 25, F = 0 (A) e para 18 nt para S = 27, F = 2 (B), e S = 30, F = 1 (C). Para S = 32, F = 0 (D), não há tendência mesmo com cobertura mais alta. Note que para S = 27, F = 2 (painel B), há menos de 10 genes com uma média superior a 50 leituras por códão e, portanto, não incluímos o ponto de dados além da média superior a 45 leituras por códão (ver Métodos). As barras de erro representam intervalos de confiança de 95% calculados usando Bootstrapping.

Assim, uma cobertura suficientemente alta produz a tabela de offset óptima representada na Tabela 1, onde o offset é a localização mais provável do site A em relação ao final de 5′ dos fragmentos de mRNA gerados em S. cerevisiae.

Tabela 1 As localizações do local A (offsets de nucleotídeos do final de 5′) determinadas pela aplicação do algoritmo de Programação Inteira ao conjunto de dados Pooled em S. cerevisiae são mostradas em função do tamanho do fragmento e da moldura.

Consistência entre diferentes conjuntos de dados

Os dados do Ribo-Seq são sensíveis a protocolos experimentais que podem introduzir vieses na digestão e ligadura de fragmentos protegidos por ribossomo. O agrupamento de conjuntos de dados oferece a vantagem de uma maior cobertura, mas pode mascarar os vieses específicos de um conjunto de dados individual. Para determinar se os nossos offsets únicos (Tabela 1) são consistentes com os resultados de conjuntos de dados individuais, aplicamos o algoritmo de Programação Inteira a cada conjunto de dados individual. A maioria desses conjuntos de dados tem baixa cobertura, resultando em menos genes que atendem aos nossos critérios de filtragem (Arquivo Suplementar S1). Para cada offset único na Tabela 1, classificamo-lo como consistente com um conjunto de dados individual desde que o offset mais provável do conjunto de dados individual (mesmo que não atinja o limiar de 70% devido a limitações na profundidade de cobertura) seja o mesmo que na Tabela 1. Verificamos que a grande maioria dos offsets únicos (22 de 24) na Tabela 1 é consistente em 75% ou mais dos conjuntos de dados individuais (estatísticas reportadas na Tabela Suplementar S3). Apenas duas (S, F) combinações mostram inconsistências frequentes. (S, F) combinações (27, 1) e (27, 2) são inconsistentes em 33% ou mais dos conjuntos de dados individuais (Tabela Suplementar S3). Isto sugere que os pesquisadores que desejam minimizar os falsos positivos devem descartar estas combinações (S, F) ao criar perfis de ribossomos do site A.

Robustness of the offset table to threshold variation

O algoritmo de Programação Inteira utiliza dois limiares para identificar offsets únicos. Um é que 70% dos genes exibem o offset mais provável, o outro, projetado para minimizar os falsos positivos decorrentes do ruído de amostragem nos dados do Ribo-Seq, é que as leituras no primeiro códon sejam inferiores a um quinto da média das leituras no segundo, terceiro e quarto códon. Embora existam boas razões para introduzir estes critérios de limiar, os valores exactos destes limiares são arbitrários. Portanto, testamos se a variação desses limiares altera os resultados reportados na Tabela 1. Variamos o primeiro limiar para 60% e 80%, e recalculamos a tabela de compensação. Informamos se o desvio único mudou ao listar um ‘R’ ou ‘S’ (para robustos e sensíveis, respectivamente) ao lado do desvio reportado na Tabela Suplementar S3. Verificamos que dois terços das combinações únicas (S, F) não se alteram (Tabela Suplementar S3). As combinações (S, F) (25, 0), (25, 2), (27, 0), (27, 1), (28, 1), (31, 0), (33, 0) e (33, 2) tornam-se ambíguas quando aumentamos o limiar para 80%.

Variamos o segundo limiar, acima mencionado, de um quinto para um e abaixo para um décimo, e verificamos que todas as combinações únicas (S, F) exceto (25, 2), (33, 0), (33, 2) e (34, 1) permanecem inalteradas (reportadas como ‘R’ na Tabela Suplementar S3). Assim, em resumo, na grande maioria dos casos, os offsets únicos relatados na Tabela 1 dependem muito pouco dos valores específicos desses limites.

Testar o algoritmo de Programação Inteira contra dados artificiais do Ribo-Seq

Para testar a correção e robustez de nossa abordagem, geramos um conjunto de dados de ocupações simuladas de ribossomos em 4.487 transcrições de S. cerevisiae e perguntamos se nosso método poderia determinar com precisão as localizações do local A. Foram geradas leituras artificiais do Ribo-Seq a partir destas ocupações assumindo uma distribuição Poissoniana nos seus valores (S, F) usando comprimentos de pegada aleatórios semelhantes aos encontrados nos experimentos (ver Métodos e Fig. Suplementar S3A, B). Investigámos a capacidade do nosso método para determinar correctamente as verdadeiras localizações do local A para quatro conjuntos diferentes de valores de offset pré-definidos (ver Métodos). O algoritmo de Programação Inteira foi então aplicado aos dados artificiais Ribo-Seq resultantes. Encontramos a tabela de offset gerada a partir do algoritmo reproduz os offsets de entrada utilizados (Figura Suplementar S3C e Tabela Suplementar S4). Este procedimento foi repetido para diferentes distribuições de comprimento de leitura, bem como com diferentes deslocamentos de entrada e encontramos que as tabelas de deslocamento geradas pelo nosso algoritmo reproduzem as tabelas de deslocamento de entrada em mais de 93% de todas as combinações (S, F) (Fig. Suplementar S3B,C e Arquivo Suplementar S2). O método identifica um pequeno número de deslocamentos ambíguos devido à baixa cobertura de leitura nas caudas das distribuições. Uma descoberta que enfatiza ainda mais a importância da cobertura lida como fator crítico na identificação precisa do local A.

A-site offsets em células-tronco embrionárias de camundongos

O fato biológico de que o local A de um ribossomo reside apenas entre o segundo e o códon de parada não está limitado a S. cerevisiae e, portanto, o algoritmo de Programação Inteira deve ser aplicável aos dados Ribo-Seq de qualquer organismo. Portanto, aplicamos nosso método a um conjunto de dados Pooled Ribo-Seq de células-tronco embrionárias de camundongos (mESCs). A tabela de compensação do local A resultante apresentou compensações ambíguas, excepto três (S, F) combinações (Tabela suplementar S5). Nos mESCs há um alongamento de tradução generalizado que ocorre além dos limites das regiões CDS anotadas em quadros de leitura abertos a montante (uORFs)20. O enriquecimento de fragmentos protegidos por ribossom a partir destes uORFs de tradução pode tornar difícil para o nosso algoritmo encontrar compensações únicas porque elas podem contribuir com leituras em torno do códon inicial dos CDSs anotados canonicamente. Portanto, nós colocamos a hipótese de que se aplicarmos o nosso algoritmo apenas àquelas transcrições desprovidas de uORFs e possuindo um único local de iniciação, então o nosso algoritmo deve identificar mais compensações únicas. Ingolia e colegas de trabalho11 identificaram experimentalmente para transcrições de mESCs bem traduzidas seu número de locais de iniciação e se os uORFs estão presentes. Portanto, selecionamos aqueles genes que têm apenas um local de iniciação de tradução perto do códon de início anotado e ainda restringimos nossa análise a transcrições com uma única isoforma, já que múltiplas isoformas podem ter diferentes locais de terminação.

Aplicação do algoritmo de Programação Inteira a este conjunto de genes aumenta o número de offsets únicos de 3 para 13 (S, F) combinações (Tabela Suplementar S6). A aplicação dos mesmos testes de robustez e consistência que fizemos em S. cerevisiae revela que 77% dos offsets únicos são robustos à variação do limiar, e uma porcentagem similar é consistente em ambos os conjuntos de dados individuais usados para criar os dados agrupados (Tabela Suplementar S6). Assim, os offsets únicos que reportamos para os mESCs são robustos e consistentes na grande maioria dos conjuntos de dados. Este resultado também indica que a identificação bem sucedida de locais A requer a análise apenas das transcrições que não contêm uORFs.

Integer Programming does not yield unique offsets for E. coli

As a further test of how widely we can apply our algorithm, we applied it to a Pooled Ribo-Seq data from the prokaryotic organism E. coli. O número de genes que satisfazem os nossos critérios de filtragem é relatado na Tabela Complementar S7. MNase, o nuclease utilizado no protocolo E. coli Ribo-Seq, digere o mRNA de forma tendenciosa – favorecendo a digestão a partir do terminal 5′ em relação ao terminal 3′ end21,22. Assim, à semelhança de outros estudos21,22,23, aplicámos o nosso algoritmo de forma a identificar a localização do sítio A como o desvio do extremo 3′ em vez do extremo 5′. Os mRNAs policistrônicos (ou seja, transcrições contendo múltiplos CDSs) podem causar problemas para o nosso algoritmo devido a leituras muito espaçadas em limites de CDS contíguos sendo pontuados para diferentes offsets em ambos os CDSs. Para evitar resultados imprecisos, restringimos nossa análise às 1.915 transcrições monocistrônicas que não possuem nenhuma outra transcrição dentro de 40 nt a montante ou a jusante do CDS. Com base em nossa experiência na análise do conjunto de dados mESCs, filtramos transcrições com múltiplos sites de iniciação de tradução, bem como transcrições cujos sites de iniciação anotados tenham sido contestados. Nakahigashi e colaboradores24 têm usado tetraciclina como inibidor de tradução para identificar 92 transcrições em E. coli com diferentes locais de iniciação a partir da anotação de referência. Nós também excluímos essas transcrições da nossa análise. No entanto, para este conjunto de dados agrupados de alta cobertura, encontramos compensações ambíguas para todas as combinações (S, F) (Tabela suplementar S5). Uma análise meta-gene da densidade de ribossomos normalizada na região CDS e 30 nt a montante e a jusante revela assinaturas de tradução para além dos limites do CDS (Figura Suplementar S4), especialmente um enriquecimento superior à média de leituras de alguns nucleotídeos antes do códon inicial. Especulamos que o emparelhamento da sequência Shine-Dalgarno (SD) com a sequência complementar anti-SD em 16S rRNA25 protege esses poucos nucleotídeos antes do códão inicial da digestão de ribonuclease e, portanto, resulta num enriquecimento das leituras do Ribo-Seq. Uma vez que estes “pseudo” fragmentos protegidos do ribossomo não podem ser diferenciados dos fragmentos reais protegidos do ribossomo que contêm um códão com o A-site do ribossomo, o nosso algoritmo é limitado na sua aplicação para estes dados.

Reproduzindo os conhecidos motivos PPX e XPP que levam à desaceleração translacional

Em S. cerevisiae26 e E. coli21,27 certos motivos PPX e XPP polipéptidos (em que X corresponde a qualquer um dos 20 aminoácidos) podem empatar os ribossomas quando o terceiro resíduo está no local A. Os fatores de alongamento eIF5A (em S. cerevisiae) e EF-P (em E. coli) ajudam a aliviar o emperramento induzido por alguns motivos, mas não por outros26. Mesmo nos mESCs, Ingolia e colegas de trabalho11 detectaram PPD e PPE como fortes motivos de pausa. Portanto, examinamos se a nossa abordagem pode reproduzir os conhecidos motivos de paralisação. Fizemos isto calculando a densidade de leitura normalizada nas diferentes ocorrências de um motivo PPX e XPP.

Em S. cerevisiae, observamos grandes densidades de ribossomos em PPG, PPD, PPE e PPN (Fig. 5A), todos classificados como fortes estagnações em S. cerevisiae26 e também em E. coli27. Em contraste, não há empatamentos, em média, no PPP, consistentes com outros estudos26. Isto se deve muito provavelmente à ação da eIF5A. Para os motivos XPP, o emperramento mais forte foi observado para os motivos GPP e DPP, que são consistentes com os resultados em S. cerevisiae e em E. coli (Fig. 5B). Nos mESCs, vemos o emperramento mais forte nos PPE e PPD, reproduzindo os resultados da Ingolia e colegas de trabalho11 (Fig. Complementar S5A). Para os motivos XPP, observamos empatamentos muito fracos apenas para DPP (Fig. S5B Suplementar). Assim, a nossa abordagem para mapear o A-site em pegadas de ribossomas permite a detecção precisa de pausas de tradução estabelecidas em determinados motivos de polipéptidos nascentes PPX e XPP.

Figure 5

Os motivos de polipéptidos nascentes PPX e XPP levam ao emperramento de ribossomas em S. cerevisiae. A densidade mediana normalizada do ribossomo é obtida para todas as instâncias de (A) PPX e (B) motivos XPP em que X corresponde a qualquer um dos 20 aminoácidos naturalmente presentes. Utilizando um teste de permutação, determinamos se a densidade mediana dos ribossomas é estatisticamente significativa ou se ocorre por acaso. Os motivos estatisticamente significativos são destacados em vermelho escuro. Esta análise foi realizada no conjunto de dados Pop para transcrições nas quais pelo menos 50% das posições de códão foram lidas. As barras de erro são intervalos de confiança de 95% para a mediana obtida usando Bootstrapping.

Um estudo de dados Ribo-Seq de células de mamíferos28 observou uma pausa de tradução independente de seqüência quando o 5º códon da transcrição está no site P. Esta pausa pós-iniciação também foi observada em um estudo in vitro da síntese da polifenilalanina, onde foi observado o emperramento quando o 4º códon estava no local P29. Com os perfis do sítio A obtidos utilizando nossas tabelas de offset para S. cerevisiae e mESCs; observamos também esses eventos de pausa quando o 4º e 5º códão estão no sítio P (Fig. Complementar S6).

A maior precisão de localização do site A do que outros métodos

Não há nenhum método experimental independente para verificar a precisão da localização do site A identificado usando o nosso método ou qualquer outro método4,5,6,7,8,9,10,12,30,31,32,33,34,35. Argumentamos que a bem estabelecida pausa do ribossomo em determinados motivos de sequência PPX é o melhor meio disponível para diferenciar a precisão dos métodos existentes. A razão para isto é que estes motivos de paragem foram identificados em E. coli36,37 e S. cerevisiae38 através de métodos experimentais ortogonais (incluindo estudos de enzimologia e impressão do dedo do pé), e a localização exacta do local A durante tal desaceleração é conhecida por estar no códão que codifica o terceiro resíduo do motivo 36. Assim, o método mais preciso de identificação do local A será aquele que mais frequentemente atribui maior densidade de ribossomo a X em cada ocorrência do motivo PPX.

Aplicamos este teste aos motivos PPX mais fortes, ou seja, PPG em S. cerevisiae e PPE em mESCs. Em S. cerevisiae, o método de Programação Inteira produz a maior densidade de ribossomos no códon de glicina do motivo PPG quando aplicado tanto no conjunto de dados Pooled (Fig. 6A) como no Pop (Fig. S7A Suplementar). Examinando cada ocorrência de PPG em nosso conjunto de dados genéticos, verificamos que na maioria dos casos nosso método atribui maior densidade de ribossomos à glicina do que qualquer outro método quando aplicado tanto ao Pooled (Fig. 6B, Wilcoxon sign-rank test (n = 224), P < 0.0005 para todos os métodos exceto Hussmann (P = 0,164)) e conjuntos de dados Pop (Suplemento Fig. S7B, teste de Wilcoxon com classificação assinada (n = 35), P < 10-5 para todos os métodos exceto Hussmann (P = 0,026) e Ribodeblur (P = 0,01)). As mesmas análises aplicadas aos mESCs nos motivos PPE mostram que nosso método supera os outros nove métodos (Fig. 6C,D) com nosso método atribuindo maior densidade de ribossomo ao ácido glutâmico para pelo menos 85% dos motivos PPE em nosso conjunto de dados em comparação com todos os outros métodos (Fig. 6D, Wilcoxon sign-rank test (n = 104), P < 10-15 para todos os métodos). Assim, para S. cerevisiae e mESCs nossa abordagem de Programação Inteira é mais precisa do que outros métodos na identificação do local A em fragmentos protegidos por ribossomo.

Figure 6
>

O algoritmo de Programação Inteira atribui correctamente uma maior densidade de ribossomas do que outros métodos ao Glycine em motivos PPG em S. cerevisiae e ao ácido glutâmico em motivos PPE em mESCs. (A) A densidade normalizada de ribossomas obtida usando os vários métodos usados para identificar o local A é mostrada para uma instância de motivo PPG no gene YLR375W com G na posição de códon 303 no conjunto de dados Pooled dataet de S. cerevisiae (A legenda indica o método e detalhes completos para cada método podem ser encontrados na secção Métodos). (B) A fração de instâncias PPG (n = 224) em que o método de Programação Inteira produz uma maior densidade de ribossomo na glicina em comparação com qualquer outro método. A codificação por cores é a mesma que é mostrada na legenda no painel (A). O nosso método faz melhor se atribuir uma maior densidade de ribossomas em mais de metade das instâncias (linha horizontal no painel B). O método de Programação Inteira faz melhor que todos os outros métodos (P < 0,0005) exceto Hussmann, que não é estatisticamente diferente (P = 0,164). (C) A densidade normalizada do ribossomo é mostrada para uma instância do motivo PPE no gene uc007zma.1 com E na posição de códon 127 no conjunto de dados Pooled dos ESCs do mouse (veja Legenda e texto principal para detalhes sobre os métodos). (D) A fração de instâncias de PPE em que o método de Programação Inteira produz uma maior densidade de ribossomo em ácido glutamático comparado com qualquer outro método. A codificação por cores é a mesma que é mostrada na legenda do painel (C). O método de Programação Inteira faz melhor que todos os outros métodos (P < 10-15) na atribuição precisa da densidade do ribossomo ao ácido glutâmico em motivos de PPE (n = 104). Para as análises apresentadas em (B) e (D), os valores de p em duas faces foram calculados utilizando o teste de rank assinado por Wilcoxon. As barras de erro representam o Intervalo de Confiança de 95% sobre a mediana calculada usando o Bootstrapping.

Um grande número de fatores moleculares influenciam as taxas de tradução de códon e a densidade de ribossomos ao longo das transcrições39. Um fator é a concentração de RNAt cognato, já que os códons decodificados por RNAt cognato com concentrações mais altas devem ter em média densidades de ribossomos mais baixas15,16,40. Portanto, como um teste qualitativo adicional, esperamos que o método mais preciso de A-site produza a maior anti-correlação entre a densidade do ribossomo em um códon e sua concentração de tRNA cognato. Este teste é apenas qualitativo, uma vez que a correlação entre a densidade de ribossómica do códão e a concentração de tRNA cognato pode ser afectada por outros factores, incluindo a utilização do códão e a reutilização dos tRNAs recarregados nas proximidades do ribossoma41,42. Utilizando abundâncias de tRNA previamente estimadas a partir de experiências de RNA-Seq em S. cerevisiae16, verificamos que o nosso método de Programação Integrada produz a maior anti-correlação em comparação com os outros onze métodos considerados (Tabela Suplementar S8), apoiando ainda mais a precisão do nosso método. Não fomos capazes de realizar este teste em mESCs, pois as medidas de concentração de tRNA não foram relatadas na literatura.

Deixe uma resposta

O seu endereço de email não será publicado.