Identificación de las localizaciones de los sitios A y P en los fragmentos de ARNm protegidos por el ribosoma mediante programación entera

Algoritmo de programación entera

En el análisis de los datos de Ribo-Seq, los fragmentos de ARNm se alinean inicialmente en el transcriptoma de referencia y su localización se informa con respecto a su extremo 5′. Esto significa que un fragmento contribuirá con una lectura que se reporta en la coordenada del genoma a la que el nucleótido del extremo 5′ del fragmento está alineado (Fig. 1A). En los datos de Ribo-Seq se observan fragmentos de diferentes longitudes que pueden surgir de una digestión incompleta del ARN y de la naturaleza estocástica de la escisión del ARNm por la RNasa utilizada en el experimento (Fig. 2, Fig. Suplementaria S1). Un reto central en el análisis cuantitativo de los datos de Ribo-Seq es identificar a partir de estas lecturas de Ribo-Seq dónde se encontraban los sitios A y P en el momento de la digestión. Esto no es trivial, ya que la digestión incompleta y el corte estocástico pueden ocurrir en ambos extremos del fragmento. Por ejemplo, la digestión del ARNm que da lugar a un fragmento de tamaño 29 nt puede ocurrir de diferentes maneras, dos de las cuales se ilustran en la Fig. 1B. La cantidad que necesitamos estimar con precisión es el número de nucleótidos que separan el codón del sitio A del extremo 5′ del fragmento, al que nos referimos como desplazamiento y denotamos Δ. Conocer Δ determina la posición del sitio A así como del sitio P ya que el sitio P siempre estará en Δ menos 3 nt.

Figura 1

La localización del sitio A puede definirse como un desplazamiento desde el extremo 5′ de los fragmentos protegidos por el ribosoma. (A) Representación esquemática de un ribosoma en traducción (dibujo superior) y del desplazamiento ∆ entre las lecturas de Ribo-Seq mapeadas con respecto al extremo 5′ de las huellas y centradas en el sitio A (barras azules). El ribosoma se muestra protegiendo un fragmento de 28 nt con su extremo 5′ en el marco de lectura 0, definido a partir del codón de inicio ATG del gen. Se indican los sitios E, P y A dentro del ribosoma. Las lecturas se desplazan desde el extremo 5′ hasta el sitio A por el valor de desplazamiento ∆. (B) La digestión estocástica de la nucleasa puede dar lugar a diferentes fragmentos. Las dos variantes más probables de una huella de 29 nt con el extremo 5′ en el fotograma 1 se muestran con sus límites trazados por líneas punteadas que se alinean con el genoma y que pueden dar lugar a desplazamientos de 15 nt (arriba) y 18 nt (abajo), respectivamente. (C) Para ilustrar la aplicación del algoritmo de Programación Entera, considere un transcrito hipotético de 60 nt de longitud. El primer panel muestra el perfil del ribosoma que se origina a partir de las lecturas asignadas al extremo 5′ de los fragmentos de tamaño 33 en el marco 0. Se indican el inicio y el codón de parada, mientras que el resto de la región CDS es de color melocotón claro. El algoritmo desplaza este perfil de ribosoma en 3 nt y calcula la función objetivo \(\, T({\rm{\Delta }}|i,S,F)\N.) La extensión del desplazamiento es el desplazamiento Δ. Se indican los valores de \(\,T({\rm{\Delta }}|i,S,F)\Npara Δ = 12, 15, 18, 21 nts. En este ejemplo, el número medio de lecturas por codón es de 7,85. La diferencia entre los dos primeros criterios, 18 (T = 222) y 15 (T = 215), es inferior a la media. Por lo tanto, comprobamos los criterios secundarios (Resultados). El offset 18 cumple el criterio de que el número de lecturas en el codón de inicio es menor que la quinta parte de la media de las lecturas en los codones segundo, tercero y cuarto y también que el número de lecturas en el segundo codón es mayor que las lecturas en el tercer codón. Por lo tanto, Δ = 18 nt es el desplazamiento óptimo para este transcrito.

Figura 2

Distribución del tamaño de los fragmentos de ARNm para el conjunto de datos Ribo-Seq de S. cerevisiae de Pop y colaboradores (A) y el conjunto de datos Pooled (B).

Nuestra solución a este problema se basa en el hecho biológico de que para los transcritos canónicos, sin traducción aguas arriba, el sitio A de los ribosomas en traducción activa debe estar situado entre el segundo codón y el codón de parada del CDS17. Por lo tanto, el valor óptimo de desplazamiento Δ para los fragmentos de un tamaño (S) y un marco de lectura (F) determinados es el que maximiza el número total de lecturas \(\m,T({\rm{\Delta }}|i,S,F)\Nentre estos codones para cada gen i en el que se mapean los fragmentos. El tamaño de un fragmento de ARNm S se mide en nucleótidos, y el marco F tiene valores de 0, 1 o 2 según lo definido por el codón de inicio del gen ATG y corresponde al marco en el que se encuentra el nucleótido del extremo 5′ del fragmento (Fig. 1A). El marco del extremo 5′ F es el resultado de la digestión de la RNasa y es distinto del marco de lectura del ribosoma que típicamente está traduciendo en el marco (marco 0 del sitio A). En otras palabras, para cada combinación de (S, F) desplazamos el perfil de lecturas alineadas en 5′ 3 nucleótidos cada vez (para preservar el marco de lectura F) hasta que identificamos el valor ∆ que maximiza las lecturas entre el segundo y el codón de parada (Fig. 1C, véase la siguiente subsección). Este procedimiento se realiza sistemáticamente para cada tamaño de fragmento S y marco de lectura F por separado, ya que cada uno puede tener (y encontramos que algunos tienen) un ∆ óptimo diferente.

Mientras identificamos el valor de Δ′ para cada gen en nuestro conjunto de datos, también minimizamos la ocurrencia de falsos positivos asegurando que la puntuación más alta, \(\,T({\rm{\Delta }}^{\prime} |i,S,F)\), sea significativamente más alta que la siguiente puntuación más alta, \(T({\rm{\Delta }}^{\prime\prime} |i,S,F)\), que se produce en un desplazamiento diferente Δ″. Si la diferencia entre las dos primeras puntuaciones es menor que el número medio de lecturas por codón, aplicamos los siguientes criterios de selección adicionales. Para elegir entre Δ′ y Δ″, seleccionamos el que produce un número de lecturas en el codón de inicio que es al menos una quinta parte menor que el número medio de lecturas en los codones segundo, tercero y cuarto. Además, exigimos que el segundo codón tenga un mayor número de lecturas que el tercer codón. La base biológica de estos criterios adicionales es que el verdadero desplazamiento (es decir, la ubicación real del sitio A) no puede localizarse en el codón de inicio, y que el número de lecturas en el segundo codón debe ser mayor en promedio que en el tercer codón debido a las contribuciones del paso de iniciación de la traducción, durante el cual el ribosoma se está ensamblando en el ARNm con el codón de inicio en el sitio P. A continuación, demostramos que los resultados de nuestro método son robustos a los cambios en estos umbrales.

Ilustración del procedimiento de optimización de Programación Entera

Las distribuciones del tamaño del fragmento y del marco de los fragmentos protegidos por el ribosoma (Fig. 2) en S. cerevisiae no son dependientes del gen (Fig. Suplementaria S2), y por lo tanto, tampoco deberían ser dependientes del gen los valores de desplazamiento Δ. Así, la localización del sitio A, en relación con el extremo 5′ de un fragmento de tamaño S y marco F, corresponde al valor más probable del desplazamiento en todos los genes del conjunto de datos.

Las localizaciones del sitio A en los datos de Ribo-Seq de S. cerevisiae son dependientes del tamaño del fragmento y del marco

En primer lugar, aplicamos el método de Programación Entera a los datos de Ribo-Seq de S. cerevisiae publicados por Pop y colaboradores19. Para cada combinación de S y F identificamos primero aquellos genes que tienen al menos 1 lectura por codón de media en su correspondiente perfil ribosómico. El número de genes que cumplen este criterio se indica en la Tabla Suplementaria S1. A continuación, aplicamos el método de Programación Entera a este subconjunto de genes. Las distribuciones resultantes de los valores de Δ se muestran en la Fig. 3A para diferentes combinaciones de longitud de fragmento y marco. Sólo mostramos los resultados para los tamaños de fragmento entre 27 y 33 nt porque más del 90% de las lecturas se sitúan en este rango (Fig. 2A). El valor de desplazamiento más probable para todos los tamaños de fragmentos entre 20 y 35 nt se presenta como una tabla de desplazamiento (Tabla Suplementaria S2).

Figura 3

Distribución de los valores de desplazamiento del algoritmo de Programación Entera aplicado a los transcritos de S. cerevisiae. Los datos representados en (A) son del conjunto de datos Pop, y (B) del conjunto de datos Pooled. Las distribuciones se trazan en función del valor de desplazamiento y, para tamaños de fragmento de 27 a 33 nt, se muestran, de izquierda a derecha, para los marcos 0, 1 y 2. Para un tamaño de fragmento y un marco determinados, la ubicación del sitio A se encuentra en el valor Δ más probable de la distribución, siempre que el desplazamiento se produzca en más del 70% de los genes (líneas discontinuas en los paneles). Las barras de error representan intervalos de confianza del 95% calculados mediante Bootstrapping. Los tamaños de las muestras se informan en la Tabla Suplementaria S1.

Vemos que el valor óptimo de Δ -es decir, la localización del sitio A- cambia para diferentes combinaciones de S y F, con los valores más probables en 15 o 18 nt. Por lo tanto, la ubicación del sitio A depende de S y F. En la mayoría de los casos, hay un pico dominante para un par dado de valores de S y F. Por ejemplo, para los fragmentos de tamaño 27 a 30 nt en el marco 0, más del 70% de sus valores de Δ optimizados por gen se encuentran a 15 nt del extremo 5′ de estos fragmentos. Resultados similares se encuentran para otras combinaciones como los tamaños 30, 31 y 32 nt en el marco 1 y 28 a 32 nt en el marco 2, donde los valores optimizados de Δ son de 18 nt. Por lo tanto, en todo el transcriptoma, la posición del codón del sitio A en estos fragmentos se identifica de forma única.

Sin embargo, hay combinaciones de S y F que tienen ubicaciones ambiguas del sitio A basadas en estas distribuciones. Por ejemplo, para los fragmentos de tamaño 27 nt en el marco 1, el 47% de los valores de Δ optimizados para el gen están en 15 nt mientras que el 30% están en 18 nt. Se observan resultados similares para los fragmentos de 28 y 29 nt en el marco 1, y de 31 y 32 nt en el marco 0. Así, para estas combinaciones de S y F existe una probabilidad similar de que el sitio A se localice en un codón u otro, y por lo tanto parece que no podemos identificar de forma única la localización del sitio A.

Una mayor cobertura conduce a más desplazamientos únicos

La hipótesis es que la ambigüedad en la identificación del A-site para determinadas combinaciones S y F puede deberse a una baja cobertura (es decir, una estadística de muestreo deficiente). Para probar esta hipótesis, agrupamos las lecturas de diferentes conjuntos de datos Ribo-Seq publicados en un único conjunto de datos con una cobertura consecuentemente más alta y más genes que cumplen nuestros criterios de selección (Tabla Suplementaria S1). La aplicación de nuestro método a este conjunto de datos Pooled da compensaciones únicas para más combinaciones de S y F en comparación con el conjunto de datos Pop original (Fig. 3B y Tabla Suplementaria S2), lo que concuerda con nuestra hipótesis. Por ejemplo, para los fragmentos de tamaño 27 y marco 1, ahora tenemos el desplazamiento único de 15 nt con el 72% de los valores de Δ optimizados para el gen en 15 nt (Fig. 3B). Sin embargo, todavía vemos la ambigüedad presente para ciertas combinaciones (S, F).

Empleamos una estrategia adicional para aumentar la cobertura restringiendo nuestro análisis a los genes con mayor promedio de lecturas por codón. Si la hipótesis es correcta, entonces deberíamos ver una tendencia estadísticamente significativa de un aumento del valor Δ más probable con el aumento de la profundidad de las lecturas. Aplicamos este análisis al conjunto de datos Pooled y encontramos que algunas combinaciones S y F inicialmente ambiguas se vuelven inequívocas a medida que aumenta la cobertura. Por ejemplo, a una media de 1 lectura por codón, las combinaciones (S, F) de (25, 0), (27, 2) y (30, 1) son ambiguas ya que caen por debajo de nuestro umbral del 70%. Sin embargo, observamos una tendencia estadísticamente significativa (pendiente = 0,5, p = 3,94 × 10-6) para los fragmentos de (25, 0) de que el desplazamiento de 15 nt se hace más probable al aumentar la cobertura, cruzando finalmente el umbral del 70% (Fig. 4A). Del mismo modo, para (27, 2) (pendiente = 0,58, p = 5,77 × 10-5) y (30, 1) (pendiente = 0,25, p = 0,009) hay una tendencia hacia un desplazamiento de 18 nt, con más del 70% de los genes que tienen este desplazamiento en la cobertura más alta (Fig. 4B,C). Por lo tanto, para estos fragmentos, el aumento de la cobertura identifica de forma única Δ′ y por lo tanto la ubicación del sitio A. Para unas pocas combinaciones de (S, F), como (32, 0), la ambigüedad no se resuelve ni siquiera con una cobertura muy alta (Fig. 4D), lo que especulamos que puede deberse a que las características inherentes a la digestión con nucleasas son igualmente probables para más de un desplazamiento.

Figura 4

El aumento de la cobertura identifica las ubicaciones del sitio A para las combinaciones de S y F que eran inicialmente ambiguas. Se representa el porcentaje de transcripciones con un valor Δ particular para diferentes combinaciones S y F del conjunto de datos de S. cerevisiae. En cada panel, se trazan múltiples distribuciones correspondientes a transcritos con una cobertura creciente, indicada por la leyenda en la parte inferior. Por ejemplo, las distribuciones en azul y rojo proceden de transcritos con, respectivamente, al menos 1 o 2 lecturas por codón de media. Observamos que la localización del sitio A tiende hacia 15 nt para S = 25, F = 0 (A) y hacia 18 nt para S = 27, F = 2 (B), y S = 30, F = 1 (C). Para S = 32, F = 0 (D), no hay ninguna tendencia incluso con una cobertura más alta. Obsérvese que para S = 27, F = 2 (panel B), hay menos de 10 genes con una media superior a 50 lecturas por codón y, por tanto, no incluimos el punto de datos más allá de la media superior a 45 lecturas por codón (véase Métodos). Las barras de error representan intervalos de confianza del 95% calculados mediante Bootstrapping.

Así, una cobertura suficientemente alta produce la tabla de offset óptima representada en la Tabla 1, donde el offset es la localización más probable del sitio A en relación con el extremo 5′ de los fragmentos de ARNm generados en S. cerevisiae.

Tabla 1 Las localizaciones del sitio A (desplazamientos de nucleótidos desde el extremo 5′) determinadas mediante la aplicación del algoritmo de Programación Entera al conjunto de datos de Pooled en S. cerevisiae se muestran en función del tamaño del fragmento y del marco.

Consistencia entre diferentes conjuntos de datos

Los datos de Ribo-Seq son sensibles a los protocolos experimentales que pueden introducir sesgos en la digestión y ligadura de los fragmentos protegidos por el ribosoma. La agrupación de conjuntos de datos ofrece la ventaja de una mayor cobertura, pero puede enmascarar los sesgos específicos de un conjunto de datos individual. Para determinar si nuestras compensaciones únicas (Tabla 1) son consistentes con los resultados de los conjuntos de datos individuales, aplicamos el algoritmo de Programación Entera a cada conjunto de datos individual. La mayoría de estos conjuntos de datos tienen una baja cobertura, lo que hace que haya menos genes que cumplan nuestros criterios de filtrado (Archivo Suplementario S1). Para cada desplazamiento único en la Tabla 1, lo clasificamos como consistente con un conjunto de datos individual siempre que el desplazamiento más probable del conjunto de datos individual (incluso si no alcanza el umbral del 70% debido a las limitaciones en la profundidad de la cobertura) sea el mismo que en la Tabla 1. Encontramos que la gran mayoría de las compensaciones únicas (22 de 24) en la Tabla 1 son consistentes en el 75% o más de los conjuntos de datos individuales (estadísticas reportadas en la Tabla Suplementaria S3). Sólo dos combinaciones (S, F) muestran incoherencias frecuentes. Las combinaciones (S, F) (27, 1) y (27, 2) son inconsistentes en el 33% o más de los conjuntos de datos individuales (Tabla Suplementaria S3). Esto sugiere que los investigadores que deseen minimizar los falsos positivos deberían descartar estas combinaciones (S, F) al crear perfiles de ribosomas del sitio A.

Robustez de la tabla de compensaciones a la variación del umbral

El algoritmo de Programación Entera utiliza dos umbrales para identificar compensaciones únicas. Uno de ellos es que el 70% de los genes presenten el desplazamiento más probable, el otro, diseñado para minimizar los falsos positivos que surgen debido al ruido de muestreo en los datos de Ribo-Seq, es que las lecturas en el primer codón sean menos de una quinta parte de las lecturas promedio en el segundo, tercer y cuarto codón. Aunque hay buenas razones para introducir estos criterios de umbral, los valores exactos de estos umbrales son arbitrarios. Por lo tanto, probamos si la variación de estos umbrales cambia los resultados reportados en la Tabla 1. Variamos el primer umbral al 60% y al 80%, y volvimos a calcular la tabla de desplazamiento. Informamos de si el desplazamiento único ha cambiado, poniendo una «R» o una «S» (para robusto y sensible, respectivamente) junto al desplazamiento informado en la Tabla Suplementaria S3. Encontramos que dos tercios de las combinaciones únicas (S, F) no cambian (Tabla Suplementaria S3). Las combinaciones (S, F) (25, 0), (25, 2), (27, 0), (27, 1), (28, 1), (31, 0), (33, 0) y (33, 2) se vuelven ambiguas cuando aumentamos el umbral al 80%.

Hemos variado el segundo umbral antes mencionado desde un quinto hasta uno y hasta un décimo, y encontramos que todas las combinaciones únicas (S, F) excepto (25, 2), (33, 0), (33, 2) y (34, 1) permanecen sin cambios (reportadas como ‘R’ en la Tabla Suplementaria S3). Por lo tanto, en resumen, en la gran mayoría de los casos, las compensaciones únicas reportadas en la Tabla 1 dependen muy poco de los valores específicos de estos umbrales.

Probando el algoritmo de Programación Entera contra datos artificiales de Ribo-Seq

Para probar la corrección y robustez de nuestro enfoque generamos un conjunto de datos de ocupaciones de ribosomas simuladas a través de 4.487 transcripciones de S. cerevisiae y preguntamos si nuestro método podía determinar con precisión las ubicaciones de los sitios A. Se generaron lecturas artificiales de Ribo-Seq a partir de estas ocupaciones asumiendo una distribución poissoniana en sus valores (S, F) utilizando longitudes de huella aleatorias similares a las encontradas en los experimentos (ver Métodos y Fig. Suplementaria S3A, B). Investigamos la capacidad de nuestro método para determinar correctamente las verdaderas ubicaciones de los sitios A para cuatro conjuntos diferentes de valores de desplazamiento predefinidos (ver Métodos). El algoritmo de Programación Entera se aplicó entonces a los datos artificiales de Ribo-Seq resultantes. Encontramos que la tabla de offset generada a partir del algoritmo reproduce los offsets de entrada utilizados (Fig. Suplementaria S3C y Tabla Suplementaria S4). Este procedimiento se repitió para diferentes distribuciones de la longitud de las lecturas, así como con diferentes compensaciones de entrada, y encontramos que las tablas de compensaciones generadas por nuestro algoritmo reproducen las tablas de compensaciones de entrada en más del 93% de todas las combinaciones (S, F) (Fig. Suplementaria S3B,C y Archivo Suplementario S2). El método identifica un pequeño número de compensaciones ambiguas debido a la baja cobertura de lecturas en las colas de las distribuciones. Un hallazgo que enfatiza aún más la importancia de la cobertura de lecturas como un factor crítico en la identificación precisa del sitio A.

Desplazamientos del sitio A en células madre embrionarias de ratón

El hecho biológico de que el sitio A de un ribosoma reside sólo entre el segundo y el codón de parada no se limita a S. cerevisiae y, por tanto, el algoritmo de Programación Entera debería ser aplicable a los datos de Ribo-Seq de cualquier organismo. Por lo tanto, aplicamos nuestro método a un conjunto de datos Ribo-Seq de células madre embrionarias de ratón (mESCs). La tabla resultante de compensaciones de sitios A mostró compensaciones ambiguas en todas las combinaciones excepto en tres (S, F) (Tabla Suplementaria S5). En las mESCs hay una elongación generalizada de la traducción que ocurre más allá de los límites de las regiones CDS anotadas en los marcos de lectura abiertos (uORFs) 20. El enriquecimiento de los fragmentos protegidos por el ribosoma de estos uORFs traductores puede dificultar a nuestro algoritmo la búsqueda de offsets únicos, ya que pueden contribuir con lecturas alrededor del codón de inicio de los CDSs anotados canónicamente. Por lo tanto, nuestra hipótesis es que si aplicamos nuestro algoritmo sólo a las transcripciones sin uORFs y que poseen un único sitio de iniciación, nuestro algoritmo debería identificar más desviaciones únicas. Ingolia y colaboradores11 han identificado experimentalmente para los transcritos mESCs bien traducidos su número de sitios de iniciación y si los uORFs están presentes. Por lo tanto, seleccionamos aquellos genes que tienen sólo un sitio de iniciación de la traducción cerca del codón de inicio anotado y además restringimos nuestro análisis a las transcripciones con una sola isoforma, ya que las isoformas múltiples pueden tener diferentes sitios de terminación.

La aplicación del algoritmo de Programación Entera a este conjunto de genes aumenta el número de compensaciones únicas de 3 a 13 (S, F) combinaciones (Tabla Suplementaria S6). La aplicación de las mismas pruebas de robustez y consistencia que hicimos en S. cerevisiae revela que el 77% de las compensaciones únicas son robustas a la variación del umbral, y un porcentaje similar es consistente a través de ambos conjuntos de datos individuales utilizados para crear los datos agrupados (Tabla Suplementaria S6). Por lo tanto, las compensaciones únicas que reportamos para mESCs son robustas y consistentes en la gran mayoría de los conjuntos de datos. Este resultado también indica que la identificación exitosa de las ubicaciones de los sitios A requiere el análisis de sólo aquellos transcritos que no contienen uORFs.

La programación de números no produce desviaciones únicas para E. coli

Como una prueba más de cuán ampliamente podemos aplicar nuestro algoritmo, lo aplicamos a los datos Pooled Ribo-Seq del organismo procariota E. coli. El número de genes que cumplen nuestros criterios de filtrado se indica en la Tabla Suplementaria S7. La MNasa, la nucleasa utilizada en el protocolo Ribo-Seq de E. coli, digiere el ARNm de forma sesgada, favoreciendo la digestión del extremo 5′ sobre el extremo 3′21,22. Por lo tanto, como se ha hecho en otros estudios21,22,23, aplicamos nuestro algoritmo de manera que identificamos la ubicación del sitio A como el desplazamiento desde el extremo 3′ en lugar del extremo 5′. Los ARNm policistrónicos (es decir, los transcritos que contienen múltiples CDS) pueden causar problemas a nuestro algoritmo debido a que las lecturas estrechamente espaciadas en los límites de los CDS contiguos se puntúan para diferentes desplazamientos en ambos CDS. Para evitar resultados inexactos, restringimos nuestro análisis a los 1.915 transcritos monocistrónicos que no tienen ningún otro transcrito dentro de los 40 nt aguas arriba o aguas abajo del CDS. Basándonos en nuestra experiencia en el análisis del conjunto de datos de mESCs, filtramos los transcritos con múltiples sitios de iniciación de la traducción, así como los transcritos cuyos sitios de iniciación anotados han sido discutidos. Nakahigashi y sus colaboradores24 han utilizado la tetraciclina como inhibidor de la traducción para identificar 92 transcritos en E. coli con sitios de iniciación diferentes de la anotación de referencia. También excluimos estos transcritos de nuestro análisis. Sin embargo, para este conjunto de datos de alta cobertura, encontramos compensaciones ambiguas para todas las combinaciones (S, F) (Tabla Suplementaria S5). Un análisis metagenético de la densidad normalizada de ribosomas en la CDS y en la región de 30 nt aguas arriba y aguas abajo revela firmas de traducción más allá de los límites de la CDS (Fig. Suplementaria S4), especialmente un enriquecimiento superior a la media de lecturas unos pocos nucleótidos antes del codón de inicio. Especulamos que el emparejamiento de bases de la secuencia Shine-Dalgarno (SD) con la secuencia complementaria anti-SD en el ARNr 16S25 protege estos pocos nucleótidos antes del codón de inicio de la digestión de la ribonucleasa y, por lo tanto, resulta en un enriquecimiento de las lecturas Ribo-Seq. Dado que estos «pseudo» fragmentos protegidos por el ribosoma no pueden diferenciarse de los fragmentos reales protegidos por el ribosoma que contienen un codón con el sitio A del ribosoma, nuestro algoritmo está limitado en su aplicación para estos datos.

Reproducción de motivos PPX y XPP conocidos que conducen a la ralentización de la traducción

En S. cerevisiae26 y E. coli21,27 ciertos motivos polipeptídicos PPX y XPP (en los que X corresponde a uno cualquiera de los 20 aminoácidos) pueden paralizar los ribosomas cuando el tercer residuo está en el sitio A. Los factores de elongación eIF5A (en S. cerevisiae) y EF-P (en E. coli) ayudan a aliviar el estancamiento inducido por algunos motivos pero no por otros26. Incluso en mESCs, Ingolia y colaboradores11 detectaron PPD y PPE como fuertes motivos de pausa. Por lo tanto, examinamos si nuestro enfoque puede reproducir los motivos de pausa conocidos. Lo hicimos calculando la densidad de lectura normalizada en las diferentes ocurrencias de un motivo PPX y XPP.

En S. cerevisiae, observamos grandes densidades de ribosomas en PPG, PPD, PPE y PPN (Fig. 5A), todos ellos clasificados como fuertes motivos de estancamiento en S. cerevisiae26 y también en E. coli27. Por el contrario, no hay estancamiento, en promedio, en PPP, lo que coincide con otros estudios26. Esto se debe probablemente a la acción de eIF5A. Para los motivos XPP, el estancamiento más fuerte se observó para los motivos GPP y DPP, que son consistentes con los resultados en S. cerevisiae y en E. coli (Fig. 5B). En mESCs, observamos el estancamiento más fuerte en PPE y PPD, reproduciendo los resultados de Ingolia y colaboradores11 (Fig. Suplementaria S5A). En el caso de los motivos XPP, observamos un estancamiento muy débil sólo en DPP (Supplementary Fig. S5B). Por lo tanto, nuestro enfoque para mapear el sitio A en las huellas del ribosoma permite la detección precisa de la pausa de traducción establecida en motivos particulares de polipéptidos nacientes PPX y XPP.

Figura 5

Varios motivos PPX y XPP conducen al estancamiento ribosomal en S. cerevisiae. La mediana de la densidad ribosómica normalizada se obtiene para todos los casos de (A) PPX y (B) motivos XPP en los que X corresponde a cualquiera de los 20 aminoácidos naturales. Mediante una prueba de permutación, determinamos si la mediana de la densidad de ribosomas es estadísticamente significativa o se produce por azar. Los motivos estadísticamente significativos están resaltados en rojo oscuro. Este análisis se llevó a cabo en el conjunto de datos Pop para las transcripciones en las que al menos el 50% de las posiciones de codones tienen lecturas asignadas a ellas. Las barras de error son intervalos de confianza del 95% para la mediana obtenida mediante Bootstrapping.

Un estudio de datos Ribo-Seq de células de mamíferos28 observó una pausa de traducción independiente de la secuencia cuando el 5º codón del transcrito se encuentra en el sitio P. Esta pausa post-iniciación también se observó en un estudio in vitro de la síntesis de polifenilalanina donde se observó un estancamiento cuando el 4º codón estaba en el sitio P29. Con los perfiles del sitio A obtenidos utilizando nuestras tablas de compensación para S. cerevisiae y mESCs; también observamos estos eventos de pausa cuando tanto el 4º como el 5º codón están en el sitio P (Fig. Suplementaria S6).

Mayor precisión en la localización del sitio A que otros métodos

No existe ningún método experimental independiente para verificar la precisión de las localizaciones del sitio A identificadas utilizando nuestro método o cualquier otro método4,5,6,7,8,9,10,12,30,31,32,33,34,35. Sostenemos que la bien establecida pausa del ribosoma en determinados motivos de la secuencia PPX es el mejor medio disponible para diferenciar la precisión de los métodos existentes. La razón de esto es que estos motivos de pausa han sido identificados en E. coli36,37 y S. cerevisiae38 a través de métodos experimentales ortogonales (incluyendo estudios de enzimología e impresión de dedos), y se sabe que la localización exacta del sitio A durante dicha pausa está en el codón que codifica el tercer residuo del motivo 36. Así, el método de identificación del sitio A más preciso será el que asigne con mayor frecuencia una mayor densidad de ribosomas a X en cada aparición del motivo PPX.

Aplicamos esta prueba a los motivos PPX de ralentización más fuertes, es decir, PPG en S. cerevisiae y PPE en mESCs. En S. cerevisiae, el método de Programación Entera produce la mayor densidad de ribosomas en el codón de glicina del motivo PPG cuando se aplica a los conjuntos de datos Pooled (Fig. 6A) y Pop (Supplementary Fig. S7A). Examinando cada ocurrencia de PPG en nuestro conjunto de datos de genes, encontramos que en la mayoría de los casos nuestro método asigna más densidad de ribosomas a la glicina que cualquier otro método cuando se aplica tanto al Pooled (Fig. 6B, prueba de rango con signo de Wilcoxon (n = 224), P < 0.0005 para todos los métodos excepto Hussmann (P = 0,164)) y los conjuntos de datos Pop (Supplementary Fig. S7B, Wilcoxon signed-rank test (n = 35), P < 10-5 para todos los métodos excepto Hussmann (P = 0,026) y Ribodeblur (P = 0,01)). Los mismos análisis aplicados a mESCs en motivos PPE muestra que nuestro método supera a los otros nueve métodos (Fig. 6C,D) con nuestro método la asignación de una mayor densidad de ribosomas en el ácido glutámico para al menos el 85% de los motivos PPE en nuestro conjunto de datos en comparación con todos los demás métodos (Fig. 6D, Wilcoxon signed-rank test (n = 104), P < 10-15 para todos los métodos). Así, para S. cerevisiae y mESCs nuestro enfoque de Programación Entera es más preciso que otros métodos en la identificación del sitio A en los fragmentos protegidos por el ribosoma.

Figura 6

El algoritmo de Programación Entera asigna correctamente una mayor densidad de ribosomas que otros métodos a la Glicina en motivos PPG en S. cerevisiae y al ácido Glutámico en motivos PPE en mESCs. (A) Se muestra la densidad normalizada de ribosomas obtenida mediante los distintos métodos utilizados para identificar el sitio A para un caso de motivo PPG en el gen YLR375W con G en la posición del codón 303 en el conjunto de datos de S. cerevisiae (La leyenda indica el método y los detalles completos de cada método se encuentran en la sección Métodos). (B) La fracción de casos de PPG (n = 224) en los que el método de Programación Entera produce una mayor densidad de ribosomas en la glicina en comparación con todos los demás métodos. El código de colores es el mismo que se muestra en la leyenda del panel (A). Nuestro método es mejor si asigna una mayor densidad de ribosomas en más de la mitad de los casos (línea horizontal en el panel B). El método de Programación Entera lo hace mejor que todos los demás métodos (P < 0,0005) excepto el de Hussmann, que no es estadísticamente diferente (P = 0,164). (C) Se muestra la densidad normalizada de ribosomas para un caso de motivo PPE en el gen uc007zma.1 con E en la posición del codón 127 en el conjunto de datos de CME de ratón (véase la leyenda y el texto principal para más detalles sobre los métodos). (D) La fracción de instancias PPE en las que el método de Programación Entera produce una mayor densidad de ribosomas en el ácido glutamático en comparación con cualquier otro método. El código de colores es el mismo que se muestra en la leyenda del panel (C). El método de Programación Entera es mejor que todos los demás métodos (P < 10-15) para asignar con precisión la densidad de ribosomas al ácido glutámico en los motivos PPE (n = 104). Para los análisis presentados en (B) y (D), se calcularon los valores p de dos caras utilizando la prueba de rango con signo de Wilcoxon. Las barras de error representan el intervalo de confianza del 95% sobre la mediana calculado mediante Bootstrapping.

Un gran número de factores moleculares influyen en las tasas de traducción de codones y en la densidad de ribosomas a lo largo de los transcritos39. Uno de los factores es la concentración de ARNt cognado, ya que los codones decodificados por el ARNt cognado con mayores concentraciones deberían tener en promedio menores densidades de ribosomas15,16,40. Por lo tanto, como una prueba cualitativa adicional, esperamos que el método más preciso del sitio A produzca la mayor anticorrelación entre la densidad del ribosoma en un codón y su concentración de ARNt cognado. Esta prueba es sólo cualitativa, ya que la correlación entre la densidad del ribosoma en el codón y la concentración de ARNt cognado puede verse afectada por otros factores, como el uso del codón y la reutilización de los ARNt recargados en las proximidades del ribosoma41,42. Utilizando las abundancias de ARNt previamente estimadas a partir de experimentos de RNA-Seq en S. cerevisiae16, encontramos que nuestro método de Programación Entera produce la mayor anticorrelación en comparación con los otros once métodos considerados (Tabla Suplementaria S8), apoyando aún más la precisión de nuestro método. No pudimos realizar esta prueba en mESCs ya que las mediciones de la concentración de ARNt no han sido reportadas en la literatura.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.