Identification des emplacements des sites A et P sur les fragments d’ARNm protégés par le ribosome à l’aide de la programmation en nombres entiers

Algorithme de programmation en nombres entiers

Dans l’analyse des données Ribo-Seq, les fragments d’ARNm sont initialement alignés sur le transcriptome de référence et leur emplacement est rapporté par rapport à leur extrémité 5′. Cela signifie qu’un fragment contribuera à une lecture qui est rapportée sur la coordonnée du génome à laquelle le nucléotide de l’extrémité 5′ du fragment est aligné (figure 1A). Dans les données Ribo-Seq, on observe des fragments de différentes longueurs qui peuvent provenir d’une digestion incomplète de l’ARN et de la nature stochastique du clivage de l’ARNm par la RNase utilisée dans l’expérience (Fig. 2, Fig. supplémentaire S1). Un défi central dans l’analyse quantitative des données Ribo-Seq est d’identifier à partir de ces lectures Ribo-Seq où les sites A et P étaient situés au moment de la digestion. Cette tâche n’est pas aisée car une digestion incomplète et un clivage stochastique peuvent se produire aux deux extrémités du fragment. Par exemple, la digestion de l’ARNm résultant en un fragment de taille 29 nt peut se produire de différentes manières, dont deux sont illustrées dans la figure 1B. La quantité que nous devons estimer avec précision est le nombre de nucléotides qui séparent le codon du site A de l’extrémité 5′ du fragment, que nous appelons le décalage et que nous désignons par Δ. Connaître Δ détermine la position du site A ainsi que du site P puisque le site P sera toujours à Δ moins 3 nt.

Figure 1

L’emplacement du site A peut être défini comme un décalage par rapport à l’extrémité 5′ des fragments protégés par le ribosome. (A) Représentation schématique d’un ribosome en translation (dessin du haut) et du décalage ∆ entre les lectures Ribo-Seq cartographiées par rapport à l’extrémité 5′ des empreintes et centrées sur le site A (barres bleues). Le ribosome est représenté protégeant un fragment de 28 nt avec son extrémité 5′ dans le cadre de lecture 0, tel que défini à partir du codon de départ ATG du gène. Les sites E, P et A du ribosome sont indiqués. Les lectures sont ensuite décalées de l’extrémité 5′ vers le site A par la valeur de décalage ∆. (B) La digestion stochastique par nucléase peut donner lieu à différents fragments. Les deux variantes les plus probables d’une empreinte de 29 nt avec l’extrémité 5′ dans le cadre 1 sont montrées avec leurs limites cartographiées par des lignes en pointillés s’alignant sur le génome, ce qui peut entraîner des décalages de 15 nt (en haut) et 18 nt (en bas), respectivement. (C) Pour illustrer l’application de l’algorithme de programmation en nombres entiers, considérons une transcription hypothétique d’une longueur de 60 nt. Le premier panneau montre le profil du ribosome provenant des lectures attribuées à l’extrémité 5′ des fragments de taille 33 dans le cadre 0. Le codon de départ et le codon stop sont indiqués tandis que le reste de la région CDS est coloré en pêche clair. L’algorithme décale ce profil ribosomal de 3 nt et calcule la fonction objective \(\,T({\rm{\Delta }}|i,S,F)\). L’ampleur du décalage est le décalage Δ. Les valeurs de \(\,T({\rm{\Delta }}|i,S,F)\) pour Δ = 12, 15, 18, 21 nts sont indiquées. Dans cet exemple, le nombre moyen de lectures par codon est de 7,85. La différence entre les deux premiers décalages, 18 (T = 222) et 15 (T = 215), est inférieure à la moyenne. Par conséquent, nous vérifions le critère secondaire (Résultats). Le décalage 18 répond au critère selon lequel le nombre de lectures dans le codon de départ est inférieur à un cinquième de la moyenne des lectures dans les deuxième, troisième et quatrième codons et également que le nombre de lectures dans le deuxième codon est supérieur aux lectures dans le troisième codon. Par conséquent, Δ = 18 nt est le décalage optimal pour ce transcrit.

Figure 2

distribution de la taille des fragments d’ARNm pour l’ensemble de données Ribo-Seq de S. cerevisiae de Pop et ses collaborateurs (A) et l’ensemble de données groupées (B).

Notre solution à ce problème repose sur le fait biologique que pour les transcrits canoniques, sans traduction en amont, le site A des ribosomes en traduction active doit être situé entre le deuxième codon et le codon stop du CDS17. Par conséquent, la valeur de décalage optimale Δ pour les fragments d’une taille (S) et d’un cadre de lecture (F) particuliers est celle qui maximise le nombre total de lectures \(\,T({\rm{\Delta }}|i,S,F)\) entre ces codons pour chaque gène i sur lequel les fragments sont mappés. La taille d’un fragment d’ARNm S est mesurée en nucléotides, et le cadre F a des valeurs de 0, 1 ou 2 telles que définies par le codon de départ du gène ATG et correspond au cadre dans lequel le nucléotide d’extrémité 5′ du fragment est situé (Fig. 1A). Le cadre F de l’extrémité 5′ est le résultat de la digestion par la RNase et il est distinct du cadre de lecture du ribosome qui traduit généralement dans le cadre (cadre 0 du site A). En d’autres termes, pour chaque combinaison de (S, F), nous décalons le profil de lecture aligné en 5′ de 3 nucléotides à la fois (pour préserver le cadre de lecture F) jusqu’à identifier la valeur ∆ qui maximise les lectures entre le deuxième codon et le codon stop (figure 1C, voir sous-section suivante). Cette procédure est effectuée systématiquement pour chaque taille de fragment S et cadre de lecture F séparément, car chacun peut avoir (et nous trouvons que certains ont) un ∆ optimal différent.

Tout en identifiant la valeur Δ′ pour chaque gène de notre ensemble de données, nous minimisons également l’apparition de faux positifs en nous assurant que le score le plus élevé, \(\,T({\rm{\Delta }}^{\prime} |i,S,F)\), est significativement plus élevé que le score le plus élevé suivant, \(T({\rm{\Delta }}^{\prime\prime} |i,S,F)\), qui se produit à un décalage différent Δ″. Si la différence entre les deux meilleurs scores est inférieure au nombre moyen de lectures par codon, nous appliquons les critères de sélection supplémentaires suivants. Pour choisir entre Δ′ et Δ″, nous sélectionnons celui qui donne un nombre de lectures au codon de départ inférieur d’au moins un cinquième au nombre moyen de lectures aux deuxième, troisième et quatrième codons. Nous exigeons en outre que le deuxième codon ait un plus grand nombre de lectures que le troisième codon. La base biologique de ces critères supplémentaires est que le véritable décalage (c’est-à-dire l’emplacement réel du site A) ne peut pas être localisé au niveau du codon de départ, et que le nombre de lectures au niveau du deuxième codon devrait être plus élevé en moyenne que le troisième codon en raison des contributions de l’étape d’initiation de la traduction, au cours de laquelle le ribosome s’assemble sur l’ARNm avec le codon de départ dans le site P. Ci-dessous, nous démontrons que les résultats de notre méthode sont robustes aux changements de ces seuils.

Illustration de la procédure d’optimisation par programmation en nombres entiers

La taille des fragments et la distribution des cadres des fragments protégés par le ribosome (figure 2) chez S. cerevisiae ne dépendent pas du gène (figure supplémentaire S2), et par conséquent, les valeurs de décalage Δ ne devraient pas non plus dépendre du gène. Ainsi, l’emplacement du site A, par rapport à l’extrémité 5′ d’un fragment de taille S et de cadre F, correspond à la valeur la plus probable du décalage sur l’ensemble des gènes de l’ensemble de données.

L’emplacement des sites A dans les données Ribo-Seq de S. cerevisiae dépend de la taille du fragment et du cadre

Nous avons d’abord appliqué la méthode de programmation en nombres entiers aux données Ribo-Seq de S. cerevisiae publiées par Pop et ses collaborateurs19. Pour chaque combinaison de S et F, nous avons d’abord identifié les gènes qui ont au moins 1 lecture par codon en moyenne dans leur profil ribosomique correspondant. Le nombre de gènes répondant à ce critère est indiqué dans le tableau supplémentaire S1. Nous avons ensuite appliqué la méthode de programmation en nombres entiers à ce sous-ensemble de gènes. Les distributions résultantes des valeurs Δ sont présentées dans la figure 3A pour différentes combinaisons de longueur de fragment et de cadre. Nous ne montrons les résultats que pour les tailles de fragment comprises entre 27 et 33 nt car plus de 90 % des lectures se situent dans cette plage (Fig. 2A). La valeur de décalage la plus probable pour toutes les tailles de fragment entre 20 et 35 nt est rapportée sous forme de tableau de décalage (tableau supplémentaire S2).

Figure 3

Distribution des valeurs de décalage de l’algorithme de programmation en nombres entiers appliqué aux transcriptions de S. cerevisiae. Les données tracées en (A) proviennent de l’ensemble de données Pop, et (B) de l’ensemble de données Pooled. Les distributions sont tracées en fonction de la valeur de décalage et, pour des tailles de fragment de 27 à 33 nt, sont indiquées, de gauche à droite, pour les cadres 0, 1 et 2. Pour une taille de fragment et un cadre donnés, l’emplacement du site A se trouve à la valeur Δ la plus probable dans la distribution, à condition que le décalage se produise pour plus de 70 % des gènes (lignes pointillées dans les panneaux). Les barres d’erreur représentent les intervalles de confiance à 95 % calculés à l’aide du Bootstrapping. La taille des échantillons est indiquée dans le tableau supplémentaire S1.

Nous voyons que la valeur Δ optimale – c’est-à-dire l’emplacement du site A – change pour différentes combinaisons de S et F, les valeurs les plus probables se situant soit à 15, soit à 18 nt. Ainsi, l’emplacement du site A dépend de S et F. Dans la plupart des cas, il y a un pic dominant pour une paire de valeurs S et F donnée. Par exemple, pour les fragments de taille 27 à 30 nt dans le cadre 0, plus de 70 % de leurs valeurs Δ optimisées par gène se trouvent à 15 nt de l’extrémité 5′ de ces fragments. Des résultats similaires sont trouvés pour d’autres combinaisons telles que les tailles 30, 31 et 32 nt dans le cadre 1 et 28 à 32 nt dans le cadre 2, où les valeurs Δ optimisées sont de 18 nt. Ainsi, à travers le transcriptome, la position du codon du site A sur ces fragments est identifiée de manière unique.

Il existe cependant des combinaisons S et F qui ont des emplacements de site A ambigus sur la base de ces distributions. Par exemple, pour les fragments de taille 27 nt dans le cadre 1, 47% des valeurs Δ optimisées pour le gène sont à 15 nt tandis que 30% sont à 18 nt. Des résultats similaires sont observés pour les fragments 28 et 29 nt dans le cadre 1, et 31 et 32 nt dans le cadre 0. Ainsi, pour ces combinaisons S et F, il existe une probabilité similaire que le site A soit situé à un codon ou à un autre, et il semblerait donc que nous ne puissions pas identifier de manière unique l’emplacement du site A.

Une couverture plus élevée conduit à plus de décalages uniques

Nous avons émis l’hypothèse que l’ambiguïté dans l’identification du site A pour des combinaisons S et F particulières peut être due à une faible couverture (c’est-à-dire, de mauvaises statistiques d’échantillonnage). Pour tester cette hypothèse, nous avons regroupé les lectures de différents ensembles de données Ribo-Seq publiés en un seul ensemble de données avec, par conséquent, une couverture plus élevée et plus de gènes répondant à nos critères de sélection (tableau supplémentaire S1). L’application de notre méthode à cet ensemble de données groupées donne des décalages uniques pour un plus grand nombre de combinaisons S et F par rapport à l’ensemble de données Pop original (Fig. 3B et Tableau supplémentaire S2), ce qui est conforme à notre hypothèse. Par exemple, pour les fragments de taille 27 et le cadre 1, nous avons maintenant le décalage unique de 15 nt avec 72% des valeurs Δ optimisées pour le gène à 15 nt (Fig. 3B). Cependant, nous voyons toujours l’ambiguïté présente pour certaines combinaisons (S, F).

Nous avons employé une stratégie supplémentaire pour augmenter la couverture en restreignant notre analyse aux gènes avec une plus grande moyenne de lectures par codon. Si l’hypothèse est correcte, alors nous devrions voir une tendance statistiquement significative d’une augmentation de la valeur Δ la plus probable avec une profondeur de lecture croissante. Nous avons appliqué cette analyse à l’ensemble de données regroupées et constaté que certaines combinaisons S et F initialement ambiguës deviennent non ambiguës lorsque la couverture augmente. Par exemple, à une moyenne de 1 lecture par codon, les combinaisons (S, F) de (25, 0), (27, 2) et (30, 1) sont ambiguës car elles tombent sous notre seuil de 70%. Cependant, nous observons une tendance statistiquement significative (pente = 0,5, p = 3,94 × 10-6) pour les fragments de (25, 0) selon laquelle le décalage de 15 nt devient plus probable lorsque la couverture augmente, pour finalement franchir le seuil de 70 % (figure 4A). De même, pour (27, 2) (pente = 0,58, p = 5,77 × 10-5) et (30, 1) (pente = 0,25, p = 0,009), on observe une tendance vers un décalage de 18 nt, plus de 70 % des gènes présentant ce décalage à la couverture la plus élevée (Fig. 4B,C). Par conséquent, pour ces fragments, l’augmentation de la couverture identifie de manière unique Δ′ et donc l’emplacement du site A. Pour quelques combinaisons de (S, F), comme (32, 0), l’ambiguïté n’est pas résolue même avec une couverture très élevée (Fig. 4D), ce qui, selon nous, pourrait être dû à des caractéristiques inhérentes à la digestion par nucléase qui sont également probables pour plus d’un décalage.

Figure 4

Une couverture croissante identifie les emplacements du site A pour les combinaisons S et F qui étaient initialement ambiguës. Le pourcentage de transcrits avec une valeur Δ particulière pour différentes combinaisons S et F de l’ensemble de données groupées de S. cerevisiae est tracé. Dans chaque panneau, plusieurs distributions sont tracées correspondant à des transcrits avec une couverture croissante, indiquée par la légende en bas. Par exemple, les distributions en bleu et en rouge proviennent de transcrits avec, respectivement, au moins 1 ou 2 lectures par codon en moyenne. On observe que la localisation du site A tend vers 15 nt pour S = 25, F = 0 (A) et vers 18 nt pour S = 27, F = 2 (B), et S = 30, F = 1 (C). Pour S = 32, F = 0 (D), il n’y a pas de tendance même à une couverture plus élevée. Notez que pour S = 27, F = 2 (panneau B), il y a moins de 10 gènes avec une moyenne supérieure à 50 lectures par codon et donc nous n’incluons pas le point de données au-delà de la moyenne supérieure à 45 lectures par codon (voir Méthodes). Les barres d’erreur représentent les intervalles de confiance à 95 % calculés à l’aide de Bootstrapping.

Ainsi, une couverture suffisamment élevée donne le tableau de décalage optimal représenté dans le tableau 1, où le décalage est l’emplacement le plus probable du site A par rapport à l’extrémité 5′ des fragments d’ARNm générés dans S. cerevisiae.

Tableau 1 Les emplacements du site A (décalages des nucléotides par rapport à l’extrémité 5′) déterminés par l’application de l’algorithme de programmation en nombre entier à l’ensemble de données groupées chez S. cerevisiae sont représentés en fonction de la taille du fragment et du cadre.

Consistance entre différents ensembles de données

Les données Ribo-Seq sont sensibles aux protocoles expérimentaux qui peuvent introduire des biais dans la digestion et la ligature des fragments protégés par le ribosome. La mise en commun des ensembles de données offre l’avantage d’une couverture plus élevée, mais elle peut masquer les biais spécifiques à un ensemble de données individuel. Pour déterminer si nos décalages uniques (tableau 1) sont cohérents avec les résultats des ensembles de données individuels, nous avons appliqué l’algorithme de programmation en nombres entiers à chaque ensemble de données individuel. La plupart de ces ensembles de données ont une faible couverture, ce qui fait que moins de gènes répondent à nos critères de filtrage (fichier supplémentaire S1). Pour chaque décalage unique du tableau 1, nous le classons comme étant cohérent avec un ensemble de données individuel à condition que le décalage le plus probable de l’ensemble de données individuel (même s’il n’atteint pas le seuil de 70 % en raison des limites de la profondeur de couverture) soit le même que celui du tableau 1. Nous constatons que la grande majorité des décalages uniques (22 sur 24) du tableau 1 sont cohérents dans 75 % ou plus des ensembles de données individuels (statistiques présentées dans le tableau supplémentaire S3). Seules deux combinaisons (S, F) présentent des incohérences fréquentes. Les combinaisons (S, F) (27, 1) et (27, 2) sont incohérentes dans 33 % ou plus des ensembles de données individuels (tableau supplémentaire S3). Cela suggère que les chercheurs qui souhaitent minimiser les faux positifs devraient écarter ces combinaisons (S, F) lors de la création de profils de ribosomes de site A.

Robustesse de la table de décalage à la variation du seuil

L’algorithme de programmation en nombre entier utilise deux seuils pour identifier les décalages uniques. Le premier est que 70 % des gènes présentent le décalage le plus probable, le second, conçu pour minimiser les faux positifs dus au bruit d’échantillonnage des données Ribo-Seq, est que les lectures du premier codon soient inférieures à un cinquième des lectures moyennes des deuxième, troisième et quatrième codons. S’il existe de bonnes raisons d’introduire ces critères de seuil, les valeurs exactes de ces seuils sont arbitraires. Par conséquent, nous avons testé si la variation de ces seuils modifie les résultats présentés dans le tableau 1. Nous avons fait varier le premier seuil à 60 % et 80 %, puis nous avons recalculé le tableau des décalages. Nous indiquons si le décalage unique a changé en listant un ‘R’ ou un ‘S’ (pour robuste et sensible, respectivement) à côté du décalage rapporté dans le tableau supplémentaire S3. Nous constatons que les deux tiers des combinaisons uniques (S, F) ne changent pas (tableau supplémentaire S3). Les combinaisons (S, F) (25, 0), (25, 2), (27, 0), (27, 1), (28, 1), (31, 0), (33, 0) et (33, 2) deviennent ambiguës lorsque nous avons augmenté le seuil à 80%.

Nous avons fait varier le deuxième seuil susmentionné de un cinquième jusqu’à un et jusqu’à un dixième, et nous constatons que toutes les combinaisons uniques (S, F) à l’exception de (25, 2), (33, 0), (33, 2) et (34, 1) restent inchangées (signalées comme ‘R’ dans le tableau supplémentaire S3). Ainsi, en résumé, dans la grande majorité des cas, les décalages uniques signalés dans le tableau 1 dépendent très peu des valeurs spécifiques de ces seuils.

Tester l’algorithme de programmation en nombres entiers contre des données Ribo-Seq artificielles

Pour tester l’exactitude et la robustesse de notre approche, nous avons généré un ensemble de données d’occupations de ribosomes simulées à travers 4 487 transcriptions de S. cerevisiae et nous avons demandé si notre méthode pouvait déterminer avec précision les emplacements du site A. Des lectures Ribo-Seq artificielles ont été générées à partir de ces occupations en supposant une distribution poissonnienne de leurs valeurs (S, F) et en utilisant des longueurs d’empreinte aléatoires similaires à celles trouvées dans les expériences (voir Méthodes et figures supplémentaires S3A, B). Nous avons étudié la capacité de notre méthode à déterminer correctement les véritables emplacements des sites A pour quatre ensembles différents de valeurs de décalage prédéfinies (voir Méthodes). L’algorithme de programmation en nombres entiers a ensuite été appliqué aux données Ribo-Seq artificielles résultantes. Nous constatons que la table de décalage générée par l’algorithme reproduit les décalages d’entrée utilisés (figure supplémentaire S3C et tableau supplémentaire S4). Cette procédure a été répétée pour différentes distributions de longueur de lecture ainsi qu’avec différents décalages d’entrée et nous constatons que les tables de décalage générées par notre algorithme reproduisent les tables de décalage d’entrée dans plus de 93 % de toutes les combinaisons (S, F) (figure supplémentaire S3B,C et fichier supplémentaire S2). La méthode identifie un petit nombre de décalages ambigus en raison de la faible couverture des lectures dans les queues des distributions. Cette constatation souligne l’importance de la couverture de lecture comme facteur critique pour l’identification précise du site A.

Décalages du site A dans les cellules souches embryonnaires de souris

Le fait biologique que le site A d’un ribosome réside uniquement entre le deuxième codon et le codon stop ne se limite pas à S. cerevisiae et, par conséquent, l’algorithme de programmation en nombres entiers devrait être applicable aux données Ribo-Seq de n’importe quel organisme. Nous avons donc appliqué notre méthode à un ensemble de données Ribo-Seq groupées de cellules souches embryonnaires de souris (CSEm). Le tableau de décalage des sites A qui en résulte présente des décalages ambigus pour toutes les combinaisons (S, F) sauf trois (tableau supplémentaire S5). Dans les CSEm, l’élongation de la traduction est très répandue et se produit au-delà des limites des régions CDS annotées dans les cadres de lecture ouverts en amont (uORF)20. L’enrichissement des fragments protégés par le ribosome de ces uORF de traduction peut rendre difficile la recherche de décalages uniques par notre algorithme, car ils peuvent contribuer aux lectures autour du codon de départ des CDS annotés canoniques. Nous avons donc émis l’hypothèse que si nous appliquons notre algorithme aux seuls transcrits dépourvus d’uORF et possédant un seul site d’initiation, notre algorithme devrait identifier davantage de décalages uniques. Ingolia et ses collègues11 ont identifié expérimentalement, pour des transcrits de CSEm bien traduits, le nombre de sites d’initiation et la présence ou non d’uORF. Par conséquent, nous avons sélectionné les gènes qui n’ont qu’un seul site d’initiation de la traduction près du codon de départ annoté et nous avons en outre restreint notre analyse aux transcriptions avec une seule isoforme, car les isoformes multiples peuvent avoir des sites de terminaison différents.

L’application de l’algorithme de programmation en nombre entier à cet ensemble de gènes augmente le nombre de décalages uniques de 3 à 13 (S, F) combinaisons (tableau supplémentaire S6). L’application des mêmes tests de robustesse et de cohérence que pour S. cerevisiae révèle que 77 % des décalages uniques sont robustes à la variation du seuil et qu’un pourcentage similaire est cohérent dans les deux ensembles de données individuels utilisés pour créer les données groupées (tableau supplémentaire S6). Ainsi, les offsets uniques que nous rapportons pour les CSEm sont robustes et cohérents dans la grande majorité des ensembles de données. Ce résultat indique également que l’identification réussie des emplacements de sites A nécessite d’analyser uniquement les transcrits qui ne contiennent pas d’uORF.

La programmation des nombres entiers ne produit pas de décalages uniques pour E. coli

Pour tester davantage la portée de notre algorithme, nous l’avons appliqué à des données Ribo-Seq regroupées provenant de l’organisme procaryote E. coli. Le nombre de gènes répondant à nos critères de filtrage est indiqué dans le tableau supplémentaire S7. La MNase, la nucléase utilisée dans le protocole Ribo-Seq de E. coli, digère l’ARNm de manière biaisée – favorisant la digestion de l’extrémité 5′ par rapport à l’extrémité 3′21,22. Par conséquent, comme cela a été fait dans d’autres études21,22,23, nous avons appliqué notre algorithme de telle sorte que nous avons identifié l’emplacement du site A comme le décalage de l’extrémité 3′ au lieu de l’extrémité 5′. Les ARNm polycistroniques (c’est-à-dire les transcrits contenant plusieurs CDS) peuvent poser des problèmes à notre algorithme, car des lectures très rapprochées aux limites de CDS contigus sont évaluées pour différents décalages dans les deux CDS. Pour éviter des résultats inexacts, nous limitons notre analyse aux 1 915 transcriptions monocistroniques qui n’ont pas d’autre transcription dans les 40 nt en amont ou en aval de la CDS. Sur la base de notre expérience dans l’analyse de l’ensemble de données des CSEm, nous éliminons par filtrage les transcrits comportant plusieurs sites d’initiation de la traduction ainsi que les transcrits dont les sites d’initiation annotés ont été contestés. Nakahigashi et ses collègues24 ont utilisé la tétracycline comme inhibiteur de traduction pour identifier 92 transcrits dans E. coli avec des sites d’initiation différents de l’annotation de référence. Nous excluons également ces transcrits de notre analyse. Cependant, pour cet ensemble de données groupées à couverture élevée, nous trouvons des décalages ambigus pour toutes les combinaisons (S, F) (tableau supplémentaire S5). Une analyse méta-génique de la densité normalisée des ribosomes dans la CDS et dans la région de 30 nt en amont et en aval révèle des signatures de traduction au-delà des limites de la CDS (figure supplémentaire S4), notamment un enrichissement supérieur à la moyenne des lectures quelques nucléotides avant le codon de départ. Nous supposons que l’appariement des bases de la séquence Shine-Dalgarno (SD) avec la séquence complémentaire anti-SD dans l’ARNr 16S25 protège ces quelques nucléotides avant le codon de départ de la digestion par les ribonucléases et entraîne donc un enrichissement des lectures Ribo-Seq. Comme ces « pseudo » fragments protégés par le ribosome ne peuvent être différenciés des fragments réels protégés par le ribosome contenant un codon avec le site A du ribosome, notre algorithme est limité dans son application pour ces données.

Reproduction des motifs PPX et XPP connus qui entraînent un ralentissement traductionnel

Dans S. cerevisiae26 et E. coli21,27 certains motifs polypeptidiques PPX et XPP (dans lesquels X correspond à l’un quelconque des 20 acides aminés) peuvent faire caler les ribosomes lorsque le troisième résidu se trouve dans le site A. Les facteurs d’élongation eIF5A (dans S. cerevisiae) et EF-P (dans E. coli) aident à soulager le décrochage induit par certains motifs mais pas d’autres26. Même dans les CSEm, Ingolia et ses collègues11 ont détecté PPD et PPE comme étant des motifs de pause forts. Nous avons donc examiné si notre approche pouvait reproduire les motifs de blocage connus. Pour ce faire, nous avons calculé la densité de lecture normalisée aux différentes occurrences d’un motif PPX et XPP.

Dans S. cerevisiae, nous avons observé de grandes densités de ribosomes à PPG, PPD, PPE et PPN (Fig. 5A), qui ont tous été classés comme de forts motifs de décrochage dans S. cerevisiae26 et également dans E. coli27. En revanche, il n’y a pas de décrochage, en moyenne, à PPP, ce qui est cohérent avec d’autres études26. Ceci est très probablement dû à l’action d’eIF5A. Pour les motifs XPP, le blocage le plus fort a été observé pour les motifs GPP et DPP, ce qui est cohérent avec les résultats obtenus chez S. cerevisiae et chez E. coli (Fig. 5B). Dans les CSEm, nous observons le blocage le plus fort au niveau de l’EPP et de la PPD, ce qui reproduit les résultats d’Ingolia et de ses collaborateurs11 (Fig. S5A supplémentaire). Pour les motifs XPP, nous avons observé un très faible décrochage uniquement pour DPP (Fig. S5B supplémentaire). Ainsi, notre approche pour cartographier le site A sur les empreintes ribosomiques permet la détection précise de la pause de traduction établie à des motifs polypeptidiques naissants PPX et XPP particuliers.

Figure 5

Plusieurs motifs PPX et XPP conduisent à un décrochage ribosomal chez S. cerevisiae. La densité ribosomique normalisée médiane est obtenue pour toutes les instances de (A) motifs PPX et (B) XPP dans lesquels X correspond à l’un quelconque des 20 acides aminés naturels. En utilisant un test de permutation, nous déterminons si la densité médiane des ribosomes est statistiquement significative ou si elle est le fruit du hasard. Les motifs statistiquement significatifs sont mis en évidence en rouge foncé. Cette analyse a été effectuée sur l’ensemble de données Pop pour les transcriptions dans lesquelles au moins 50 % des positions de codon ont des lectures qui leur sont associées. Les barres d’erreur sont des intervalles de confiance à 95% pour la médiane obtenue en utilisant le Bootstrapping.

Une étude des données Ribo-Seq de cellules de mammifères28 a observé une pause de traduction indépendante de la séquence lorsque le 5e codon du transcrit se trouve dans le site P. Cette pause post-initiation a également été observée dans une étude in vitro de la synthèse de la poly-phénylalanine où un décrochage a été observé lorsque le 4ème codon se trouvait dans le site P29. Avec les profils de site A obtenus à l’aide de nos tables de décalage pour S. cerevisiae et les CSEm ; nous observons également ces événements de pause lorsque les 4e et 5e codons se trouvent tous deux sur le site P (figure supplémentaire S6).

Plus grande précision de localisation du site A que les autres méthodes

Il n’y a pas de méthode expérimentale indépendante pour vérifier la précision des emplacements de sites A identifiés à l’aide de notre méthode ou de toute autre méthode4,5,6,7,8,9,10,12,30,31,32,33,34,35. Nous soutenons que la pause bien établie du ribosome à des motifs de séquence PPX particuliers est le meilleur moyen disponible pour différencier la précision des méthodes existantes. La raison en est que ces motifs de ralentissement ont été identifiés dans E. coli36,37 et S. cerevisiae38 par des méthodes expérimentales orthogonales (y compris des études enzymologiques et l’impression d’orteil), et l’emplacement exact du site A pendant un tel ralentissement est connu pour être au codon codant le troisième résidu du motif 36. Ainsi, la méthode d’identification du site A la plus précise sera celle qui attribue le plus fréquemment une plus grande densité de ribosomes à X à chaque occurrence du motif PPX.

Nous avons appliqué ce test aux motifs PPX les plus forts de ralentissement, c’est-à-dire le PPG chez S. cerevisiae et le PPE chez les CSEm. Chez S. cerevisiae, la méthode de programmation en nombres entiers donne la plus grande densité de ribosomes au codon glycine du motif PPG lorsqu’elle est appliquée aux ensembles de données Pooled (Fig. 6A) et Pop (Fig. S7A supplémentaire). En examinant chaque occurrence de PPG dans notre ensemble de données génétiques, nous constatons que, dans la majorité des cas, notre méthode attribue une plus grande densité de ribosomes à la glycine que toutes les autres méthodes lorsqu’elle est appliquée à la fois aux données Pooled (Fig. 6B, test du rang signé de Wilcoxon (n = 224), P < 0.0005 pour toutes les méthodes sauf Hussmann (P = 0,164)) et aux ensembles de données Pop (figure supplémentaire S7B, test du rang signé de Wilcoxon (n = 35), P < 10-5 pour toutes les méthodes sauf Hussmann (P = 0,026) et Ribodeblur (P = 0,01)). Les mêmes analyses appliquées aux CSEm aux motifs PPE montrent que notre méthode surpasse les neuf autres méthodes (Fig. 6C,D), notre méthode attribuant une plus grande densité de ribosomes à l’acide glutamique pour au moins 85 % des motifs PPE de notre ensemble de données par rapport à toutes les autres méthodes (Fig. 6D, test du rang signé de Wilcoxon (n = 104), P < 10-15 pour toutes les méthodes). Ainsi, pour S. cerevisiae et les CSEm, notre approche de programmation en nombres entiers est plus précise que les autres méthodes pour identifier le site A sur les fragments protégés par le ribosome.

Figure 6

L’algorithme de programmation en nombres entiers attribue correctement une plus grande densité de ribosomes que les autres méthodes à la Glycine dans les motifs PPG chez S. cerevisiae et à l’acide Glutamique dans les motifs PPE chez les mESCs. (A) La densité normalisée des ribosomes obtenue à l’aide des différentes méthodes utilisées pour identifier le site A est illustrée pour un exemple de motif PPG dans le gène YLR375W avec G à la position de codon 303 dans l’ensemble de données groupées de S. cerevisiae (la légende indique la méthode et des détails complets pour chaque méthode sont disponibles dans la section Méthodes). (B) La fraction d’instances PPG (n = 224) pour lesquelles la méthode de programmation en nombres entiers donne une plus grande densité de ribosomes à la glycine par rapport à toutes les autres méthodes. Le code couleur est le même que celui indiqué dans la légende du panneau (A). Notre méthode est meilleure si elle attribue une plus grande densité de ribosomes dans plus de la moitié des cas (ligne horizontale dans le panneau B). La méthode de programmation en nombres entiers est meilleure que toutes les autres méthodes (P < 0,0005), à l’exception de la méthode de Hussmann, qui n’est pas statistiquement différente (P = 0,164). (C) La densité normalisée des ribosomes est représentée pour une instance du motif PPE dans le gène uc007zma.1 avec E à la position de codon 127 dans l’ensemble de données groupées des CSE de souris (voir la légende et le texte principal pour plus de détails sur les méthodes). (D) La fraction d’instances PPE pour lesquelles la méthode de programmation en nombres entiers donne une plus grande densité de ribosomes à l’acide glutamique par rapport à toutes les autres méthodes. Le code couleur est le même que celui indiqué dans la légende du panneau (C). La méthode de programmation en nombres entiers donne de meilleurs résultats que toutes les autres méthodes (P < 10-15) dans l’attribution précise de la densité des ribosomes à l’acide glutamique dans les motifs PPE (n = 104). Pour les analyses présentées en (B) et (D), les valeurs p bilatérales ont été calculées à l’aide du test de rang signé de Wilcoxon. Les barres d’erreur représentent l’intervalle de confiance à 95 % autour de la médiane calculée par Bootstrapping.

Un grand nombre de facteurs moléculaires influencent les taux de traduction des codons et la densité des ribosomes le long des transcriptions39. Un facteur est la concentration de l’ARNt cognate, car les codons décodés par l’ARNt cognate avec des concentrations plus élevées devraient avoir en moyenne des densités de ribosomes plus faibles15,16,40. Par conséquent, en tant que test qualitatif supplémentaire, nous nous attendons à ce que la méthode du site A la plus précise produise la plus grande anti-corrélation entre la densité des ribosomes au niveau d’un codon et sa concentration en ARNt apparenté. Ce test n’est que qualitatif car la corrélation entre la densité du ribosome au niveau du codon et la concentration en ARNt apparenté peut être affectée par d’autres facteurs, notamment l’utilisation du codon et la réutilisation des ARNt rechargés à proximité du ribosome41,42. En utilisant les abondances d’ARNt précédemment estimées à partir d’expériences RNA-Seq sur S. cerevisiae16, nous constatons que notre méthode de programmation en nombres entiers produit la plus grande anti-corrélation par rapport aux onze autres méthodes considérées (tableau supplémentaire S8), ce qui confirme la précision de notre méthode. Nous n’avons pas pu effectuer ce test sur des CSEm car les mesures de la concentration en ARNt n’ont pas été rapportées dans la littérature.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.