Identifying A- and P-site locations on ribosome-protected mRNA fragments using Integer Programming

整数計画法アルゴリズム

Ribo-Seq データの解析では、最初にmRNA断片が参照転写体にアラインされてその5分端に対して位置情報が報告されます。 つまり、1つのフラグメントは、フラグメントの5′末端ヌクレオチドがアライメントされたゲノム座標上で報告される1つのリードに寄与することになります(図1A)。 Ribo-Seqデータでは、RNAの不完全な消化や実験に使用したRNaseによるmRNAの切断の確率的性質に起因する、異なる長さの断片が観察されます(図2、補足図S1)。 Ribo-Seqデータを定量的に解析する際の中心的な課題は、これらのRibo-Seqリードから、消化時にAサイトとPサイトがどこに位置していたかを同定することである。 不完全な消化や確率的な切断が断片の両端で起こりうるため、これを行うことは自明ではありません。 例えば、29 ntのサイズの断片を生じるmRNAの消化は、図1Bに示すように2つの異なる方法で起こり得る。 正確に推定する必要があるのは、Aサイトのコドンと断片の5末端を隔てるヌクレオチドの数であり、これをオフセットと呼び、Δと表記している。 Pサイトは常にΔマイナス3ntにあるので、Δを知ることは、Pサイトと同様にAサイトの位置を決定する。

Figure 1

Aサイトの場所は、リボソーム保護断片の5分端からのオフセットとして定義することができる。 (A)翻訳リボソームの模式図(上図)と、フットプリントの5′末端を基準にしてマッピングされたRibo-SeqリードとAサイト(青棒)を中心とするオフセット∆の模式図である。 リボソームは、遺伝子のATG開始コドンから定義されるように、リーディングフレーム0に5′末端を持つ28 nt断片を保護しているところを示している。 リボソーム内のE-、P-、A-サイトが示されている。 リードは、5末端からAサイトへオフセット値Δでシフトされる。 (B)確率的なヌクレアーゼ消化により、異なる断片が生じることがある。 フレーム1の5末端を持つ29 ntのフットプリントの最も可能性の高い2つのバリエーションを、ゲノムに沿った点線でその境界をマッピングして示しており、それぞれ15 nt(上)および18 nt(下)のオフセットになる可能性がある。 (C) Integer Programmingアルゴリズムの適用を説明するために、長さ60 ntの仮想的な転写物を考えてみる。 最初のパネルは、フレーム0のサイズ33のフラグメントの5′末端に割り当てられたリードに由来するリボソームプロファイルを示す。 アルゴリズムは、このリボソームプロファイルを3ntずつシフトさせ、目的関数♪♪♪(♪♪T({{Phatrm{Delta }}|i,S,F)♪♪) を計算する。 Δ12、15、18、21ntの場合のδδ(T({rm{Delta }}|i,S,F)δ) の値を示している。 この例では、1コドン当たりの平均リード数は7.85である。 上位2つのオフセット、18 (T = 222) と15 (T = 215) の差は平均値より小さい。 したがって、二次基準(Results)を確認する。 オフセット18は、開始コドンのリード数が第2、第3、第4コドンのリード数の平均の5分の1以下であること、また第2コドンのリード数が第3コドンのリード数より大きいという基準を満たす。 図2

ポップと共同研究者によるS. cerevisiae Ribo-Seqデータセット(A)とPooledデータセット(B)におけるmRNAフラグメントサイズ分布。

この問題に対する我々の解決策は、上流翻訳のない正準転写物の場合、活発に翻訳するリボソームのAサイトは、CDS17の第2コドンと停止コドンの間に位置しなければならないという生物学的事実に依存する。 したがって、特定のサイズ(S)と読み枠(F)のフラグメントに対する最適なオフセット値Δは、フラグメントがマッピングされる各遺伝子iについて、これらのコドン間の総リード数(reads) \(T({entarm{Delta }}|i,S,F)\) を最大化するものである。 mRNA断片のサイズSはヌクレオチドで測定され、フレームFは遺伝子開始コドンATGで定義される0、1または2の値を持ち、断片の5′末端ヌクレオチドが位置するフレームに相当する(図1A)。 5′末端フレームFはRNase消化の結果であり、通常インフレームで翻訳しているリボソームのリーディングフレーム(Aサイトのフレーム0)とは別物である。 言い換えれば、(S、F)の各組み合わせについて、第2コドンと停止コドン間の読み取りを最大化する値Δを特定するまで、(読み取り枠Fを維持するために)一度に3塩基ずつ5配列の読み取りプロファイルをシフトする(図1C、次のサブセクションを参照)。 この手順は、各フラグメントサイズSとリーディングフレームFについて別々に系統的に行われる。なぜなら、それぞれが異なる最適な∆を持つ可能性があるからである。

データセット中の各遺伝子のΔ′値を特定する一方で、最高スコアである♪(♪)を確保することにより、偽陽性の発生を最小化することができる。T({3rm{Delta }}^{3prime} |i,S,F)\) は、異なるオフセットΔ″で発生する次の最高スコア、 \(T({3rm{Delta }}^{3prime} |i,S,F)\) より著しく高くなるようにします。 上位2つのスコアの差がコドンごとの平均リード数より小さい場合、以下の追加選択基準を適用する。 Δ′とΔ″のどちらかを選択するために、開始コドンでのリード数が2番目、3番目、4番目のコドンでのリード数の平均値よりも少なくとも5分の1少なくなる方を選択する。 さらに、2番目のコドンのリード数が3番目のコドンよりも多いことを条件とする。 これらの追加基準の生物学的根拠は、真のオフセット(すなわちAサイトの実際の位置)を開始コドンに位置づけることはできないこと、およびリボソームがPサイトの開始コドンを持つmRNAに集合する間の翻訳開始段階からの寄与により、第2コドンのリード数が第3コドンよりも平均的に多くなるはずであることである。 以下では、我々の方法による結果がこれらの閾値の変化に対してロバストであることを示す。

整数計画法による最適化手順の説明

セレビシエにおけるリボソーム保護断片の断片サイズおよびフレーム分布(図2)は遺伝子依存性がなく(補足図S2)、したがって、相殺値Δもまた遺伝子依存性を持たないはずである。 したがって、サイズSとフレームFの断片の5′末端に対するAサイトの位置は、データセット内のすべての遺伝子にわたるオフセットの最も確率の高い値に対応する。

S. cerevisiae Ribo-Seq データにおけるAサイトの位置は断片サイズとフレームに依存する

Popと共同研究者が発表したS. cerevisiae Ribo-Seq データにまず整数計画法19を適用した。 SとFの各組み合わせについて、我々はまず、対応するリボソームプロファイルにおいてコドン当たり平均で少なくとも1リードを有するこれらの遺伝子を同定した。 この基準を満たす遺伝子の数は、補足表S1に報告されている。 次に、この遺伝子の部分集合にInteger Programming法を適用した。 その結果、断片の長さとフレームの組み合わせを変えて、Δ値の分布を図3Aに示した。 27から33 ntのフラグメントサイズについては、90%以上のリードがこの範囲にマッピングされているため、結果のみを示した(Fig. 2A)。 図3

S. cerevisiaeの転写産物に適用したInteger Programmingアルゴリズムによるオフセット値の分布図である。 (A)はPopデータセットから、(B)はPooledデータセットからプロットしたデータである。 分布はオフセット値の関数としてプロットされ、27から33 ntのフラグメントサイズについて、左からフレーム0、1、2について示されています。 あるフラグメントサイズとフレームについて、70%以上の遺伝子でオフセットが発生している場合、Aサイトの位置は分布の中で最も確率の高いΔ値にある(パネル中の破線)。 エラーバーはブートストラップ法で算出した95%信頼区間を表す。 サンプルサイズは補足表S1に記載。

SとFの組み合わせによって最適なΔ値、つまりAサイトの位置が変わり、最も確率の高い値は15ntまたは18ntであることが分かる。 このように、Aサイトの位置はSとFに依存し、ほとんどの場合、SとFの値の組に対して1つのピークが支配的である。 例えば、フレーム0のサイズ27から30 ntの断片では、遺伝子ごとに最適化されたΔ値の70%以上は、これらの断片の5′末端から15 ntのところにある。 同様の結果は、フレーム1のサイズ30、31、32 ntやフレーム2のサイズ28から32 ntといった他の組み合わせでも見られ、最適化されたΔ値は18 ntであった。 このように、トランスクリプトーム全体で、これらのフラグメントのAサイトコドン位置は一意に特定される。

しかし、これらの分布に基づいてAサイト位置が曖昧なSとFの組み合わせが存在する。 例えば、フレーム1のサイズ27 ntの断片では、遺伝子最適化Δ値の47%は15 ntにあり、30%は18 ntにある。 このように、これらのSとFの組み合わせでは、Aサイトがあるコドンまたは別のコドンに位置する確率はほぼ同じであり、Aサイトの位置を一意に特定することはできないようである。

Higher coverage leads to more unique offsets

我々は、特定のSとFの組み合わせでAサイトの特定があいまいなのは、低いカバー率(すなわち, サンプリング統計が悪い)ためかもしれないと考えた。 この仮説を検証するために、我々は、異なる公開Ribo-Seqデータセットからのリードを、結果的に高いカバレッジと我々の選択基準を満たすより多くの遺伝子を持つ単一のデータセットにプールした(補足表S1)。 このPooledデータセットに我々の方法を適用すると、オリジナルのPopデータセットと比較して、より多くのSとFの組み合わせについてユニークなオフセットが得られ(図3Bおよび補足表S2)、我々の仮説と一致しました。 例えば、サイズ27でフレーム1のフラグメントでは、遺伝子最適化Δ値の72%が15 ntというユニークなオフセットを持つようになりました(図3B)。 しかし、特定の(S, F)の組み合わせでは、まだ曖昧さが見られる。

我々は、コドンあたりの平均リード数が多い遺伝子に限定して解析を行い、カバー率を高める戦略を採用した。 仮説が正しければ、リードの深さが増すにつれて、最確Δ値が増加するという統計的に有意な傾向が見られるはずである。 この解析をPooledデータセットに適用したところ、最初は曖昧だったSとFの組み合わせが、カバレッジが上がるにつれて曖昧でなくなることがわかった。 例えば、コドンあたり平均1リードの場合、(25, 0), (27, 2), (30, 1)のSとFの組み合わせは、我々の70%の閾値を下回り、曖昧なままである。 しかし、(25, 0)のフラグメントでは、カバレッジを上げると15 ntのオフセットの可能性が高くなり、最終的には70%の閾値を超えるという統計的に有意な傾向(傾き= 0.5, p= 3.94 × 10-6)が見られる(図4A)。 同様に、(27, 2) (slope = 0.58, p = 5.77 × 10-5) と (30, 1) (slope = 0.25, p = 0.009) では、18 nt のオフセットに向かう傾向があり、最高被覆率では70%以上の遺伝子がこのオフセットを持つ(図4B,C)。 したがって、これらのフラグメントでは、被覆率の増加によりΔ′が一意に特定され、したがってAサイトの位置が特定される。 (32, 0) のような (S, F) のいくつかの組み合わせでは、非常に高いカバレッジでもあいまいさが解消されません (図 4D) 。これは、ヌクレアーゼ消化の固有の特徴が、複数のオフセットで同じように考えられるためと推測されます。

Figure 4

当初あいまいだった S および F 組み合わせに対して、カバレッジが高くなることでAサイト位置を特定できる。 プロットは、S. cerevisiaeのPooledデータセットからの異なるSとFの組み合わせについて、特定のΔ値を持つ転写物のパーセンテージです。 各パネルでは、下の凡例で示されるように、カバー率の高い転写産物に対応する複数の分布がプロットされています。 例えば、青と赤の分布は、それぞれ平均してコドンあたり少なくとも1リードと2リードを持つ転写産物から生じます。 Aサイトの位置は、S = 25, F = 0 (A) では15 nt、S = 27, F = 2 (B), S = 30, F = 1 (C) では18 ntに向かう傾向があることがわかる。 S = 32, F = 0 (D)では、被覆率が高くても傾向は見られない。 なお、S = 27, F = 2 (panel B)では、コドンあたり平均50リードを超える遺伝子は10個以下なので、コドンあたり平均45リードを超えるデータポイントは含まれていない(Methods参照)。 エラーバーはブートストラップ法で算出した95%信頼区間。

したがって、十分なカバレッジがあれば、表1に示す最適オフセットテーブルが得られ、ここでオフセットは、セレビシエで生成したmRNA断片の5分端に対するAサイトの最も確率の高い位置となる。

Table 1 S. cerevisiaeのPooledデータセットにInteger Programmingアルゴリズムを適用して決定したAサイト位置(5末端からのヌクレオチドオフセット)を、フラグメントサイズとフレームの関数として示す。

異なるデータセット間の一貫性

リボSeqデータは、リボソームで保護されたフラグメントの消化およびライゲーションに偏りをもたらすことがある実験プロトコルに対して敏感である。 データセットをプールすることで、より高いカバレッジが得られるという利点がありますが、個々のデータセットに特有のバイアスを隠してしまう可能性があります。 私たちのユニークなオフセット(表1)が個々のデータセットからの結果と一致しているかどうかを判断するために、個々のデータセットにInteger Programmingアルゴリズムを適用しました。 これらのデータセットのほとんどはカバレッジが低いため、フィルタリングの基準に合致する遺伝子は少ない(補足ファイルS1)。 表1の各ユニークオフセットについて、個々のデータセットからの最も可能性の高いオフセットが(カバレッジの深さの制限により70%の閾値に達しない場合でも)表1と同じである場合に、個々のデータセットと一致するものとして分類された。 表1のユニークなオフセットの大部分(24個中22個)は、75%以上の個々のデータセットで一貫していることがわかります(統計は補足表S3に報告)。 ただ、2つの組み合わせ(S, F)が頻繁に不一致を示す。 (S, F) の組み合わせ (27, 1) と (27, 2) は、33%以上の個別データセットで矛盾している (補足表S3)。 4161>

Robustness of the offset table to threshold variation

The Integer Programming algorithm utilizes two thresholds to identify unique offsets.これは、偽陽性を最小化したい研究者は、Aサイトのリボソームプロファイルを作成する際にこれらの(S、F)の組み合わせを破棄するべきであることを示唆している。 もう一つは、Ribo-Seqデータのサンプリングノイズに起因する偽陽性を最小化するために、第1コドンにおけるリードが、第2、第3、第4コドンにおける平均リードの5分の1未満であることである。 これらの閾値基準を導入する正当な理由がある一方で、これらの閾値の正確な値は恣意的である。 そこで、これらの閾値を変化させることで、表1で報告された結果が変わるかどうかを検証した。 最初の閾値を60%と80%に変化させ、オフセットテーブルを再計算した。 オフセットが変化したかどうかは、補足表S3で報告されたオフセットと一緒に「R」または「S」(それぞれrobustとsensitiveの意味)を記載することで報告した。 その結果、(S, F)の組み合わせの3分の2は変化していないことがわかった(Supplementary Table S3)。 閾値を80%にすると、(S, F)の組み合わせ(25, 0), (25, 2), (27, 0), (27, 1), (28, 1), (31, 0), (33, 0), (33, 2) が曖昧になることが分かりました。

2番目の前述の閾値を5分の1から1、10分の1まで変化させたところ、(25、2)、(33、0)、(33、2)、(34、1)以外の固有(S、F)の組み合わせは変化しないことがわかった(補足表S3では「R」と報告)。

Testing the Integer Programming algorithm against artificial Ribo-Seq data

Test the correctness and robustness of our approach we generated a dataset of simulated ribosome occupancies across 4,487 S. cerevisiae transcripts and asked whether our method can accurately determine the A-site location.This method is not disclosed disclosed. 人工Ribo-Seqリードは、実験で見られるようなランダムなフットプリント長を使用して、それらの(S、F)値のポアソン分布を仮定してこれらの占有から生成されました(方法と補足図S3A、Bを参照)。 我々は、4つの異なる事前定義されたオフセット値に対して、我々の方法が真のAサイト位置を正しく決定する能力を調査した(方法参照)。 次に、得られた人工Ribo-Seqデータに対してInteger Programmingアルゴリズムを適用した。 アルゴリズムから生成されたオフセット表は、使用した入力オフセットを再現していることがわかる(補足図S3Cおよび補足表S4)。 この手順を異なるリード長分布と異なる入力オフセットで繰り返し、我々のアルゴリズムから生成されたオフセット表は、すべての(S、F)の組み合わせの93%以上で入力オフセット表を再現することが分かった(補足図S3B、C、補足ファイルS2)。 本手法では、分布の末尾にあるリードの被覆率が低いため、少数のあいまいなオフセットが識別される。 マウス胚性幹細胞におけるAサイトオフセット

リボソームのAサイトは第2コドンと停止コドンの間にのみ存在するという生物学的事実は、S. cerevisiaeに限らず、したがってInteger Programmingアルゴリズムはあらゆる生物からのRibo-Seqデータに適用できるはずである。 そこで、マウス胚性幹細胞(mESC)のPooled Ribo-Seqデータセットに本手法を適用しました。 その結果、Aサイトオフセット表は、3つの(S、F)を除くすべての組み合わせで曖昧なオフセットを示しました(補足表S5)。 mESCsでは、上流のオープンリーディングフレーム(uORF)の注釈付きCDS領域の境界を越えて翻訳伸長することが広く行われている20。 このような翻訳中のuORFからリボソームで保護されたフラグメントが濃縮されると、正規の注釈付きCDSの開始コドン周辺のリードが寄与するため、我々のアルゴリズムでユニークなオフセットを見つけることが困難になる可能性がある。 したがって、uORFがなく、単一の開始部位を持つ転写産物にのみ我々のアルゴリズムを適用すれば、我々のアルゴリズムはより多くのユニークなオフセットを特定できるはずだと仮定した。 Ingolia と共同研究者11 は、よく翻訳された mESCs の転写産物について、その開始部位の数と uORF の有無を実験的に同定しています。 そこで、注釈付き開始コドンの近くに翻訳開始部位を1つだけ持つ遺伝子を選び、さらに、複数のアイソフォームが異なる終結部位を持つことがあるので、解析を単一のアイソフォームを持つ転写物に限定した

この遺伝子セットにInteger Programmingアルゴリズムを適用すると、ユニークオフセットの数が3から13(S、F)の組み合わせに増えた(補足表S6)。 S. cerevisiaeで行ったのと同じ堅牢性と一貫性のテストを適用すると、ユニークオフセットの77%が閾値の変動に対して堅牢であり、同様の割合がPooledデータを作成するために使用した両方の個別データセットにわたって一貫していることが明らかになった(補足表S6)。 このように、mESCsについて報告したユニークオフセットは、大多数のデータセットにおいてロバストで一貫性がある。 この結果はまた、Aサイト位置の同定を成功させるには、uORFを含まないそれらの転写物のみを分析する必要があることを示している

Integer Programming does not yield unique offsets for E. coli

我々のアルゴリズムをどれだけ広く適用できるかをさらにテストするため、原核生物大腸菌のPooled Ribo-Seq データにそれを適用してみました。 フィルタリング基準を満たした遺伝子の数は補足表S7に報告されている。 大腸菌のRibo-Seqプロトコルで使用されているヌクレアーゼであるMNaseは、偏った方法でmRNAを消化し、3末端よりも5末端からの消化を優先させる21,22。 そこで、他の研究21,22,23と同様に、5末端ではなく3末端からのオフセットとしてAサイトの位置を特定するアルゴリズムを適用しました。 ポリシストロンmRNA(複数のCDSを含む転写産物)は、連続するCDSの境界で間隔が狭いリードが両方のCDSで異なるオフセットでスコア化されるため、我々のアルゴリズムに問題を引き起こすことがあります。 そこで、CDSの上流または下流に他の転写産物を持たない1,915個のモノシストロン転写産物に限定して解析しました。 mESCsデータセットの解析の経験から、複数の翻訳開始部位を持つ転写物や、翻訳開始部位の注釈に異論がある転写物は除外しています。 Nakahigashi and co-workers24 は、テトラサイクリンを翻訳阻害剤として使用し、大腸菌において参照アノテーションと異なる開始部位を持つ92の転写産物を同定しています。 これらの転写物も同様に解析から除外しています。 しかし、この高カバレッジのプールされたデータセットについては、すべての(S、F)の組み合わせについて曖昧なオフセットが見つかりました(補足表S5)。 CDSおよび上流・下流30 nt領域における正規化リボソーム密度のメタ解析により、CDSの境界を越えて翻訳されていることが明らかになった(補図S4)。特に、開始コドンの数塩基前のリードが平均よりも高い濃度で含まれていることがわかった。 これは、16S rRNA25のShine-Dalgarno(SD)配列と相補的な抗SD配列の塩基対形成が、開始コドン前の数塩基をリボヌクレアーゼ消化から守り、その結果Ribo-Seqリードの濃縮をもたらすと推測している。 これらの「擬似」リボソーム保護断片は、リボソームのAサイトがあるコドンを含む実際のリボソーム保護断片と区別できないため、我々のアルゴリズムはこのデータへの適用に限界があります。

翻訳速度低下をもたらす既知のPPXおよびXPPモチーフの再現

セレビシエ26および大腸菌21,27において、ある種のPPXおよびXPPポリペプチドモチーフ(Xが20個のアミノ酸のいずれかに対応する)は、第3残基がAサイトにあるとリボソームを停止させることが可能である。 伸長因子eIF5A(S. cerevisiae)およびEF-P(E. coli)は、あるモチーフによって引き起こされる失速を緩和するのに役立つが、他のモチーフによって引き起こされる失速は緩和されない26。 Ingoliaと共同研究者11は、mESCにおいても、PPDとPPEを強い休止モチーフとして検出した。 そこで、我々のアプローチが既知の失速モチーフを再現できるかどうかを検討した。 PPXとXPPモチーフの異なる出現箇所での正規化リード密度を計算することでこれを行った。

セレビシエではPPG, PPD, PPE, PPNで大きなリボソーム密度が観測され(図5A)、これらはすべてセレビシエ26や大腸菌27で強いストールモチーフとして分類されているものであった。 一方、PPPでは平均して失速は見られず、他の研究とも一致している26。 これはeIF5Aの作用によるものと思われる。 XPPモチーフについては、GPPとDPPモチーフで最も強い失速が観察され、これはS. cerevisiaeや大腸菌での結果と一致している(図5B)。 mESCでは、PPEとPPDで最も強い失速が見られ、Ingoliaと共同研究者11の結果を再現している(補図S5A)。 XPPモチーフでは、DPPでのみ非常に弱い失速が観察された(補足図S5B)。 このように、リボソームの足跡にAサイトをマッピングする我々のアプローチは、特定のPPXおよびXPP新生ポリペプチドモチーフで確立された翻訳停止を正確に検出することができる。

Figure 5

セレビシエにおけるいくつかのPPXおよびXPPモチーフはリボソームのストールを導く。 Xが20個の天然に存在するアミノ酸のいずれかに対応する(A)PPXおよび(B)XPPモチーフのすべてのインスタンスについて、正規化リボソーム密度の中央値を得ることができる。 並べ替え検定により、リボソーム密度の中央値が統計的に有意であるか、あるいは無作為に発生したものであるかを判断する。 統計的に有意なモチーフは濃い赤でハイライトされています。 この解析は、コドン位置の少なくとも50%がリードでマップされている転写産物のPopデータセットに対して行われました。 エラーバーは、ブートストラップを用いて得られた中央値の95%信頼区間です。

哺乳類細胞のRibo-Seqデータの研究28は、転写物の第5コドンがPサイトにあるときに配列非依存の翻訳休止を観測しました。 この開始後の一時停止は、ポリフェニルアラニン合成のin vitro研究でも観察され、4番目のコドンがPサイトにあるときに失速が観察された29。 S. cerevisiaeとmESCsのオフセットテーブルを用いて得られたAサイトプロファイルでは、4番目と5番目のコドンがPサイトにあるときにも、このような休止現象が観察された(補足図S6)。

他の方法よりも高いAサイト位置精度

我々の方法または他の方法を用いて同定したAサイト位置の精度を検証する独立した実験方法はない4,5,6,7,8,9,10,12,30,31,32,33,34,35. 我々は、特定のPPX配列モチーフでリボソームが一時停止することが、既存の手法の精度を差別化するための最良の手段であると主張する。 その理由は、これらの停止モチーフは大腸菌36,37およびS. cerevisiae38で直交する実験方法(酵素学研究およびトウ印刷を含む)により同定されており、このような減速時のAサイトの正確な位置は、モチーフの3残基目をコードするコドン36であると知られているからである。 したがって、最も正確なAサイト同定法は、PPXモチーフの各発生においてより大きなリボソーム密度をXに最も頻繁に割り当てるものとなる。

我々はこのテストを、最も強い失速PPXモチーフ、すなわちS. cerevisiaeにおけるPPG及びmESCにおけるPPEに適用した。 S. cerevisiaeでは、PPGモチーフのグリシンコドンにおいて、Pooledデータセット(図6A)とPopデータセット(補足図S7A)の両方に適用した場合、Integer Programming法が最大のリボソーム密度をもたらすことがわかった。 我々の遺伝子データセットにおけるPPGの各出現を調べると、Pooled (Fig. 6B, Wilcoxon signed-rank test (n = 224), P < 0.0)の両方に適用した場合、我々の方法は他のどの方法よりもグリシンにリボソーム密度を割り当てるケースが大半であることがわかりました。0005(Hussmann(P=0.164)を除くすべての手法)およびPopデータセット(補足図S7B, Wilcoxon signed-rank test(n = 35), P < 10-5(Hussmann (P = 0.026) およびRibodeblur (P = 0.01)を除くすべての手法)において、他のすべての手法に比べ、グリシンの割り当て量が多かった。 同じ解析をPPEモチーフのmESCに適用したところ、我々の方法は他の9つの方法よりも優れており(図6C、D)、我々のデータセット内の少なくとも85%のPPEモチーフについて、他のすべての方法と比較してグルタミン酸に大きなリボソーム密度を割り当てた(図6D、ウィルコクソン署名順位検定(n = 104)、すべての方法についてP < 10-15)。 このように、S. cerevisiaeとmESCについては、我々のInteger Programmingアプローチは、リボソームで保護されたフラグメントのAサイトを特定する上で、他の方法よりも正確であることが分かった。

Figure 6

The Integer Programmingアルゴリズムは、他の方法よりも大きなリボソーム密度を、S. cerevisiaeではPPGモチーフのグリシンに、MESCsではPPEモチーフのグルタミン酸に正しく割り当てている。 (A) S. cerevisiaeのPooledデータセット中のコドン位置303にGを持つ遺伝子YLR375WのPPGモチーフの例について、Aサイトの同定に用いた様々な方法を用いて得られた正規化リボソーム密度を示す(伝説は方法を示し、各方法の詳細は方法のセクションで見ることができる)。 (B) PPGインスタンス(n = 224)のうち、Integer Programming法がグリシンでのリボソーム密度を他のすべての方法と比較して大きくする割合を示す。 色分けはパネル(A)の凡例に示したものと同じです。 我々の方法は、半分以上のインスタンスでより大きなリボソーム密度を割り当てた場合(パネルBの水平線)、より良い結果を得ることができます。 Hussmannを除いて、Integer Programming法は他のすべての方法よりも優れており(P < 0.0005)、統計的な差はありません(P = 0.164)。 (C) マウスESCのPooledデータセット中のコドン位置127にEを持つ遺伝子uc007zma.1のPPEモチーフのインスタンスの正規化リボソーム密度を示す(方法についての詳細はLegendと本文を参照のこと)。 (D)グルタミン酸におけるリボソーム密度が、Integer Programming法で得られたPPEインスタンスの割合が、他の全ての方法と比較して大きい。 色分けはパネル(C)の凡例に示したものと同じ。 Integer Programming法は、PPEモチーフのグルタミン酸にリボソーム密度を正確に割り当てる上で、他の全ての方法よりも優れている(P < 10-15)(n = 104)。 (B)と(D)の解析では、Wilcoxon signed rank testを用いて、両側p値を算出した。 エラーバーはブートストラップを用いて算出した中央値に対する95%信頼区間を表す。

多くの分子因子がコドン翻訳速度や転写物に沿ったリボソーム密度に影響を与える39。 その1つが同族tRNAの濃度であり、濃度の高い同族tRNAによって解読されたコドンは、平均してリボソーム密度が低くなるはずだからである15,16,40。 したがって、定性的なテストとして、最も正確なAサイト法は、コドンにおけるリボソーム密度とその同族tRNA濃度の間に最大の反相関をもたらすと予想されます。 コドンのリボソーム密度と同族tRNA濃度の相関は、コドンの使用やリボソーム近傍で充電されたtRNAの再利用などの他の要因に影響される可能性があるため、このテストは定性的なものに過ぎません41,42。 S. cerevisiae16のRNA-Seq実験から過去に推定されたtRNA量を使用すると、我々のInteger Programming法は、検討した他の11の方法と比較して最大の反相関をもたらし(補足表S8)、我々の方法の正確さをさらに裏付けるものであることがわかりました。 tRNA濃度の測定は文献に報告されていないため、我々はmESCでこのテストを実行することができなかった

コメントを残す

メールアドレスが公開されることはありません。