GREIN: An Interactive Web Platform for Re-analyzing GEO RNA-seq Data

Lo schema concettuale di GREIN è mostrato in Fig. 1. I singoli set di dati RNA-seq sono elaborati dalla pipeline GREP2 e memorizzati localmente come R Expression Sets. L’utente può accedere e analizzare i set di dati pre-elaborati tramite l’interfaccia grafica utente GREIN (GUI) o inviare per l’elaborazione i set di dati che non sono ancora stati elaborati. I flussi di lavoro guidati dalla GUI facilitano l’esame e la visualizzazione dei dati, l’analisi statistica, la costruzione della firma trascrizionale e l’interpretazione della biologia dei sistemi dei geni differenzialmente espressi (DE). Sia GREIN che la pipeline di back-end (GREP2) sono scritti in R e rilasciati rispettivamente come contenitore Docker e pacchetto R. Le interfacce grafiche per GREIN sono implementate in Shiny16, un framework web per la costruzione di applicazioni web dinamiche in R. L’istanza web a https://shiny.ilincs.org/grein è distribuita tramite un robusto sciame Docker di server Shiny bilanciati. L’intera infrastruttura GREIN, inclusa la pipeline di elaborazione, è distribuita tramite container Docker.

Figura 1

Flusso di lavoro schematico di GREP2, interfaccia web e output di GREIN. I set di dati GEO sono sistematicamente elaborati utilizzando la pipeline GREP2 e memorizzati nella libreria di dati di back-end. I flussi di lavoro GREIN guidati dalla GUI facilitano l’analisi completa e la visualizzazione dei set di dati elaborati.

I flussi di lavoro guidati dalla GUI di GREIN facilitano i tipici scenari di riutilizzo dei dati RNA-seq, come l’esame delle misure di controllo della qualità e la visualizzazione dei modelli di espressione nell’intero set di dati, la dimensione del campione e l’analisi della potenza allo scopo di informare il disegno sperimentale degli studi futuri, l’espressione genica differenziale statistica, l’arricchimento dell’elenco dei geni e l’analisi della rete. Oltre al confronto standard a due gruppi, il modulo di analisi dell’espressione genica differenziale supporta anche l’adattamento di un modello lineare generalizzato che tiene conto delle covariate o degli effetti batch. La visualizzazione interattiva e gli strumenti di esplorazione implementati includono l’analisi dei cluster, le heatmap interattive, l’analisi delle componenti principali (PCA), l’embedding stocastico t-distribuito dei vicini (t-SNE), ecc. (Tabella supplementare S1). L’utente può anche cercare annotazioni ontologiche di campioni di RNA-seq umano e set di dati forniti dal progetto MetaSRA13. Ogni campione di RNA-seq umano elaborato è etichettato con MetaSRA mappatura delle ontologie biomediche tra cui Disease Ontology, Cell Ontology, Experimental Factor Ontology, Cellosaurus, e Uberon. L’interpretazione biologica delle espressioni geniche differenziali è aiutata da collegamenti diretti ad altri strumenti online per eseguire le tipiche analisi post-hoc come l’elenco dei geni e l’analisi di arricchimento dei percorsi e l’analisi di rete dei geni differenzialmente espressi (DE). Il collegamento a questi servizi web analitici è implementato inviando la firma di espressione genica differenziale (cioè, l’elenco dei cambiamenti medi nell’espressione genica e p-valori associati per tutti / su / giù geni regolati analizzati) a iLINCS17 (LINCS integrativo). iLINCS fornisce anche l’analisi di connettività firme per le firme recentemente rilasciato Connectivity Map L100018. Istruzioni dettagliate passo-passo sui flussi di lavoro di analisi GREIN sono forniti nel materiale supplementare e la sezione ‘Aiuto’ in GREIN.

funzionalità chiave

Ricerca o presentare per l’elaborazione

L’utente può cercare un set di dati GEO già elaborati nella casella ‘Ricerca di serie GEO (GSE) adesione’ o presentare un set di dati per l’elaborazione se il set di dati non è già elaborato (Supplementary Fig. S2). A questo punto del tempo, la stragrande maggioranza dei set di dati RNA-seq umani, topi e ratti GEO sono stati pre-elaborati e l’invio da parte dell’utente dei set di dati GEO per l’elaborazione sarà richiesto solo occasionalmente. L’utente può controllare lo stato di elaborazione del dataset richiesto nella scheda ‘Console di elaborazione’ (Fig. S3 supplementare). Altre opzioni di ricerca includono la ricerca per parole chiave attraverso i metadati dei set di dati e i campioni di ricerca attraverso le ontologie biomediche attraverso le annotazioni ontologiche MetaSRA.

Explore dataset

GREIN permette di accedere sia ai dati grezzi che a quelli normalizzati (conteggi per milione e trascrizione per milione) a livello di geni e trascrizioni. GREIN viene fornito con diversi strumenti interattivi e personalizzabili per visualizzare i modelli di espressione come le heatmap interattive dei geni e dei campioni raggruppati, i grafici di densità per tutti o per un sottoinsieme di campioni, l’analisi della variabilità tra e all’interno del gruppo attraverso analisi di riduzione della dimensionalità 2D e 3D e visualizzazioni come PCA e t-SNE (Fig. 2). L’utente può anche visualizzare il profilo di espressione di ogni gene separatamente (Fig. supplementare S6).

Figura 2

Trame di analisi esplorative in GREIN. (A) La heatmap di correlazione mostra una maggiore correlazione all’interno delle linee cellulari e una bassa correlazione tra le linee cellulari. Generalmente le correlazioni elevate all’interno di ogni linea cellulare indicano un’alta qualità dei profili trascrizionali. (B) clustering gerarchico basato sulla correlazione di Pearson dei primi 500 geni più variabili in base alla deviazione assoluta mediana come misura di variabilità. I dati sono normalizzati e centrati sulla media. (C) Trama tridimensionale dell’analisi delle componenti principali delle linee cellulari. (D) La trama bidimensionale t-SNE della condizione di trattamento e della linea cellulare mostra una chiara separazione delle linee cellulari, e poi le frazioni di RNA che indicano due fonti dominanti della variabilità tra i profili RNA-seq.

Controllo di qualità

La qualità dei dati RNA-seq nei repository pubblici continua ad essere un problema importante. In un recente studio di Deelen et al.19, più della metà dei 65.000 campioni di RNA-seq pubblici elaborati hanno dovuto essere rimossi a causa di problemi di QC. Piuttosto che rimuovere i campioni, GREIN fornisce un controllo di qualità completo (QC) rapporto di dati di sequenza grezzi e la mappatura di sequenza per ogni campione (Fig. S7 supplementare), e permette all’utente di prendere una decisione su quali campioni devono essere esclusi dalle analisi a valle.

Analisi della potenza statistica

Il modulo di analisi della potenza in GREIN facilita il calcolo e la visualizzazione della potenza statistica di rilevare geni differenzialmente espressi in studi futuri che utilizzano simili campioni biologici. Stimare la dimensione appropriata del campione per studi futuri con campioni biologici simili è spesso il fattore motivante chiave nella ri-analisi dei dati RNA-seq. L’analisi della potenza facilita anche l’analisi post-hoc dei tassi di falsi negativi nell’attuale set di dati. La mancanza di potenza statistica e le differenze di potenza statistica tra i geni possono produrre risultati falsi negativi che portano a conclusioni errate20. Il segmento ‘Curva di potenza’ fornisce stime di potenza per diverso numero di campioni basato su un singolo gene (Fig. 3A). L’utente può modificare i valori predefiniti dei parametri. La trama ‘Rilevabilità dei geni’ visualizza la stima di potenza di ciascuno dei geni in base ai gruppi selezionati e dispersione gene-saggio (Fig. 3B). Copertura media dei geni sono tracciati contro la loro variabilità biologica e vengono visualizzati in due set in base al loro stato di rilevabilità (potenza ≥ 0,8 e potenza < 0,8).

Figura 3

Analisi della potenza per valutare i cambiamenti trascrizionali in non-maligna MCF10A linea cellulare. (A) Stime di potenza basate su un singolo gene per un diverso numero di campioni in ogni gruppo con un cambiamento minimo di piega di 2 e significatività statistica α = 0,01. (B) Rilevabilità genica sul piano log2CPM-BCOV con FDR ≤0.1 e due campioni in ogni gruppo.

Espressione genica differenziale

Creare e interpretare la firma di espressione genica differenziale è un tipico scenario di analisi negli esperimenti RNA-seq. Con GREIN, l’utente può creare una firma confrontando l’espressione genica tra due gruppi di campioni con o senza aggiustamenti per le covariate sperimentali o gli effetti batch. GREIN può gestire disegni sperimentali complessi fornendo la flessibilità di riorganizzare gruppi e sottogruppi o di selezionare campioni specifici. La firma di espressione differenziale può essere visualizzata tramite grafici interattivi che includono la heatmap dei geni in cima differenzialmente deregolati (Fig. supplementare S15) classificati per falso tasso di scoperta (FDR), log fold change vs. log espressione media (MA) plot (Fig. supplementare S16), e gene detectability plot (Fig. supplementare S17). La firma di espressione differenziale, con o senza contabilità per i risultati potenzialmente falsi negativi, può essere esportata direttamente in iLINCS per l’arricchimento e l’analisi della connettività.

Caso d’uso: Analisi della regolazione trascrizionale e traslazionale dell’ipossia in linee cellulari epiteliali non maligne e triple-negative di cancro al seno

Dimostriamo l’uso di GREIN rianalizzando un dato RNA-seq pubblicato di recente su GEO (GSE104193). Sesé et al.21 hanno esaminato la regolazione trascrizionale e traslazionale del sottotipo di cancro al seno triplo-negativo (TNBC) ormono-refrattario sotto una combinazione di ipossia e trattamento con inibitore mTOR (bersaglio meccanico della rapamicina). In particolare, gli autori hanno analizzato i profili di espressione di cellule TNBC (MDA-MB-231) e di cellule epiteliali mammarie non maligne (MCF10A) esposte a condizioni di normossicità (21% O2) e di ipossia (0,5% O2) e/o trattate con un inibitore mTORC1 e -2 PP242. Ognuno dei campioni è stato sequenziato per l’mRNA totale (T) e legato al polisoma (P). Il set di dati contiene 32 campioni, che rappresentano due replicati biologici per ogni combinazione di linea cellulare, livello di ossigeno, stato di trattamento e frazione di mRNA.

L’analisi esplorativa del set di dati elaborati in GREIN (Fig. 2) mostra che la più forte fonte di variazione tra i campioni deriva dalle differenze tra le due linee cellulari. Questo è rafforzato dall’analisi di correlazione dei profili di espressione completi (Fig. 2A), il clustering gerarchico dei primi 500 geni altamente variabili basato sulla deviazione mediana assoluta (Fig. 2B), il grafico PCA 3D dei campioni (Fig. 2C) e il grafico 2D t-SNE (Fig. 2D). Inoltre, alte correlazioni tra i profili di espressione per la stessa linea cellulare (Fig. 2A) indicano un buon segnale-rumore nelle misure di espressione genica. L’ulteriore sottostruttura dei dati indicati dalla trama 2D t-SNE è stata esaminata dipingendo i campioni secondo diversi attributi (Fig. S1 supplementare). Questa analisi ha rivelato che le separazioni all’interno di ogni linea cellulare sono indotte da diverse frazioni di mRNA e quindi differenze tra le condizioni sperimentali.

In seguito, abbiamo usato GREIN per eseguire l’analisi di potenza statistica basata sul modello di variabilità biologica osservato in questo set di dati. Abbiamo considerato i profili trascrizionali di ogni linea cellulare esposta all’ipossia e trattata con o senza PP242, il che porta a quattro confronti. Supponendo una differenza di espressione di almeno due volte tra i gruppi, alla significatività statistica di α = 0,01, e con solo due repliche in ogni gruppo, il potere statistico di un gene di essere rilevato come differenzialmente espresso è inferiore a 0,55 in tutti i confronti (Tabella 2). La nostra analisi indica che si avrebbe bisogno di quattro repliche per gruppo per raggiungere l’80% di potenza per rilevare due volte il cambiamento di espressione (Tabella 2 e Fig. 3A). In un tipico esperimento RNA-seq, una profondità di sequenziamento di 20-30 milioni è sufficiente per quantificare l’espressione genica per quasi tutti i geni 4,22 che è anche evidente in questo set di dati. Abbiamo anche valutato il potere statistico di ogni gene per essere rilevato come differenzialmente espresso dalla trama ‘rilevabilità dei geni’. Log medio di conteggi per milione (CPM) valori dei geni sono stati tracciati contro gene-wise coefficiente biologico di variazione (BCOV) e potenza è stata calcolata per i geni corrispondenti (Fig. 3B). Un tasso di falsa scoperta controllato di 0,05 e una percentuale attesa di veri positivi del 10% sono stati utilizzati per stimare la significatività statistica. Definiamo un gene da rilevare come differenzialmente espresso in condizione ipossica se la sua potenza è 0,8 o superiore. Come previsto, esiste una relazione inversa tra BCOV e potenza (Fig. 3B). Inoltre, il potere di rilevare l’espressione differenziale di un gene aumenta con un più alto log CPM o dimensione dell’effetto.

Tabella 2 Analisi della potenza statistica per valutare i cambiamenti trascrizionali in linee cellulari maligne e non maligne.

Uno degli obiettivi dello studio era quello di analizzare i cambiamenti trascrizionali in condizioni ipossiche e normossiche con e senza trattamento PP242 in entrambe le linee cellulari MCF10A e MDA-MB-231. Abbiamo creato le firme trascrizionali dell’ipossia e dell’ipossia + PP242 nell’mRNA totale attraverso l’analisi dell’espressione differenziale tra i campioni di ipossia e ipossia + PP242 rispettivamente contro i campioni di controllo, mentre si aggiustava per l’effetto lotto trattando la ‘replica’ come covariata, per ogni linea cellulare separatamente. Abbiamo trovato un maggior numero di geni differenzialmente espressi (DE) nelle linee cellulari MCF10A rispetto a MDA-MB-231 sia in ipossia che in ipossia + PP242 (Fig. 4A) indicando che forse la linea cellulare tumorale è meglio attrezzata per affrontare l’ipossia. Questa analisi ha anche mostrato che la maggior parte dei geni non differenzialmente espressi non sono anche rilevabili, indicando che essi possono rappresentare risultati falsi negativi. Questo è in accordo con l’analisi di potenza che mostra che 4 campioni per gruppo sarebbero necessari per identificare in modo coerente i geni differenzialmente espressi con BCOV medio. Per identificare i geni meno espressi sarebbe necessaria una dimensione del campione ancora maggiore.

Figura 4

Espressione differenziale e rilevabilità dei geni. (A) Il numero di geni (scala log10) non differenzialmente espresso e non rilevabile (NDE&NDT), differenzialmente espresso (DE), e non differenzialmente espresso ma rilevabile (NDE&DT) nei confronti con normoxia per la frazione totale di mRNA. Chiamiamo un gene rilevabile (DT) se la sua potenza ≥0,8 e differenziabile se FDR < 0,05. (B) La trama di rilevabilità del gene per il primo confronto (MCF10A e ipossia) che visualizza il suddetto elenco di geni con le loro rispettive variazioni di piega (FC).

Per interpretare i geni differenzialmente espressi in termini di percorsi biologici interessati, abbiamo presentato le firme di espressione genica differenziale di ipossia per strumenti di arricchimento online (DAVID23, ToppGene24, Enrichr25, e Reactome26) tramite iLINCS. Le firme inviate comprendevano un elenco combinato di geni DE e NDE&DT che rappresentano probabili veri positivi e veri negativi. I geni sono stati selezionati sulla base di un cutoff di 0,7 e 0,01 per la potenza statistica e FDR rispettivamente. La Figura 5 illustra i risultati di arricchimento ottenuti da ToppGene per la firma di ipossia MCF10. Significativamente arricchito (FDR < 0.05) le prime 10 categorie dell’ontologia genica (GO) da ToppGene e lo strumento di annotazione funzionale DAVID includono la risposta all’ipossia, la risposta alla diminuzione dei livelli di ossigeno, l’angiogenesi, la regolazione della proliferazione cellulare, il processo di ossido-riduzione e la risposta allo stimolo abiotico che sono comuni in entrambe le linee cellulari (Tabella supplementare S2 e Tabella supplementare S3). La maggior parte di queste categorie sono coerenti con lo studio originale. Inoltre, la suite ToppGene ha identificato la rete di fattori di trascrizione indotta dall’ipossia (HIF-1-alfa) che è stata attivata in entrambe le linee cellulari (Tabella supplementare S4 e Tabella supplementare S5).

Figura 5

Snapshot di alcuni dei percorsi significativi e categorie di ontologia genica (GO) da ToppGene tramite iLINCS. Queste categorie si trovano nel confronto tra ipossia e normoxia nella linea cellulare MCF10A usando un elenco combinato di geni DE e NDE&DT. La linea verticale rossa è il cutoff selezionato di 0,05.

Infine, abbiamo utilizzato la connessione GREIN con iLINCS per “collegare” la firma caricata con LINCS27 consenso (CGS) gene knockdown firme18. Abbiamo trovato 3.727 LINCS consenso gene knockdown firme che erano significativamente (pValue < 0,05) collegato con la nostra firma caricata. I geni bersaglio di top 100 firme collegate sono stati selezionati per ulteriori analisi di arricchimento. Abbiamo trovato la risposta cellulare all’ipossia e la regolazione di Hypoxia-inducible Factor (HIF) dall’ossigeno nella lista dei primi 10 percorsi attivati in entrambe le linee cellulari (Tabella supplementare S6 e Tabella supplementare S7). Mentre questa analisi produce simili categorie funzionali arricchite come l’analisi di arricchimento iniziale, completa l’analisi originale implicando diversi geni bersaglio che non sono differenzialmente espressi anche se sono sufficientemente altamente espressi per essere rilevabili secondo le nostre analisi di potenza. Collegare questi due risultati insieme implica questi geni come potenziali regolatori di livello superiore della risposta all’ipossia.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.