GREIN: En interaktiv webbplattform för omanalys av GEO RNA-seq-data

Den konceptuella översikten över GREIN visas i fig. 1. Enskilda RNA-seq-dataset behandlas av GREP2-pipeline och lagras lokalt som R Expression Sets. Användaren kan få tillgång till och analysera förbehandlade dataset via GREIN:s grafiska användargränssnitt (GUI) eller skicka in dataset som ännu inte har behandlats för behandling. GUI-drivna arbetsflöden underlättar undersökning och visualisering av data, statistisk analys, konstruktion av transkriptionella signaturer och systembiologisk tolkning av differentiellt uttryckta (DE) gener. Både GREIN och back-end pipeline (GREP2) är skrivna i R och släpps som Docker container respektive R-paket. Grafiska användargränssnitt för GREIN implementeras i Shiny16, ett webbramverk för att bygga dynamiska webbapplikationer i R. Webbinstansen på https://shiny.ilincs.org/grein distribueras via en robust Docker-svärm av Shiny-servrar med balanserad belastning. Hela GREIN-infrastrukturen, inklusive bearbetningspipeline, distribueras via Docker-containrar.

Figur 1

Schematiskt arbetsflöde för GREP2, webbgränssnitt och utdata från GREIN. GEO-datasetterna bearbetas systematiskt med hjälp av GREP2-pipeline och lagras i back-end-datasetbiblioteket. GUI-drivna GREIN-arbetsflöden underlättar omfattande analys och visualisering av bearbetade dataset.

Användarvänliga GUI-drivna arbetsflöden i GREIN underlättar typiska återanvändningsscenarier för RNA-seq-data, t.ex. undersökning av kvalitetskontrollåtgärder och visualisering av uttrycksmönster i hela datasetetet, analys av urvalsstorlek och effekt i syfte att informera om experimentell utformning av framtida studier, statistisk differentiell genuttryck, genlisteberikning och nätverksanalys. Förutom standardjämförelser mellan två grupper stöder modulen för analys av differentiellt genuttryck även anpassning av en generaliserad linjär modell som tar hänsyn till kovariater eller batcheffekter. De interaktiva visualiserings- och utforskningsverktyg som implementerats omfattar klusteranalys, interaktiva värmekartor, huvudkomponentanalys (PCA), t-distributed stochastic neighbor embedding (t-SNE) osv. (Kompletterande tabell S1). Användaren kan också söka efter ontologiska annotationer av mänskliga RNA-seq-prover och dataset som tillhandahålls av MetaSRA-projektet13. Varje bearbetat mänskligt RNA-seq-prov är märkt med MetaSRA-mappning av biomedicinska ontologier, inklusive Disease Ontology, Cell Ontology, Experimental Factor Ontology, Cellosaurus och Uberon. Den biologiska tolkningen av differentiella genuttryck underlättas av direktlänkar till andra online-verktyg för att utföra typiska post-hoc-analyser, t.ex. analys av genlistor, analys av anrikning av vägar och nätverksanalys av differentiellt uttryckta gener (DE). Anslutningen till dessa analytiska webbtjänster genomförs genom att den differentiella genuttryckssignaturen (dvs. listan över genomsnittliga förändringar i genuttryck och tillhörande p-värden för alla/upp/nedreglerade gener som analyserats) skickas till iLINCS17 (Integrative LINCS). iLINCS tillhandahåller också signaturernas konnektivitetsanalys för nyligen utgivna Connectivity Map L1000-signaturer18. Detaljerade steg-för-steg-instruktioner om arbetsflöden för GREIN-analys finns i det kompletterande materialet och i avsnittet ”Hjälp” i GREIN.

Nyckelfunktioner

Sök eller skicka in för bearbetning

Användaren kan antingen söka efter en redan bearbetad GEO-datauppsättning i rutan ”Sök efter GEO-serier (GSE)-tillträde” eller skicka in en datauppsättning för bearbetning om datauppsättningen inte redan har bearbetats (kompletterande fig. S2). Vid denna tidpunkt har den stora majoriteten av GEO-datasetterna för RNA-seq från människor, möss och råttor förbehandlats, och det kommer endast i enstaka fall att krävas att användaren skickar in GEO-datasetterna för behandling. Användaren kan kontrollera bearbetningsstatusen för det begärda datasetet på fliken ”Processing console” (kompletterande figur S3). Andra sökalternativ inkluderar nyckelordssökning genom metadata för dataset och sökprover genom biomedicinska ontologier via MetaSRA ontologiska annotationer.

Explore dataset

GREIN ger tillgång till både råa och normaliserade (antal per miljon och transkript per miljon) data på gen- och transkriptnivå. GREIN levereras med flera interaktiva och anpassningsbara verktyg för att visualisera uttrycksmönster, t.ex. interaktiva värmekartor av klustrade gener och prover, täthetsdiagram för alla eller en delmängd prover, analys av variabilitet mellan och inom grupper genom 2D- och 3D-dimensionalitetsreduceringsanalyser och visualiseringar som PCA och t-SNE (fig. 2). Användaren kan också visualisera uttrycksprofilen för varje gen separat (Supplementary Fig. S6).

Figur 2

Explorativa analysplaner i GREIN. (A) Korrelationsvärmekartan visar en högre korrelation inom cellinjer och låg korrelation mellan cellinjer. Generellt sett tyder höga korrelationer inom varje cellinje på hög kvalitet på transkriptionsprofilerna. (B) Hierarkisk klustring baserad på Pearsonkorrelation av de 500 mest variabla generna baserat på medianabsolut avvikelse som variabilitetsmått. Data har normaliserats och centrerats till medelvärdet. (C) Tredimensionell huvudkomponentanalys av cellinjerna. (D) Tvådimensionell t-SNE-plott av behandlingstillstånd och cellinje visar en tydlig separation av cellinjerna och sedan RNA-fraktionerna vilket indikerar två dominerande källor till variabiliteten mellan RNA-seq-profiler.

Kvalitetskontroll

Kvaliteten på RNA-seq-data i offentliga databaser fortsätter att vara ett stort problem. I en nyligen genomförd studie av Deelen et al.19 måste mer än hälften av 65 000 bearbetade offentliga RNA-seq-prover tas bort på grund av QC-problem. I stället för att ta bort prover ger GREIN en omfattande kvalitetskontrollrapport (QC) med råsekvensdata och sekvenskartläggning för varje prov (Supplementary Fig. S7), och gör det möjligt för användaren att fatta beslut om vilka prover som bör uteslutas från nedströmsanalyser.

Statistisk kraftanalys

Kraftanalysmodulen i GREIN underlättar beräkning och visualisering av statistisk kraft för att detektera differentiellt uttryckta gener i framtida studier som använder sig av liknande biologiska prover. Uppskattning av lämplig provstorlek för framtida studier med liknande biologiska prover är ofta den viktigaste motivationsfaktorn vid omanalys av RNA-seq-data. Analys av effekt underlättar också post-hoc-analysen av falskt negativa tal i det aktuella datasetet. Bristande statistisk styrka och skillnader i statistisk styrka mellan gener kan ge falskt negativa resultat som leder till felaktiga slutsatser20. Segmentet ”Power curve” ger effektuppskattningar för olika antal prover baserade på en enskild gen (fig. 3A). Användaren kan ändra standardvärdena för parametrarna. Plotten ”Detectability of genes” visualiserar effektuppskattningen för var och en av generna baserat på de valda grupperna och den genvisa spridningen (fig. 3B). Genomsnittlig täckning av generna plottas mot deras biologiska variabilitet och visas i två uppsättningar baserat på deras detekterbarhetsstatus (effekt ≥0,8 och effekt < 0,8).

Figur 3

Strömavläsningsanalys för att bedöma transkriptionsförändringar i den icke-maligna cellinjen MCF10A. (A) Effektskattningar baserade på enskilda gener för olika antal prover i varje grupp med en minimal vikförändring på 2 och statistisk signifikans α = 0,01. (B) Genbaserad detekterbarhet på log2CPM-BCOV-planet med FDR ≤0,1 och två prover i varje grupp.

Differentiellt genuttryck

Skapande och tolkning av differentiell genuttryckssignatur är ett typiskt analysscenario i RNA-seq-experiment. Med GREIN kan användaren skapa en signatur genom att jämföra genuttryck mellan två grupper av prover med eller utan justeringar för experimentella kovariater eller batcheffekter. GREIN kan hantera komplexa experimentella konstruktioner genom att ge flexibilitet när det gäller att omorganisera grupper och undergrupper eller välja specifika prover. Signaturer för differentiellt uttryck kan visualiseras via interaktiv grafik som omfattar värmekarta över de mest differentiellt deregulerade generna (kompletterande figur S15) rangordnade efter falska upptäcktsfrekvensen (FDR), log-faltförändring vs. log-medeluttryck (MA) (kompletterande figur S16) och genupptäckbarhetsdiagram (kompletterande figur S17). Differentiell uttryckssignatur, med eller utan redovisning av potentiellt falskt negativa resultat, kan exporteras direkt till iLINCS för anriknings- och konnektivitetsanalys.

Användningsfall: Analys av transkriptionell och translationell reglering av hypoxi i icke-maligna bröstepitelceller och trippelnegativa bröstcancercellinjer

Vi demonstrerar användningen av GREIN genom att omanalysera en nyligen publicerad GEO RNA-seq-data (GSE104193). Sesé et al.21 undersökte den transkriptionella och translationella regleringen av hormonrefraktär trippelnegativ bröstcancer (TNBC) subtyp under en kombination av hypoxi och mTOR (mechanistic target of rapamycin) inhibitor behandling. Författarna analyserade särskilt uttrycksprofilerna hos TNBC-celler (MDA-MB-231) och icke-maligna bröstepitelceller (MCF10A) som utsattes för normoxiska (21 % O2) och hypoxiska (0,5 % O2) förhållanden och/eller behandlades med en mTORC1- och -2-hämmare PP242. Varje prov sekvenserades för totalt (T) och polysombundet (P) mRNA. Datasetetet innehåller 32 prover som representerar två biologiska replikat för varje kombination av cellinje, syrenivå, behandlingsstatus och mRNA-fraktion.

Explorativ analys av det bearbetade datasetetet i GREIN (fig. 2) visar att den starkaste källan till variation mellan proverna kommer från skillnader mellan de två cellinjerna. Detta förstärks av korrelationsanalysen av fullständiga uttrycksprofiler (fig. 2A), den hierarkiska klusterindelningen av de 500 mest varierande generna baserat på medianabsolut avvikelse (fig. 2B), 3D PCA-plott av proverna (fig. 2C) och 2D t-SNE-plott (fig. 2D). Dessutom visar höga korrelationer mellan uttrycksprofiler för samma cellinje (fig. 2A) på ett bra signal-brusförhållande i genuttrycksmätningarna. Den ytterligare substruktur av data som indikeras av 2D t-SNE-plotten har undersökts genom att måla proverna enligt olika attribut (kompletterande fig. S1). Denna analys visade att separationer inom varje cellinje induceras av olika mRNA-fraktioner och sedan skillnader mellan experimentella förhållanden.

Nästan använde vi GREIN för att utföra en statistisk effektanalys baserad på mönstret av biologisk variabilitet som observerats i detta dataset. Vi tog hänsyn till transkriptionsprofiler för varje cellinje som utsattes för hypoxi och behandlades med eller utan PP242, vilket leder till fyra jämförelser. Om man utgår från en uttrycksskillnad på minst två gånger mellan grupperna, med statistisk signifikans α = 0,01, och med endast två replikat i varje grupp, är den statistiska styrkan för en gen att upptäckas som differentiellt uttryckt lägre än 0,55 i alla jämförelser (tabell 2). Vår analys visar att man skulle behöva fyra replikat per grupp för att uppnå 80 % styrka för att upptäcka en tvåfaldig förändring av uttrycket (tabell 2 och figur 3A). I ett typiskt RNA-seq-experiment är ett sekvenseringsdjup på 20-30 miljoner tillräckligt för att kvantifiera genuttryck för nästan alla gener4,22 , vilket också är uppenbart i detta dataset. Vi utvärderade också den statistiska styrkan för varje gen att upptäckas som differentiellt uttryckt från ”Detectability of genes”-diagrammet. Genomsnittliga logaritmerade CPM-värden (counts per million) för generna plottades mot den genvisa biologiska variationskoefficienten (BCOV) och effekten beräknades för motsvarande gener (fig. 3B). En kontrollerad falsk upptäcktsfrekvens på 0,05 och en förväntad andel sant positiva resultat på 10 % användes för att uppskatta den statistiska signifikansen. Vi definierar en gen som detekterbar som differentiellt uttryckt i hypoxiskt tillstånd om dess styrka är 0,8 eller högre. Som förväntat finns det ett omvänt förhållande mellan BCOV och effekt (fig. 3B). Dessutom ökar effekten för att upptäcka differentiellt uttryck av en gen med en högre log CPM eller effektstorlek.

Tabell 2 Statistisk effektanalys för att bedöma transkriptionsförändringar i maligna och icke-maligna cellinjer.

Ett av målen med studien var att analysera transkriptionsförändringar i hypoxiska och normoxiska förhållanden med och utan PP242-behandling i både MCF10A- och MDA-MB-231-cellinjer. Vi skapade transkriptionella signaturer av hypoxi och hypoxi + PP242 i totalt mRNA genom differentiell uttrycksanalys mellan hypoxi och hypoxi + PP242-prover respektive mot kontrollproverna samtidigt som vi justerade för batcheffekten genom att behandla ”replikat” som en kovariat, för varje cellinje separat. Vi fann ett högre antal gener med differentiellt uttryck (DE) i MCF10A-cellinjerna jämfört med MDA-MB-231 i både hypoxi och hypoxi + PP242 (fig. 4A), vilket tyder på att tumörcellinjen kanske är bättre utrustad för att hantera hypoxi. Denna analys visade också att de flesta icke-differentiellt uttryckta gener inte heller är detekterbara, vilket tyder på att de kan utgöra falskt negativa resultat. Detta stämmer överens med den effektanalys som visar att 4 prover per grupp skulle behövas för att konsekvent identifiera differentiellt uttryckta gener med genomsnittlig BCOV. För att identifiera lägre uttryckta gener skulle det krävas en ännu högre provstorlek.

Figur 4

Differentiellt uttryck och detekterbarhet av generna. (A) Antalet gener (log10-skalan) som inte differentiellt uttrycks och inte kan påvisas (NDE&NDT), differentiellt uttrycks (DE) och inte differentiellt uttrycks men kan påvisas (NDE&DT) i jämförelserna med normoxia för den totala mRNA-fraktionen. Vi kallar en gen för detekterbar (DT) om dess styrka ≥0,8 och differentierbar om FDR < 0,05. (B) Plotten för genupptäckbarhet för den första jämförelsen (MCF10A och hypoxi) som visualiserar ovan nämnda lista över gener tillsammans med deras respektive vikningsförändringar (FC).

För att tolka differentiellt uttryckta gener i termer av påverkade biologiska vägar skickade vi in de differentiella genuttryckssignaturerna av hypoxi till online-anrikningsverktyg (DAVID23, ToppGene24, Enrichr25 och Reactome26) via iLINCS. De inlämnade signaturerna innehöll en kombinerad lista över DE- och NDE&DT-gener som representerar sannolika sanna positiva och sanna negativa gener. Generna valdes ut baserat på ett gränsvärde på 0,7 och 0,01 för statistisk styrka respektive FDR. Figur 5 illustrerar de anrikningsresultat som erhållits från ToppGene för MCF10 hypoxi-signaturen. Signifikant anrikade (FDR < 0.05) de tio bästa genontologikategorierna (GO) från ToppGene och DAVID-verktyget för funktionell annotering omfattar respons på hypoxi, respons på minskade syrenivåer, angiogenes, reglering av cellproliferation, oxidations-reduktionsprocess och respons på abiotisk stimulans som är gemensamma för båda cellinjerna (tilläggstabell S2 och tilläggstabell S3). De flesta av dessa kategorier överensstämmer med den ursprungliga studien. Dessutom identifierade ToppGene-sviten ett nätverk av transkriptionsfaktorer för hypoxiinducerad faktor (HIF-1-alfa) som aktiverades i båda cellinjerna (tilläggstabell S4 och tilläggstabell S5).

Figur 5

Snapshot av några av de signifikanta kategorierna för banor och genontologi (GO) från ToppGene via iLINCS. Dessa kategorier återfinns i jämförelsen mellan hypoxi och normoxi i cellinjen MCF10A med hjälp av en kombinerad lista över DE- och NDE&DT-gener. Den röda vertikala linjen är den valda gränsen på 0,05.

Slutligt använde vi GREIN-anslutningen med iLINCS för att ”koppla ihop” den uppladdade signaturen med LINCS27 konsensus (CGS) signaturer för nedsättning av gener18. Vi hittade 3 727 LINCS-konsensus signaturer för nedsättning av gener som var signifikant (pValue < 0,05) kopplade till vår uppladdade signatur. Målgenerna i de 100 mest anslutna signaturerna valdes ut för ytterligare anrikningsanalys. Vi fann cellulär respons på hypoxi och reglering av Hypoxia-inducible Factor (HIF) av syre i listan över de tio mest aktiverade vägarna i båda cellinjerna (kompletterande tabell S6 och kompletterande tabell S7). Även om denna analys ger liknande berikade funktionella kategorier som den ursprungliga berikningsanalysen, kompletterar den den ursprungliga analysen genom att involvera flera målgener som inte är differentiellt uttryckta även om de är tillräckligt högt uttryckta för att vara detekterbara enligt våra kraftanalyser. Genom att binda samman dessa två resultat involveras dessa gener som potentiella reglerare på högre nivå av svaret på hypoxi.

Lämna ett svar

Din e-postadress kommer inte publiceras.