Den konceptuelle oversigt over GREIN er vist i fig. 1. Individuelle RNA-seq-datasæt behandles af GREP2-pipelinen og gemmes lokalt som R Expression Sets. Brugeren kan få adgang til og analysere forbehandlede datasæt via GREIN’s grafiske brugergrænseflade (GUI) eller indsende datasæt, der endnu ikke er blevet behandlet, til behandling. GUI-drevne arbejdsgange letter undersøgelse og visualisering af data, statistisk analyse, konstruktion af transkriptionelle signaturer og systembiologisk fortolkning af differentielt udtrykte (DE) gener. Både GREIN og back-end-pipelinen (GREP2) er skrevet i R og frigivet som henholdsvis Docker-container og R-pakke. Grafiske brugergrænseflader til GREIN er implementeret i Shiny16 , en webramme til opbygning af dynamiske webapplikationer i R. Webinstansen på https://shiny.ilincs.org/grein er udrullet via en robust Docker-sværm af Shiny-servere med belastningsbalanceret belastning. Den komplette GREIN-infrastruktur, herunder behandlingspipeline, udrulles via Docker-containere.
Brugervenlige GUI-drevne arbejdsgange i GREIN letter typiske genbrugsscenarier for RNA-seq-data såsom undersøgelse af kvalitetskontrolforanstaltninger og visualisering af ekspressionsmønstre i hele datasættet, stikprøvestørrelse og effektanalyse med henblik på at informere om eksperimentelt design af fremtidige undersøgelser, statistisk differentiel genekspression, genlisteberigelse og netværksanalyse. Ud over standard sammenligning af to grupper understøtter modulet til analyse af differentiel genekspression også tilpasning af en generaliseret lineær model, der tager højde for kovariater eller batch-effekter. De interaktive visualiserings- og udforskningsværktøjer, der er implementeret, omfatter klyngeanalyse, interaktive varmekort, hovedkomponentanalyse (PCA), t-distributed stochastic neighbor embedding (t-SNE) osv. (Supplerende tabel S1). Brugeren kan også søge efter ontologiske annotationer af humane RNA-seq-prøver og datasæt, der leveres af MetaSRA-projektet13. Hver behandlet human RNA-seq-prøve er mærket med MetaSRA-mapping af biomedicinske ontologier, herunder Disease Ontology, Cell Ontology, Experimental Factor Ontology, Cellosaurus og Uberon. Den biologiske fortolkning af differentielle genekspressioner hjælpes af direkte links til andre onlineværktøjer til udførelse af typiske post-hoc-analyser som f.eks. genliste- og vejberigelsesanalyse og netværksanalyse af differentielt udtrykte gener (DE-gener). Forbindelsen til disse analytiske webtjenester gennemføres ved at indsende den differentielle genekspressionssignatur (dvs. listen over gennemsnitlige ændringer i genekspression og de tilhørende p-værdier for alle/op/nedregulerede gener, der er analyseret) til iLINCS17 (Integrative LINCS). iLINCS leverer også signaturernes konnektivitetsanalyse for de nyligt udgivne Connectivity Map L1000-signaturer18. Detaljerede trinvise instruktioner om GREIN-analysearbejdsgange findes i det supplerende materiale og i afsnittet “Hjælp” i GREIN.
Nøglefunktionaliteter
Søg eller indsend til behandling
Brugeren kan enten søge efter et allerede behandlet GEO-datasæt i boksen “Søg efter GEO-serier (GSE) accession” eller indsende et datasæt til behandling, hvis datasættet ikke allerede er behandlet (Supplerende fig. S2). På nuværende tidspunkt er langt de fleste GEO RNA-seq-datasæt for mennesker, mus og rotter i GEO blevet forbehandlet, og det vil kun lejlighedsvis være nødvendigt at indsende GEO-datasæt til behandling fra brugernes side. Brugeren kan kontrollere behandlingsstatus for det ønskede datasæt under fanen “Processing console” (Processing console) (Supplerende fig. S3). Andre søgemuligheder omfatter søgeordssøgning gennem metadata for datasættene og søgeprøver gennem biomedicinske ontologier via MetaSRA ontologiske annotationer.
Udforsk datasæt
GREIN giver adgang til både rå og normaliserede (antal pr. million og transkript pr. million) gen- og transkriptniveaudata. GREIN leveres med flere interaktive og tilpassede værktøjer til at visualisere ekspressionsmønstre som f.eks. interaktive heatmaps af clusterede gener og prøver, tæthedsplots for alle eller en delmængde af prøver, analyse af variabilitet mellem og inden for grupper gennem 2D- og 3D-dimensionalitetsreduktionsanalyser og visualiseringer som PCA og t-SNE (fig. 2). Brugeren kan også visualisere ekspressionsprofilen for hvert gen separat (Supplerende fig. S6).
Kvalitetskontrol
Kvaliteten af RNA-seq-data i offentlige arkiver er fortsat et stort problem. I en nylig undersøgelse foretaget af Deelen et al.19 måtte mere end halvdelen af 65 000 behandlede offentlige RNA-seq-prøver fjernes på grund af QC-problemer. I stedet for at fjerne prøver giver GREIN en omfattende kvalitetskontrol (QC) rapport om rå sekvensdata og sekvenskortlægning for hver prøve (Supplerende figur S7), og giver brugeren mulighed for at træffe en beslutning om, hvilke prøver der bør udelukkes fra downstream-analyser.
Statistisk effektanalyse
Effektanalysemodulet i GREIN letter beregning og visualisering af statistisk effekt af detektering af differentielt udtrykte gener i fremtidige undersøgelser, der anvender lignende biologiske prøver. Estimering af passende stikprøvestørrelse til fremtidige undersøgelser med lignende biologiske prøver er ofte den vigtigste motiverende faktor i forbindelse med genanalyse af RNA-seq-data. En analyse af styrke gør det også lettere at foretage en post-hoc-analyse af falsk negative tal i det aktuelle datasæt. Manglende statistisk styrke og forskelle i statistisk styrke mellem generne kan give falsk negative resultater, der fører til forkerte konklusioner20. Segmentet “Power curve” giver et estimat af effekt for forskellige antal prøver baseret på et enkelt gen (fig. 3A). Brugeren kan ændre standardværdierne for parametrene. Plottet “Detectability of genes” visualiserer effektestimatet for hvert enkelt gen baseret på de valgte grupper og den genetiske spredning (fig. 3B). Genernes gennemsnitlige dækning er plottet mod deres biologiske variabilitet og vises i to sæt baseret på deres detekterbarhedsstatus (power ≥0,8 og power < 0,8).
Differentiel genekspression
Skabelse og fortolkning af differentiel genekspressionssignatur er et typisk analysescenarie i RNA-seq-eksperimenter. Med GREIN kan brugeren oprette en signatur ved at sammenligne genekspression mellem to grupper af prøver med eller uden justeringer for eksperimentelle kovariater eller batch-effekter. GREIN kan håndtere komplekse eksperimentelle design ved at give fleksibilitet til at omarrangere grupper og undergrupper eller vælge specifikke prøver. Differentielle ekspressionssignaturer kan visualiseres via interaktive grafikker, der omfatter heatmap af top differentielt deregulerede gener (Supplerende figur S15) rangeret efter falsk opdagelsesrate (FDR), log fold change vs. log gennemsnitlig ekspression (MA) plot (Supplerende figur S16) og gene detectability plot (Supplerende figur S17). Differentielle ekspressionssignaturer, med eller uden hensyntagen til potentielt falsk negative resultater, kan eksporteres direkte til iLINCS til berigelses- og konnektivitetsanalyse.
Brugssag: Analyse af transkriptionel og translationel regulering af hypoxi i ikke-maligne bryst epitheliale og triple-negative brystkræftcellelinjer
Vi demonstrerer brugen af GREIN ved at genanalysere en nyligt offentliggjort GEO RNA-seq-data (GSE104193). Sesé et al.21 undersøgte den transkriptionelle og translationelle regulering af hormonrefraktær triple-negativ brystkræft (TNBC) subtype under en kombination af hypoxi og mTOR (mechanistic target of rapamycin) inhibitorbehandling. Forfatterne analyserede især ekspressionsprofilerne af TNBC-celler (MDA-MB-231) og ikke-maligne brystepitelceller (MCF10A), der blev udsat for normoxiske (21 % O2) og hypoxiske (0,5 % O2) forhold og/eller behandlet med en mTORC1- og -2-inhibitor PP242. Hver af prøverne blev sekventeret for total (T) og polysombundet (P) mRNA. Datasættet indeholder 32 prøver, der repræsenterer to biologiske replikater for hver kombination af cellelinje, iltniveau, behandlingsstatus og mRNA-fraktion.
Eksplorativ analyse af det bearbejdede datasæt i GREIN (Fig. 2) viser, at den stærkeste kilde til variation mellem prøverne kommer fra forskelle mellem de to cellelinjer. Dette forstærkes af korrelationsanalysen af fulde ekspressionsprofiler (Fig. 2A), den hierarkiske klynge af de 500 mest variable gener baseret på median absolut afvigelse (Fig. 2B), 3D PCA-plot af prøverne (Fig. 2C) og 2D t-SNE-plot (Fig. 2D). Endvidere indikerer høje korrelationer mellem ekspressionsprofiler for den samme cellelinje (fig. 2A) et godt signal/støjforhold i målingerne af genekspressionen. Den yderligere understruktur af data, som 2D t-SNE-plottet indikerer, er blevet undersøgt ved at male prøverne i henhold til forskellige attributter (Supplerende fig. S1). Denne analyse afslørede, at adskillelser inden for hver cellelinje er induceret af forskellige mRNA-fraktioner og derefter forskelle mellem eksperimentelle betingelser.
Næst brugte vi GREIN til at udføre statistisk styrkeanalyse baseret på mønsteret af biologisk variabilitet observeret i dette datasæt. Vi overvejede transkriptionsprofiler for hver cellelinje, der blev udsat for hypoxi og behandlet med eller uden PP242, hvilket fører til fire sammenligninger. Under antagelse af en ekspressionsforskel på mindst to gange mellem grupperne, med en statistisk signifikans på α = 0,01 og med kun to replikater i hver gruppe, er den statistiske styrke for et gen, der skal påvises som differentielt udtrykt, under 0,55 i alle sammenligninger (tabel 2). Vores analyse viser, at man skal bruge fire replikater pr. gruppe for at opnå en styrke på 80 % for at kunne påvise en todobbelt ændring i ekspression (tabel 2 og fig. 3A). I et typisk RNA-seq-eksperiment er en sekventeringsdybde på 20-30 millioner tilstrækkeligt til at kvantificere genekspressionen for næsten alle gener4,22 , hvilket også er tydeligt i dette datasæt. Vi evaluerede også den statistiske styrke for hvert gen til at blive detekteret som differentielt udtrykt ud fra plottet “Detectability of genes” (genernes detekterbarhed). Gennemsnitlig log af counts per million (CPM)-værdierne for generne blev plottet mod genvis biologisk variationskoefficient (BCOV), og kraften blev beregnet for de tilsvarende gener (Fig. 3B). Der blev anvendt en kontrolleret falsk opdagelsesrate på 0,05 og en forventet procentdel af ægte positive gener på 10 % til at vurdere den statistiske signifikans. Vi definerer et gen som værende detekterbart som differentielt udtrykt i hypoxisk tilstand, hvis dets styrke er 0,8 eller derover. Som forventet er der et omvendt forhold mellem BCOV og effekt (Fig. 3B). Også kraften til at detektere differentiel ekspression af et gen stiger med en højere log CPM eller effektstørrelse.
Et af målene med undersøgelsen var at analysere transkriptionelle ændringer i hypoxiske og normoxiske forhold med og uden PP242-behandling i både MCF10A- og MDA-MB-231-cellelinjer. Vi skabte transkriptionelle signaturer af hypoxi og hypoxi + PP242 i samlet mRNA ved differentiel ekspressionsanalyse mellem henholdsvis hypoxi og hypoxi + PP242-prøver i forhold til kontrolprøverne, mens vi justerede for batch-effekt ved at behandle “replikat” som en kovariat, for hver cellelinje separat. Vi fandt et højere antal gener differentielt udtrykt (DE) i MCF10A-cellelinjer sammenlignet med MDA-MB-231 i både hypoxi og hypoxi + PP242 (Fig. 4A), hvilket indikerer, at tumorcellelinjen måske er bedre rustet til at håndtere hypoxi. Denne analyse viste også, at de fleste ikke-differentielt udtrykte gener heller ikke kan påvises, hvilket indikerer, at de kan repræsentere falsk negative resultater. Dette er i overensstemmelse med den effektanalyse, der viser, at der skal 4 prøver pr. gruppe til for konsekvent at identificere differentielt udtrykte gener med gennemsnitlig BCOV. For at identificere lavere udtrykte gener ville der være behov for en endnu højere prøvestørrelse.
For at fortolke differentielt udtrykte gener i form af påvirkede biologiske veje indsendte vi de differentielle genekspressionssignaturer af hypoxi til online berigelsesværktøjer (DAVID23, ToppGene24, Enrichr25 og Reactome26) via iLINCS. De indsendte signaturer omfattede en kombineret liste over DE- og NDE&DT-gener, der repræsenterer sandsynlige ægte positive og ægte negative gener. Generne blev udvalgt på grundlag af en grænseværdi på 0,7 og 0,01 for henholdsvis statistisk styrke og FDR. Figur 5 illustrerer de berigelsesresultater, der er opnået fra ToppGene for MCF10 hypoxi-signaturen. Signifikant beriget (FDR < 0.05) top 10 genontologi (GO)-kategorier fra ToppGene og DAVID-værktøjet til funktionel annotation omfatter respons på hypoxi, respons på nedsat iltniveau, angiogenese, regulering af celleproliferation, oxidations-reduktionsproces og respons på abiotisk stimulus, som er fælles i begge cellelinjer (Supplerende tabel S2 og Supplerende tabel S3). De fleste af disse kategorier er i overensstemmelse med den oprindelige undersøgelse. Desuden identificerede ToppGene-suite et netværk af transkriptionsfaktorer med hypoxiinduceret faktor (HIF-1-alpha), som blev aktiveret i begge cellelinjer (Supplerende tabel S4 og Supplerende tabel S5).
Endeligt udnyttede vi GREIN-forbindelsen med iLINCS til at “forbinde” den uploadede signatur med LINCS27 konsensus (CGS) genknockdown-signaturer18. Vi fandt 3 727 LINCS-konsensusgenknockdown-signaturer, der var signifikant (pVærdi < 0,05) forbundet med vores uploadede signatur. Målgenerne i de 100 bedste forbundne signaturer blev udvalgt til yderligere berigelsesanalyse. Vi fandt cellulær respons på hypoxi og regulering af Hypoxia-inducible Factor (HIF) ved ilt i listen over top 10 aktiverede veje i begge cellelinjer (Supplerende tabel S6 og Supplerende tabel S7). Mens denne analyse giver lignende berigede funktionelle kategorier som den oprindelige berigelsesanalyse, supplerer den den oprindelige analyse ved at implicere flere målgener, der ikke er differentielt udtrykt, selv om de er tilstrækkeligt stærkt udtrykt til at kunne påvises i henhold til vores styrkeanalyser. Ved at binde disse to resultater sammen implicerer man disse gener som potentielle regulatorer på højere niveau af responsen på hypoxi.