De conceptuele schets van GREIN wordt getoond in Fig. 1. Individuele RNA-seq datasets worden verwerkt door de GREP2 pipeline en lokaal opgeslagen als R Expression Sets. Gebruikers hebben toegang tot voorbewerkte datasets en kunnen deze analyseren via de GREIN grafische gebruikersinterface (GUI) of kunnen datasets die nog niet verwerkt zijn, indienen voor verwerking. GUI-gestuurde workflows vergemakkelijken het onderzoek en de visualisatie van data, statistische analyse, constructie van transcriptionele handtekeningen, en systeembiologische interpretatie van differentieel uitgedrukte (DE) genen. Zowel GREIN als de back-end pijplijn (GREP2) zijn geschreven in R en uitgebracht als respectievelijk Docker container en R package. Grafische gebruikersinterfaces voor GREIN zijn geïmplementeerd in Shiny16, een web framework voor het bouwen van dynamische web applicaties in R. De web instantie op https://shiny.ilincs.org/grein wordt ingezet via een robuuste Docker zwerm van load-balanced Shiny servers. De volledige GREIN-infrastructuur, inclusief de verwerkingspijplijn, wordt ingezet via Docker-containers.
Gebruikersvriendelijke GUI-gestuurde workflows in GREIN vergemakkelijken typische hergebruikscenario’s voor RNA-seq-gegevens, zoals onderzoek van kwaliteitscontrolemaatregelen en visualisatie van expressiepatronen in de hele dataset, steekproefgrootte en power-analyse ter informatie van experimenteel ontwerp van toekomstige studies, statistische differentiële genexpressie, verrijking van genenlijsten en netwerkanalyse. Naast de standaard twee-groepen vergelijking, ondersteunt de differentiële genexpressie analyse module ook de aanpassing van een gegeneraliseerd lineair model dat rekening houdt met covariaten of batch-effecten. De interactieve visualisatie en exploratie tools geïmplementeerd omvatten clusteranalyse, interactieve heatmaps, principale componenten analyse (PCA), t-verdeelde stochastische buur embedding (t-SNE), enz. (Aanvullende tabel S1). Gebruiker kan ook zoeken naar ontologische annotaties van menselijke RNA-seq monsters en datasets die door de MetaSRA project 13. Elke verwerkte menselijke RNA-seq monster is gelabeld met MetaSRA in kaart brengen van biomedische ontologieën, waaronder Disease Ontology, Cell Ontology, Experimental Factor Ontology, Cellosaurus, en Uberon. Biologische interpretatie van differentiële genexpressies wordt geholpen door directe links naar andere online tools voor het uitvoeren van typische post-hoc analyses, zoals de genenlijst en pathway verrijkingsanalyse en de netwerkanalyse van differentieel tot expressie komende (DE) genen. De verbinding met deze analytische webdiensten wordt uitgevoerd door het indienen van de differentiële genexpressie handtekening (dat wil zeggen, de lijst van gemiddelde veranderingen in genexpressie en bijbehorende p-waarden voor alle / up / down gereguleerde genen geanalyseerd) naar iLINCS17 (Integrative LINCS). iLINCS biedt ook de handtekeningen connectiviteit analyse voor de onlangs vrijgegeven Connectivity Map L1000 handtekeningen18. Gedetailleerde stap-voor-stap instructies over GREIN analyse workflows worden gegeven in het aanvullend materiaal en ‘Help’ sectie in GREIN.
Gebruiker kan ofwel zoeken naar een reeds verwerkte GEO-dataset in het vak ‘Zoeken naar GEO-serie (GSE) toetreding’ of een dataset indienen voor verwerking als de dataset nog niet is verwerkt (Supplementary Fig. S2). Op dit punt in de tijd, de overgrote meerderheid van GEO menselijke, muis, en rat RNA-seq datasets zijn voorbewerkt en de gebruiker-submission van GEO datasets voor de verwerking zal worden vereist slechts af en toe. Gebruiker kan de verwerking status van de gevraagde dataset in de ‘Processing console’ tab (Supplementary Fig. S3). Andere zoekopties omvatten het zoeken op trefwoorden via metadata van de datasets en het zoeken van monsters via biomedische ontologieën via MetaSRA ontologische annotaties.
Explore dataset
GREIN biedt toegang tot zowel ruwe als genormaliseerde (tellingen per miljoen en transcript per miljoen) gen- en transcriptniveaugegevens. GREIN wordt geleverd met verschillende interactieve en aanpasbare tools om expressiepatronen te visualiseren, zoals interactieve heatmaps van geclusterde genen en monsters, dichtheid plots voor alle of een subset van monsters, tussen en binnen groep variabiliteit analyse door middel van 2D en 3D dimensionaliteit reductie analyses en visualisaties zoals PCA en t-SNE (Fig. 2). De gebruiker kan ook het expressieprofiel van elk gen afzonderlijk visualiseren (Supplementary Fig. S6).