GREIN: Interaktivní webová platforma pro reanalýzu dat GEO RNA-seq

Koncepční náčrt GREIN je znázorněn na obr. 1. Jednotlivé datové sady RNA-seq jsou zpracovány pipeline GREP2 a lokálně uloženy jako expresní sady R. Uživatel může přistupovat k předzpracovaným datovým sadám a analyzovat je prostřednictvím grafického uživatelského rozhraní (GUI) GREIN nebo odeslat ke zpracování datové sady, které ještě nebyly zpracovány. Pracovní postupy řízené grafickým uživatelským rozhraním usnadňují zkoumání a vizualizaci dat, statistickou analýzu, konstrukci transkripčních signatur a systémově biologickou interpretaci diferenciálně exprimovaných (DE) genů. GREIN i back-end pipeline (GREP2) jsou napsány v jazyce R a vydány jako kontejner Docker, resp. balíček R. Grafická uživatelská rozhraní pro GREIN jsou implementována v Shiny16 , webovém frameworku pro vytváření dynamických webových aplikací v R. Webová instance na adrese https://shiny.ilincs.org/grein je nasazena prostřednictvím robustního roje Docker serverů Shiny s vyváženou zátěží. Kompletní infrastruktura GREIN včetně zpracovatelské pipeline je nasazena prostřednictvím kontejnerů Docker.

Uživatelsky přívětivé pracovní postupy GREIN řízené grafickým uživatelským rozhraním usnadňují typické scénáře opakovaného použití dat RNA-seq, jako je zkoumání opatření kontroly kvality a vizualizace vzorců exprese v celém souboru dat, analýza velikosti vzorku a síly za účelem informování o experimentálním návrhu budoucích studií, statistická diferenciální genová exprese, obohacení seznamu genů a síťová analýza. Kromě standardního porovnání dvou skupin podporuje modul analýzy diferenciální genové exprese také fitování zobecněného lineárního modelu, který zohledňuje kovariáty nebo dávkové efekty. Implementované interaktivní vizualizační a průzkumné nástroje zahrnují shlukovou analýzu, interaktivní heatmapy, analýzu hlavních komponent (PCA), t-distributed stochastic neighbor embedding (t-SNE) atd. (Doplňková tabulka S1). Uživatel může také vyhledávat ontologické anotace vzorků a datových sad lidské RNA-seq, které poskytuje projekt MetaSRA13. Každý zpracovaný lidský vzorek RNA-seq je označen mapováním biomedicínských ontologií MetaSRA, včetně Disease Ontology, Cell Ontology, Experimental Factor Ontology, Cellosaurus a Uberon. Biologická interpretace rozdílných genových expresí je podpořena přímými odkazy na další online nástroje pro provádění typických post-hoc analýz, jako je analýza seznamu genů a obohacení cest a síťová analýza diferenciálně exprimovaných (DE) genů. Propojení s těmito analytickými webovými službami je realizováno odesláním signatury diferenciální genové exprese (tj. seznamu průměrných změn v genové expresi a souvisejících p-hodnot pro všechny/navýšené/snížené regulované analyzované geny) do systému iLINCS17 (Integrative LINCS). iLINCS rovněž poskytuje analýzu konektivity signatur pro nedávno vydané signatury Connectivity Map L100018. Podrobné pokyny krok za krokem o pracovních postupech analýzy GREIN jsou uvedeny v doplňkových materiálech a v části „Nápověda“ v programu GREIN.

Klíčové funkce

Vyhledání nebo odeslání ke zpracování

Uživatel může buď vyhledat již zpracovanou sadu dat GEO v poli „Search for GEO series (GSE) accession“, nebo odeslat sadu dat ke zpracování, pokud sada dat ještě není zpracována (doplňkový obr. S2). V současné době je naprostá většina datových sad GEO pro lidskou, myší a potkaní RNA-seq předzpracována a uživatelské předkládání datových sad GEO ke zpracování bude vyžadováno pouze příležitostně. Uživatel může zkontrolovat stav zpracování požadovaného datasetu na kartě „Processing console“ (doplňkový obr. S3). Další možnosti vyhledávání zahrnují vyhledávání podle klíčových slov v metadatech datových sad a vyhledávání vzorků pomocí biomedicínských ontologií prostřednictvím ontologických anotací MetaSRA.

Prozkoumat datovou sadu

GREIN umožňuje přístup k nezpracovaným i normalizovaným (počty na milion a transkripty na milion) datům na úrovni genů a transkriptů. GREIN je dodáván s několika interaktivními a přizpůsobitelnými nástroji pro vizualizaci expresních vzorců, jako jsou interaktivní heatmapy shlukovaných genů a vzorků, grafy hustoty pro všechny vzorky nebo jejich podskupinu, analýza variability mezi skupinami a uvnitř skupin prostřednictvím 2D a 3D analýz redukce dimenzionality a vizualizací, jako jsou PCA a t-SNE (obr. 2). Uživatel může také vizualizovat expresní profil každého genu zvlášť (Doplňkový obr. S6).

Kontrola kvality

Kvalita dat RNA-seq ve veřejných úložištích je stále velkým problémem. V nedávné studii Deelena a spol.19 musela být více než polovina z 65 000 zpracovaných veřejných vzorků RNA-seq odstraněna kvůli problémům s kontrolou kvality. Namísto odstraňování vzorků poskytuje GREIN komplexní zprávu o kontrole kvality (QC) surových sekvenčních dat a mapování sekvencí pro každý vzorek (doplňkový obr. S7) a umožňuje uživateli rozhodnout, které vzorky by měly být z následných analýz vyloučeny.

Statistická analýza síly

Modul analýzy síly v GREIN usnadňuje výpočet a vizualizaci statistické síly detekce diferenciálně exprimovaných genů v budoucích studiích využívajících podobné biologické vzorky. Odhad vhodné velikosti vzorku pro budoucí studie s podobnými biologickými vzorky je často klíčovým motivačním faktorem při opětovné analýze dat RNA-seq. Analýza síly také usnadňuje post-hoc analýzu míry falešné negativity v aktuálním souboru dat. Nedostatečná statistická síla a rozdíly ve statistické síle mezi geny mohou vést k falešně negativním výsledkům vedoucím k nesprávným závěrům20. Úsek „křivky síly“ poskytuje odhady síly pro různý počet vzorků na základě jednoho genu (obr. 3A). Uživatel může upravit výchozí hodnoty parametrů. Graf „Detekovatelnost genů“ vizualizuje odhad síly každého z genů na základě vybraných skupin a rozptylu genů (obr. 3B). Průměrné pokrytí genů je vyneseno proti jejich biologické variabilitě a je zobrazeno ve dvou sadách na základě stavu jejich detekovatelnosti (síla ≥0,8 a síla < 0,8).

Diferenciální genová exprese

Vytvoření a interpretace podpisu diferenciální genové exprese je typickým scénářem analýzy v experimentech RNA-seq. Pomocí nástroje GREIN může uživatel vytvořit signaturu porovnáním genové exprese mezi dvěma skupinami vzorků s úpravami o experimentální kovariáty nebo dávkové efekty nebo bez nich. GREIN si poradí se složitými experimentálními návrhy tím, že poskytuje flexibilitu při změně uspořádání skupin a podskupin nebo výběru konkrétních vzorků. Diferenciální expresní signaturu lze vizualizovat pomocí interaktivních grafů, které zahrnují heatmapu top diferenciálně deregulovaných genů (doplňkový obr. S15) seřazených podle míry falešného objevu (FDR), graf logaritmické změny v porovnání s logaritmickou průměrnou expresí (MA) (doplňkový obr. S16) a graf detekovatelnosti genů (doplňkový obr. S17). Diferenciální expresní signaturu, s nebo bez zohlednění potenciálně falešně negativních výsledků, lze přímo exportovat do iLINCS pro analýzu obohacení a konektivity.

Případ použití: Analýza transkripční a translační regulace hypoxie u nemaligních epiteliálních buněčných linií karcinomu prsu a buněčných linií triple-negativního karcinomu prsu

Použití systému GREIN demonstrujeme na opětovné analýze nedávno publikovaných dat RNA-seq na GEO (GSE104193). Sesé a spol.21 zkoumali transkripční a translační regulaci hormonálně refrakterního podtypu trojitě negativního karcinomu prsu (TNBC) při kombinaci hypoxie a léčby inhibitorem mTOR (mechanistic target of rapamycin). Autoři analyzovali zejména expresní profily buněk TNBC (MDA-MB-231) a nemaligního epitelu prsu (MCF10A) vystavených normoxickým (21 % O2) a hypoxickým (0,5 % O2) podmínkám a/nebo léčených inhibitorem mTORC1 a -2 PP242. Každý ze vzorků byl sekvenován na celkovou (T) a polysomicky vázanou (P) mRNA. Soubor dat obsahuje 32 vzorků, které představují dvě biologické repliky pro každou kombinaci buněčné linie, hladiny kyslíku, stavu ošetření a frakce mRNA.

Explorativní analýza zpracovaného souboru dat v programu GREIN (obr. 2) ukazuje, že nejsilnější zdroj variability mezi vzorky pochází z rozdílů mezi dvěma buněčnými liniemi. To znovu potvrzuje korelační analýza úplných expresních profilů (obr. 2A), hierarchické shlukování 500 nejvýznamnějších vysoce variabilních genů na základě mediánu absolutní odchylky (obr. 2B), 3D PCA graf vzorků (obr. 2C) a 2D t-SNE graf (obr. 2D). Kromě toho vysoké korelace mezi expresními profily pro stejnou buněčnou linii (obr. 2A) naznačují dobrý poměr signálu k šumu při měření genové exprese. Další substruktura dat, kterou naznačuje 2D t-SNE graf, byla zkoumána pomocí malování vzorků podle různých atributů (doplňkový obr. S1). Tato analýza odhalila, že separace v rámci jednotlivých buněčných linií jsou vyvolány různými frakcemi mRNA a pak rozdíly mezi experimentálními podmínkami.

Dále jsme použili GREIN k provedení analýzy statistické síly na základě vzorce biologické variability pozorované v tomto souboru dat. Uvažovali jsme transkripční profily každé buněčné linie vystavené hypoxii a ošetřené PP242 nebo bez něj, což vede ke čtyřem srovnáním. Za předpokladu nejméně dvojnásobného rozdílu exprese mezi skupinami, při statistické významnosti α = 0,01 a pouze dvou replikátech v každé skupině je statistická síla genu, který má být detekován jako diferenciálně exprimovaný, nižší než 0,55 ve všech srovnáních (tabulka 2). Z naší analýzy vyplývá, že k dosažení 80% síly pro detekci dvojnásobné změny exprese by bylo zapotřebí čtyř opakování pro každou skupinu (tab. 2 a obr. 3A). V typickém experimentu RNA-seq stačí ke kvantifikaci genové exprese téměř všech genů hloubka sekvenování 20-30 milionů4,22 , což je patrné i v tomto souboru dat. Z grafu „Detekovatelnost genů“ jsme také vyhodnotili statistickou sílu každého genu, který má být detekován jako diferenciálně exprimovaný. Průměrné logaritmické hodnoty počtů na milion (CPM) genů byly vyneseny do grafu proti biologickému variačnímu koeficientu genu (BCOV) a pro příslušné geny byla vypočtena síla (obr. 3B). Pro odhad statistické významnosti byla použita kontrolovaná míra falešných objevů 0,05 a očekávané procento pravdivě pozitivních výsledků 10 %. Gen jsme definovali jako detekovatelný jako diferenciálně exprimovaný v hypoxických podmínkách, pokud je jeho síla 0,8 nebo vyšší. Podle očekávání existuje inverzní vztah mezi BCOV a silou (obr. 3B). Také síla k detekci rozdílné exprese genu se zvyšuje s vyšším log CPM nebo velikostí účinku.

Tabulka 2 Statistická analýza síly k posouzení transkripčních změn u maligních a nemaligních buněčných linií.

Jedním z cílů studie bylo analyzovat transkripční změny v hypoxických a normoxických podmínkách s léčbou PP242 a bez ní u buněčných linií MCF10A a MDA-MB-231. V obou případech se jednalo o hypoxické podmínky. Vytvořili jsme transkripční podpisy hypoxie a hypoxie + PP242 v celkové mRNA analýzou diferenciální exprese mezi vzorky hypoxie, respektive hypoxie + PP242 oproti kontrolním vzorkům, přičemž jsme upravili vliv šarže tím, že jsme považovali „replikaci“ za kovariátu, a to pro každou buněčnou linii zvlášť. Zjistili jsme vyšší počet diferenciálně exprimovaných genů (DE) u buněčných linií MCF10A ve srovnání s MDA-MB-231 jak při hypoxii, tak při hypoxii + PP242 (obr. 4A), což naznačuje, že tato nádorová buněčná linie je možná lépe vybavena pro zvládání hypoxie. Tato analýza také ukázala, že většina nediferencovaně exprimovaných genů také není detekovatelná, což naznačuje, že mohou představovat falešně negativní výsledky. To je v souladu s analýzou síly, která ukázala, že k důsledné identifikaci diferenciálně exprimovaných genů s průměrnou BCOV by bylo zapotřebí 4 vzorků na skupinu. K identifikaci méně exprimovaných genů by byla zapotřebí ještě větší velikost vzorku.

Pro interpretaci diferenciálně exprimovaných genů z hlediska ovlivněných biologických drah jsme předložili podpisy diferenciální genové exprese hypoxie online nástrojům pro obohacování (DAVID23, ToppGene24, Enrichr25 a Reactome26) prostřednictvím iLINCS. Předložené signatury zahrnovaly kombinovaný seznam DE a NDE&DT genů, které představují pravděpodobně skutečně pozitivní a skutečně negativní geny. Geny byly vybrány na základě mezní hodnoty 0,7 a 0,01 pro statistickou sílu, respektive FDR. Obrázek 5 znázorňuje výsledky obohacení získané z ToppGene pro signaturu hypoxie MCF10. Významně obohacené (FDR < 0.05) 10 nejlepších kategorií genové ontologie (GO) z nástroje ToppGene a funkční anotace DAVID zahrnuje odpověď na hypoxii, odpověď na sníženou hladinu kyslíku, angiogenezi, regulaci buněčné proliferace, oxidačně-redukční proces a odpověď na abiotické podněty, které jsou společné pro obě buněčné linie (doplňková tabulka S2 a doplňková tabulka S3). Většina těchto kategorií je v souladu s původní studií. Kromě toho sada ToppGene identifikovala síť transkripčních faktorů indukovaných hypoxií (HIF-1-alfa), která byla aktivována v obou buněčných liniích (Doplňková tabulka S4 a Doplňková tabulka S5).

Nakonec jsme využili spojení GREIN s iLINCS k „propojení“ nahrané signatury s konsenzuálními signaturami vyřazených genů LINCS27 (CGS)18 . Našli jsme 3 727 konsenzuálních signatur vyřazení genů LINCS, které byly významně (pValue < 0,05) spojeny s naší nahranou signaturou. Cílové geny 100 nejlépe propojených signatur byly vybrány pro další analýzu obohacení. V seznamu 10 nejvíce aktivovaných drah jsme u obou buněčných linií nalezli buněčnou odpověď na hypoxii a regulaci faktoru indukovaného hypoxií (HIF) kyslíkem (doplňková tabulka S6 a doplňková tabulka S7). Ačkoli tato analýza poskytuje podobné obohacené funkční kategorie jako původní analýza obohacení, doplňuje původní analýzu o několik cílových genů, které nejsou rozdílně exprimovány, ačkoli jsou podle našich analýz síly dostatečně silně exprimovány, aby byly detekovatelné. Spojení těchto dvou výsledků naznačuje, že tyto geny jsou potenciálními regulátory reakce na hypoxii na vyšší úrovni

Arquidia Mantina