GREIN: An Interactive Web Platform for Re-analyzing GEO RNA-seq Data

A GREIN koncepcionális vázlata az 1. ábrán látható. Az egyes RNA-seq-adatkészleteket a GREP2 csővezetékkel dolgozzuk fel, és lokálisan R Expression Sets-ként tároljuk. A felhasználó a GREIN grafikus felhasználói felületen (GUI) keresztül hozzáférhet az előzetesen feldolgozott adatkészletekhez és elemezheti azokat, vagy elküldheti feldolgozásra a még fel nem dolgozott adatkészleteket. A GUI-vezérelt munkafolyamatok megkönnyítik az adatok vizsgálatát és vizualizálását, a statisztikai elemzést, a transzkripciós szignatúrák létrehozását és a differenciálisan kifejezett (DE) gének rendszerbiológiai értelmezését. Mind a GREIN, mind a back-end csővezeték (GREP2) R nyelven íródott, és Docker konténerként, illetve R csomagként jelent meg. A GREIN grafikus felhasználói felületeit a Shiny16-ban valósítottuk meg, amely egy webes keretrendszer dinamikus webes alkalmazások R-ben történő építésére. A https://shiny.ilincs.org/grein webes példányt terheléskiegyenlített Shiny szerverek robusztus Docker-rajával telepítjük. A teljes GREIN infrastruktúrát, beleértve a feldolgozási csővezetéket is, Docker konténereken keresztül telepítjük.

1. ábra

A GREP2, a webes felület és a GREIN kimenetei sematikus munkafolyamata. A GEO-adatkészleteket a GREP2 pipeline segítségével szisztematikusan feldolgozzák és a back-end adatkészlet-könyvtárban tárolják. A GREIN GUI-vezérelt munkafolyamatai megkönnyítik a feldolgozott adatkészletek átfogó elemzését és vizualizációját.

A GREIN felhasználóbarát GUI-vezérelt munkafolyamatai megkönnyítik az RNS-seq-adatok tipikus újrafelhasználási forgatókönyveit, például a minőségellenőrzési intézkedések vizsgálatát és az expressziós minták vizualizációját a teljes adatkészletben, a mintanagyság és a teljesítmény elemzését a jövőbeli vizsgálatok kísérleti tervezésének informálása céljából, a statisztikai differenciális génexpresszió, a génlista dúsítása és a hálózati elemzés. A standard kétcsoportos összehasonlítás mellett a differenciális génexpresszió-elemző modul támogatja a kovariánsokat vagy tételhatásokat figyelembe vevő általánosított lineáris modell illesztését is. A megvalósított interaktív vizualizációs és feltáró eszközök közé tartozik a klaszterelemzés, interaktív hőtérképek, főkomponens-elemzés (PCA), t-eloszlású sztochasztikus szomszéd beágyazás (t-SNE) stb. (Kiegészítő S1 táblázat). A felhasználó a MetaSRA projekt13 által biztosított humán RNS-seq minták és adatkészletek ontológiai annotációira is rákereshet. Minden egyes feldolgozott humán RNS-szekvencia-mintát az orvosbiológiai ontológiák MetaSRA leképezésével jelölünk, beleértve a Disease Ontology, Cell Ontology, Experimental Factor Ontology, Cellosaurus és Uberon ontológiákat. A differenciális génexpressziók biológiai értelmezését közvetlen linkek segítik más online eszközökhöz, amelyekkel tipikus poszt-hoc elemzések végezhetők, mint például a génlista és az útvonalak gazdagodásának elemzése, valamint a differenciálisan kifejezett (DE) gének hálózatelemzése. Az ezen analitikai webszolgáltatásokhoz való kapcsolódás úgy valósul meg, hogy a differenciális génexpressziós szignatúrát (azaz a génexpresszió átlagos változásainak listáját és a kapcsolódó p-értékeket az összes elemzett/felfelé/lefelé szabályozott génre vonatkozóan) elküldjük az iLINCS17 (Integrative LINCS) számára. iLINCS biztosítja a nemrég megjelent Connectivity Map L1000 szignatúrákhoz18 a szignatúrák kapcsolódási elemzését is. A GREIN elemzési munkafolyamatokra vonatkozó részletes lépésről-lépésre történő utasítások a Kiegészítő anyagban és a GREIN “Súgó” részében találhatók.

Főbb funkciók

Keresés vagy benyújtás feldolgozásra

A felhasználó a “Search for GEO series (GSE) accession” mezőben kereshet már feldolgozott GEO-adatkészletet, vagy ha az adatkészlet még nem került feldolgozásra, benyújthat egy adatkészletet feldolgozásra (Supplementary Fig. S2). Jelenleg a GEO humán, egér és patkány RNS-seq adatkészleteinek túlnyomó többsége már előfeldolgozásra került, és a GEO-adatkészletek feldolgozásra történő felhasználói beküldésére csak alkalmanként lesz szükség. A felhasználó a “Processing console” (Feldolgozási konzol) fülön ellenőrizheti a kért adatkészlet feldolgozási státuszát (Supplementary Fig. S3). Az egyéb keresési lehetőségek közé tartozik a kulcsszavas keresés az adatkészletek metaadatain keresztül, valamint a minták keresése az orvosbiológiai ontológiákon keresztül a MetaSRA ontológiai annotációkon keresztül.

Explore dataset

A GREIN lehetővé teszi a hozzáférést mind a nyers, mind a normalizált (milliónkénti szám és milliónkénti transzkript) gén- és transzkript szintű adatokhoz. A GREIN számos interaktív és testre szabható eszközzel rendelkezik az expressziós mintázatok vizualizálásához, mint például a klaszterezett gének és minták interaktív hőtérképei, az összes minta vagy a minták egy részhalmazának sűrűségi ábrái, a csoportok közötti és csoporton belüli variabilitáselemzés 2D és 3D dimenziócsökkentő elemzések és vizualizációk, mint például a PCA és a t-SNE segítségével (2. ábra). A felhasználó az egyes gének expressziós profilját külön-külön is megjelenítheti (Supplementary Fig. S6).

2. ábra

Exploratív elemzési ábrák a GREIN-ben. (A) A korrelációs hőtérkép magasabb korrelációt mutat a sejtvonalakon belül és alacsony korrelációt a sejtvonalak között. Általában az egyes sejtvonalakon belüli magas korrelációk a transzkripciós profilok magas minőségét jelzik. (B) A Pearson-korreláción alapuló hierarchikus klaszterezés az 500 legváltozékonyabb gén top 500-nak a medián abszolút eltérés mint variabilitási mérőszám alapján. Az adatokat normalizáltuk és az átlaghoz centráltuk. (C) A sejtvonalak háromdimenziós főkomponens-elemzési ábrája. (D) A kezelési feltétel és a sejtvonal kétdimenziós t-SNE-diagramja egyértelműen elkülöníti a sejtvonalakat, majd az RNS-frakciókat, ami az RNS-seq-profilok közötti variabilitás két domináns forrását jelzi.

Minőségi ellenőrzés

A nyilvános adattárakban található RNS-seq-adatok minősége továbbra is komoly problémát jelent. Deelen és munkatársai nemrégiben végzett tanulmányában19 a 65 000 feldolgozott nyilvános RNA-seq minta több mint felét kellett eltávolítani minőségellenőrzési problémák miatt. A minták eltávolítása helyett a GREIN átfogó minőségellenőrzési (QC) jelentést nyújt a nyers szekvenciaadatokról és a szekvencia-leképezésről minden egyes mintához (Supplementary Fig. S7), és lehetővé teszi a felhasználó számára, hogy döntést hozzon arról, mely mintákat kell kizárni a downstream elemzésekből.

Statisztikai teljesítményelemzés

A GREIN teljesítményelemző modulja megkönnyíti a differenciálisan kifejezett gének kimutatásának statisztikai teljesítményének kiszámítását és megjelenítését a hasonló biológiai mintákat felhasználó jövőbeli vizsgálatokban. A hasonló biológiai mintákkal végzett jövőbeli vizsgálatokhoz szükséges megfelelő mintanagyság becslése gyakran a legfontosabb motiváló tényező az RNS-seq adatok újraelemzésében. A teljesítményelemzés megkönnyíti a hamis negatív arányok poszt-hoc elemzését is a jelenlegi adatállományban. A statisztikai teljesítmény hiánya és a gének közötti statisztikai teljesítménybeli különbségek hamis negatív eredményeket eredményezhetnek, ami téves következtetésekhez vezethet20. A “Teljesítménygörbe” szegmens különböző számú mintára vonatkozó teljesítménybecsléseket ad egyetlen gén alapján (3A. ábra). A felhasználó módosíthatja a paraméterek alapértelmezett értékeit. A “Gének észlelhetősége” ábra az egyes gének teljesítménybecslését szemlélteti a kiválasztott csoportok és a génenkénti szórás alapján (3B. ábra). A gének átlagos lefedettsége a biológiai szórásukkal szemben van ábrázolva, és két csoportban jelenik meg a detektálhatósági státuszuk alapján (teljesítmény ≥0,8 és teljesítmény < 0,8).

3. ábra

Teljesítményelemzés a nem rosszindulatú MCF10A sejtvonal transzkripciós változásainak értékeléséhez. (A) Egy gén alapú teljesítménybecslések az egyes csoportok különböző számú mintáira, 2 minimális hajtásváltozás és α = 0,01 statisztikai szignifikancia mellett. (B) Génenkénti kimutathatóság a log2CPM-BCOV síkban FDR ≤0,1 és két minta minden csoportban.

Differenciális génexpresszió

A differenciális génexpressziós szignatúra létrehozása és értelmezése az RNS-seq-kísérletek tipikus elemzési forgatókönyve. A GREIN segítségével a felhasználó szignatúrát hozhat létre két mintacsoport közötti génexpresszió összehasonlításával, a kísérleti kovariánsok vagy tételhatások kiigazításával vagy anélkül. A GREIN képes kezelni az összetett kísérleti terveket azáltal, hogy rugalmasságot biztosít a csoportok és alcsoportok átrendezéséhez vagy egyes minták kiválasztásához. A differenciális expressziós szignatúra interaktív grafikonok segítségével vizualizálható, amelyek tartalmazzák a legjobban differenciálisan deregulált gének hőtérképét (Kiegészítő ábra S15) a hamis felfedezési arány (FDR) szerint rangsorolva, a log hajtásváltozás vs. log átlagos expresszió (MA) ábrát (Kiegészítő ábra S16) és a gén detektálhatósági ábrát (Kiegészítő ábra S17). A differenciális expressziós szignatúra, a potenciálisan hamis negatív eredmények figyelembevételével vagy anélkül, közvetlenül exportálható az iLINCS-be gazdagodási és konnektivitási elemzéshez.

Használati eset: A hipoxia transzkripciós és transzlációs szabályozásának elemzése nem malignus emlő epiteliális és tripla-negatív emlőrák sejtvonalakban

A GREIN használatát egy nemrég közzétett GEO RNS-seq adat (GSE104193) újraelemzésével mutatjuk be. Sesé és munkatársai21 vizsgálták a hormon-refrakter tripla-negatív emlőrák (TNBC) altípus transzkripciós és transzlációs szabályozását hipoxia és mTOR (mechanistic target of rapamycin) gátló kezelés kombinációja mellett. A szerzők különösen a TNBC (MDA-MB-231) és a nem malignus emlőhámsejtek (MCF10A) normoxikus (21% O2) és hipoxikus (0,5% O2) körülményeknek kitett és/vagy PP242 mTORC1 és -2 gátlóval kezelt sejtek expressziós profilját elemezték. Minden egyes mintát szekvenáltunk a teljes (T) és a poliszómához kötött (P) mRNS tekintetében. Az adatkészlet 32 mintát tartalmaz, amelyek a sejtvonal, az oxigénszint, a kezelési állapot és az mRNS-frakció minden egyes kombinációjára két biológiai ismétlést képviselnek.

A feldolgozott adatkészlet GREIN-ben végzett feltáró elemzése (2. ábra) azt mutatja, hogy a minták közötti eltérések legerősebb forrása a két sejtvonal közötti különbségekből ered. Ezt erősíti meg a teljes expressziós profilok korrelációs elemzése (2A. ábra), az 500 legnagyobb mértékben változó gén hierarchikus klaszterezése a medián abszolút eltérés alapján (2B. ábra), a minták 3D PCA-diagramja (2C. ábra) és a 2D t-SNE-diagram (2D. ábra). Továbbá az ugyanazon sejtvonal expressziós profiljai közötti magas korreláció (2A. ábra) a génexpressziós mérések jó jel-zaj viszonyát jelzi. Az adatok 2D t-SNE plot által jelzett további alstruktúráját a minták különböző attribútumok szerinti festésével vizsgáltuk (Kiegészítő S1. ábra). Ez az elemzés feltárta, hogy az egyes sejtvonalakon belüli elkülönüléseket a különböző mRNS-frakciók, majd a kísérleti körülmények közötti különbségek indukálják.

A következőkben GREIN segítségével statisztikai erőelemzést végeztünk az ebben az adathalmazban megfigyelt biológiai variabilitás mintázata alapján. A hipoxiának kitett és PP242-vel vagy anélkül kezelt egyes sejtvonalak transzkripciós profiljait vettük figyelembe, ami négy összehasonlítást eredményez. Feltételezve, hogy a csoportok között legalább kétszeres expressziós különbség van, α = 0,01 statisztikai szignifikancia mellett, és minden csoportban csak két ismétléssel, egy gén differenciálisan kifejezettként való kimutatásának statisztikai ereje minden összehasonlításban 0,55 alatt van (2. táblázat). Elemzésünk azt jelzi, hogy csoportonként négy ismétlés szükséges a kétszeres expressziós változás kimutatásának 80%-os teljesítményéhez (2. táblázat és 3A. ábra). Egy tipikus RNS-seq kísérletben 20-30 milliós szekvenálási mélység elegendő a génexpresszió számszerűsítéséhez szinte minden gén esetében4,22 , ami ebben az adatkészletben is nyilvánvaló. A “Gének észlelhetősége” diagram alapján az egyes gének differenciálisan kifejezettként való kimutatásának statisztikai erejét is értékeltük. A gének milliónkénti számlálási értékének (CPM) átlagos logaritmusát ábrázoltuk a génenkénti biológiai variációs együtthatóval (BCOV) szemben, és kiszámítottuk a megfelelő gének teljesítményét (3B. ábra). A statisztikai szignifikancia becsléséhez 0,05-ös ellenőrzött hamis felfedezési arányt és 10%-os várható igaz pozitív arányt használtunk. Egy gént akkor definiáltunk hipoxiás állapotban differenciálisan kifejezettként kimutathatónak, ha a teljesítménye 0,8 vagy annál nagyobb. A várakozásoknak megfelelően fordított kapcsolat áll fenn a BCOV és a teljesítmény között (3B. ábra). Emellett egy gén differenciális expressziójának kimutatásához szükséges teljesítmény a magasabb log CPM vagy hatásméret növekedésével nő.

2. táblázat Statisztikai teljesítményelemzés a malignus és nem malignus sejtvonalak transzkripciós változásainak értékeléséhez.

A vizsgálat egyik célja a transzkripciós változások elemzése volt hipoxiás és normoxiás körülmények között PP242 kezeléssel és anélkül az MCF10A és MDA-MB-231 sejtvonalakban. A hipoxia és a hipoxia + PP242 transzkripciós szignatúráit a teljes mRNS-ben a hipoxia és a hipoxia + PP242 minták közötti differenciális expressziós elemzéssel hoztuk létre a kontroll mintákhoz képest, miközben a “replikátum” kovariátusként való kezelésével korrigáltuk a tételhatást, minden sejtvonalra külön-külön. Az MCF10A sejtvonalakban az MDA-MB-231-hez képest nagyobb számú gén differenciálisan expresszált (DE) gént találtunk mind hipoxia, mind hipoxia + PP242 esetén (4A. ábra), ami arra utal, hogy talán a daganatos sejtvonal jobban felkészült a hipoxia kezelésére. Ez az elemzés azt is megmutatta, hogy a legtöbb nem differenciálisan expresszálódó gén szintén nem mutatható ki, ami arra utal, hogy ezek hamis negatív eredményeket jelenthetnek. Ez összhangban van a teljesítményelemzéssel, amely azt mutatja, hogy csoportonként 4 mintára lenne szükség a differenciálisan expresszált gének konzisztens azonosításához átlagos BCOV-val. Az alacsonyabb expressziójú gének azonosításához még nagyobb mintaszámra lenne szükség.

4. ábra

Differenciális expresszió és a gének kimutathatósága. (A) A nem differenciálisan expresszált és nem kimutatható (NDE&NDT), differenciálisan expresszált (DE) és nem differenciálisan expresszált, de kimutatható (NDE&DT) gének száma (log10 skála) a normoxiával való összehasonlításokban a teljes mRNS-frakcióra vonatkozóan. Egy gént kimutathatónak (DT) nevezünk, ha a teljesítménye ≥0,8, és differenciálhatónak, ha az FDR < 0,05. (B) Az első összehasonlítás (MCF10A és hipoxia) gén detektálhatósági diagramja, amely a fent említett génlistát a vonatkozó hajtásváltozásaikkal (FC) együtt jeleníti meg.

A differenciálisan expresszált gének érintett biológiai útvonalak szempontjából történő értelmezéséhez a hipoxia differenciális génexpressziós szignatúráit az iLINCS-en keresztül online dúsítási eszközökhöz (DAVID23, ToppGene24, Enrichr25 és Reactome26) nyújtottuk be. A benyújtott szignatúrák a DE és NDE&DT gének kombinált listáját tartalmazták, amelyek valószínűsíthetően valódi pozitív és valódi negatív géneket képviselnek. A gének kiválasztása a statisztikai erő és az FDR 0,7-es, illetve 0,01-es határértéke alapján történt. Az 5. ábra a ToppGene segítségével kapott gazdagodási eredményeket szemlélteti az MCF10 hipoxia szignatúra esetében. A szignifikánsan feldúsult (FDR < 0.05) a ToppGene és a DAVID funkcionális annotációs eszközből származó top 10 génontológiai (GO) kategória a hipoxiára adott válasz, a csökkent oxigénszintre adott válasz, az angiogenezis, a sejtproliferáció szabályozása, az oxidációs-redukciós folyamat és az abiotikus ingerekre adott válasz, amelyek mindkét sejtvonalban közösek (S2. kiegészítő táblázat és S3. kiegészítő táblázat). E kategóriák többsége összhangban van az eredeti vizsgálattal. Ezenkívül a ToppGene suite azonosította a hipoxia indukálta faktor (HIF-1-alfa) transzkripciós faktorhálózatot, amely mindkét sejtvonalban aktiválódott (Kiegészítő S4 táblázat és Kiegészítő S5 táblázat).

5. ábra

Pillanatkép néhány jelentős útvonal és génontológia (GO) kategóriáról a ToppGene-ből az iLINCS segítségével. Ezek a kategóriák az MCF10A sejtvonalban a hipoxia és a normoxia összehasonlításánál a DE és az NDE&DT gének kombinált listáját használva találhatók. A piros függőleges vonal a kiválasztott 0,05-ös határértéket jelöli.

Végül a GREIN kapcsolatot használtuk az iLINCS-szel, hogy “összekapcsoljuk” a feltöltött szignatúrát a LINCS27 konszenzusos (CGS) génkiütéses szignatúrákkal18. 3727 olyan LINCS konszenzusos LINCS génkiütéses szignatúrát találtunk, amelyek szignifikánsan (pValue < 0,05) kapcsolódtak a feltöltött szignatúránkhoz. A 100 legjobban összekapcsolt szignatúra célgénjeit választottuk ki a további gazdagodási elemzéshez. A hipoxiára adott sejtválaszt és a hipoxia-indukálható faktor (HIF) oxigén általi szabályozását mindkét sejtvonalban a top 10 aktivált útvonal listáján találtuk (Kiegészítő S6. táblázat és Kiegészítő S7. táblázat). Bár ez az elemzés hasonlóan feldúsult funkcionális kategóriákat eredményez, mint az eredeti feldúsulási elemzés, kiegészíti az eredeti elemzést azzal, hogy számos olyan célgént érint, amelyek nem fejeződnek ki differenciálisan, bár a teljesítményelemzéseink szerint kellően magasan kifejeződnek ahhoz, hogy kimutathatóak legyenek. E két eredmény összekapcsolása arra utal, hogy ezek a gének a hipoxiára adott válasz potenciális magasabb szintű szabályozói lehetnek.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.