GREIN: An Interactive Web Platform for Re-analyzing GEO RNA-seq Data

GREINin käsitteellinen hahmotelma on esitetty kuvassa 1. Yksittäiset RNA-seq-tietokokonaisuudet käsitellään GREP2-putkella ja tallennetaan paikallisesti R Expression Sets -muodossa. Käyttäjä voi käyttää ja analysoida esikäsiteltyjä tietokokonaisuuksia GREINin graafisen käyttöliittymän (GUI) kautta tai lähettää käsiteltäväksi tietokokonaisuuksia, joita ei ole vielä käsitelty. GUI-ohjatut työnkulut helpottavat tietojen tarkastelua ja visualisointia, tilastollista analyysia, transkriptiosignatuurien rakentamista ja systeemibiologista tulkintaa differentiaalisesti ilmentyneistä geeneistä (DE). Sekä GREIN että back-end-putki (GREP2) on kirjoitettu R-kielellä, ja ne on julkaistu Docker-säiliönä ja R-pakettina. GREINin graafiset käyttöliittymät on toteutettu Shiny16:lla, joka on web-kehys dynaamisten web-sovellusten rakentamiseen R:llä. Web-instanssi osoitteessa https://shiny.ilincs.org/grein otetaan käyttöön kuormitustasapainotetuista Shiny-palvelimista koostuvan vankan Docker-parven avulla. Koko GREIN-infrastruktuuri, mukaan lukien käsittelyputki, otetaan käyttöön Docker-konttien kautta.

Kuva 1

Skeema GREP2:n työnkulusta, web-käyttöliittymästä ja GREINin tuotoksista. GEO-tietoaineistot käsitellään järjestelmällisesti GREP2-putken avulla ja tallennetaan back-end-tietoaineistokirjastoon. GUI-ohjatut GREIN-työnkulut helpottavat käsiteltyjen tietokokonaisuuksien kattavaa analysointia ja visualisointia.

Käyttäjäystävälliset GUI-ohjatut GREIN-työnkulut helpottavat RNA-seq-datan tyypillisiä uudelleenkäyttöskenaarioita, kuten laadunvalvontatoimenpiteiden tarkastelua ja ilmentymismallien visualisointia koko tietokokonaisuudessa, otoskoostumuksen suuruuden- ja tehoanalyysejä tulevien tutkimusten koesuunnittelun tiedottamista varten, tilastollista geenien erilaista ilmentymistä, geeniluettelon rikastamista ja verkostoanalyysejä. Normaalin kahden ryhmän vertailun lisäksi differentiaalisen geeniekspression analyysimoduuli tukee myös sellaisen yleistetyn lineaarisen mallin sovittamista, jossa otetaan huomioon kovariaatit tai erävaikutukset. Toteutettuihin interaktiivisiin visualisointi- ja tutkimustyökaluihin kuuluvat muun muassa klusterianalyysi, interaktiiviset lämpökartat, pääkomponenttianalyysi (PCA), t-hajautettu stokastinen naapurien upotus (t-SNE) jne. (Täydentävä taulukko S1). Käyttäjä voi myös hakea ihmisen RNA-seq-näytteiden ontologisia annotaatioita ja MetaSRA-hankkeen13 tarjoamia tietokokonaisuuksia. Jokainen käsitelty ihmisen RNA-seq-näyte on merkitty biolääketieteellisten ontologioiden, kuten Disease Ontology, Cell Ontology, Experimental Factor Ontology, Cellosaurus ja Uberon, MetaSRA-kartoituksella. Erilaisten geeniekspressioiden biologista tulkintaa helpottavat suorat linkit muihin online-työkaluihin, joilla voidaan tehdä tyypillisiä post-hoc-analyysejä, kuten geeniluettelon ja polkujen rikastumisanalyysi sekä erilaistuneesti ilmentyneiden geenien verkostoanalyysi. Yhteys näihin analyyttisiin verkkopalveluihin toteutetaan lähettämällä differentiaalinen geeniekspressiosignatuuri (eli luettelo geeniekspression keskimääräisistä muutoksista ja niihin liittyvät p-arvot kaikkien analysoitujen/ylös/alas säädeltyjen geenien osalta) iLINCS:ään17 (Integrative LINCS). iLINCS tarjoaa myös signatuurien kytkeytyneisyysanalyysin hiljattain julkaistujen Connectivity Map L1000 -signatuurien18 osalta. Yksityiskohtaiset vaiheittaiset ohjeet GREIN-analyysin työnkuluista löytyvät GREINin lisäaineistosta ja ”Help”-osiosta.

Keskeiset toiminnallisuudet

Haku tai lähetä käsiteltäväksi

Käyttäjä voi joko hakea jo käsitellyn GEO-datasarjan ”Search for GEO series (GSE) accession”-laatikosta tai lähettää datasarjan käsiteltäväksi, jos datasarjaa ei ole vielä käsitelty (Supplementary Fig. S2). Tällä hetkellä valtaosa GEO:n ihmis-, hiiri- ja rotta-RNA-seq-tietoaineistoista on esikäsitelty, ja GEO:n aineistojen lähettämistä käsiteltäväksi tarvitaan vain satunnaisesti. Käyttäjä voi tarkistaa pyydetyn tietokokonaisuuden käsittelyn tilan ”Processing console” -välilehdeltä (Supplementary Fig. S3). Muita hakuvaihtoehtoja ovat hakusanahaku tietokokonaisuuksien metatietojen kautta ja näytteiden haku biolääketieteellisten ontologioiden kautta MetaSRA-ontologisten annotaatioiden kautta.

Explore dataset

GREIN mahdollistaa pääsyn sekä käsittelemättömään että normalisoituun (lukumäärät miljoonaa ja transkripti miljoonaa kohti) geeni- ja transkriptitason dataan. GREINissä on useita interaktiivisia ja muokattavia työkaluja ilmentymismallien visualisoimiseksi, kuten interaktiiviset lämpökartat klusteroituneista geeneistä ja näytteistä, tiheysdiagrammit kaikille näytteille tai osajoukolle näytteistä, ryhmien välisen ja ryhmän sisäisen vaihtelun analyysi 2D- ja 3D-ulottuvuuden vähennysanalyyseillä ja visualisoinneilla, kuten PCA:lla ja t-SNE:llä (kuva 2). Käyttäjä voi myös visualisoida kunkin geenin ekspressioprofiilin erikseen (Supplementary Fig. S6).

Kuva 2

Exploratiivisen analyysin kuvaajat GREINissä. (A) Korrelaation lämpökartta osoittaa korkeamman korrelaation solulinjojen sisällä ja alhaisen korrelaation solulinjojen välillä. Yleensä korkeat korrelaatiot kunkin solulinjan sisällä osoittavat transkriptioprofiilien korkeaa laatua. (B) Pearsonin korrelaatioon perustuva hierarkkinen klusterointi 500 eniten vaihtelevan geenin välillä vaihtelevuuden mittarina käytetyn absoluuttisen poikkeaman mediaanin perusteella. Tiedot on normalisoitu ja keskitetty keskiarvoon. (C) Solulinjojen kolmiulotteinen pääkomponenttianalyysin kuvaaja. (D) Hoito-olosuhteiden ja solulinjojen kaksiulotteinen t-SNE-plotti osoittaa solulinjojen ja sitten RNA-fraktioiden selkeän erottelun, mikä osoittaa kaksi hallitsevaa RNA-seq-profiilien välisen vaihtelun lähdettä.

Laadunvalvonta

Julkisissa arkistoissa olevien RNA-seq-datan laatu on edelleen suuri ongelma. Deelenin ym.19 tuoreessa tutkimuksessa yli puolet 65 000 käsitellystä julkisesta RNA-seq-näytteestä jouduttiin poistamaan laadunvalvontaongelmien vuoksi. Näytteiden poistamisen sijaan GREIN tarjoaa kattavan laadunvalvontaraportin (QC) raa’asta sekvenssidatasta ja sekvenssikartoituksesta kullekin näytteelle (Supplementary Fig. S7), ja sen avulla käyttäjä voi tehdä päätöksen siitä, mitkä näytteet olisi jätettävä pois jatkoanalyyseistä.

Tilastollinen tehoanalyysi

GREINin tehoanalyysimoduuli helpottaa tilastollisen tehon laskemista ja visualisointia, joka tarvitaan differentiaalisesti ekspressoituneiden geenien havaitsemiseksi tulevissa tutkimuksissa, joissa käytetään samanlaisia biologisia näytteitä. Sopivan otoskoon arvioiminen samankaltaisia biologisia näytteitä käyttäviä tulevia tutkimuksia varten on usein keskeinen motivaatiotekijä RNA-seq-datan uudelleen analysoinnissa. Tehoanalyysi helpottaa myös väärän negatiivisen osuuden post-hoc-analyysiä nykyisessä tietokokonaisuudessa. Tilastollisen tehon puute ja geenien väliset erot tilastollisessa tehossa voivat tuottaa vääriä negatiivisia tuloksia, jotka johtavat vääriin johtopäätöksiin20. Tehokäyräsegmentissä esitetään tehoarviot eri näytemäärille yhden geenin perusteella (kuva 3A). Käyttäjä voi muuttaa parametrien oletusarvoja. ’Geenien havaittavuus’ -kaavio havainnollistaa kunkin geenin tehoarvion valittujen ryhmien ja geenikohtaisen hajonnan perusteella (kuva 3B). Geenien keskimääräinen kattavuus on piirretty niiden biologista vaihtelua vasten, ja ne esitetään kahdessa ryhmässä niiden havaittavuustilanteen perusteella (teho ≥0,8 ja teho < 0,8).

Kuva 3

Tehoanalyysi transkriptionaalisten muutosten arvioimiseksi ei-malignissa MCF10A-solulinjassa. (A) Yksittäiseen geeniin perustuvat tehoarviot eri näytemäärille kussakin ryhmässä, kun vähimmäiskertainen muutos on 2 ja tilastollinen merkitsevyys α = 0,01. (B) Geenikohtainen havaittavuus log2CPM-BCOV-tasolla FDR ≤0,1:llä ja kahdella näytteellä kussakin ryhmässä.

Differentiaalinen geeniekspressio

Differentiaalisen geeniekspressiosignatuurin luominen ja tulkinta on tyypillinen analyysitapahtumakuva RNA-seq-kokeissa. GREINin avulla käyttäjä voi luoda allekirjoituksen vertailemalla geeniekspressiota kahden näyteryhmän välillä kokeellisten kovariaattien tai erävaikutusten korjausten kanssa tai ilman niitä. GREIN pystyy käsittelemään monimutkaisia koejärjestelyjä tarjoamalla joustavuutta ryhmien ja alaryhmien uudelleenjärjestelyyn tai tiettyjen näytteiden valintaan. Erilaisen ilmentymisen allekirjoitus voidaan visualisoida interaktiivisilla grafiikoilla, joihin sisältyy lämpökartta tärkeimmistä eri tavoin dereguloituneista geeneistä (täydentävä kuva S15), jotka on järjestetty väärän löytämisprosentin (FDR) mukaan, log-kertainen muutos vs. log-keskimääräinen ilmentyminen (MA) -diagrammi (täydentävä kuva S16) ja geenien havaittavuusdiagrammi (täydentävä kuva S17). Differentiaalinen ekspressiosignatuuri, mahdollisesti väärien negatiivisten tulosten huomioon ottamisen kanssa tai ilman sitä, voidaan viedä suoraan iLINCS:ään rikastumis- ja kytkeytymisanalyysiä varten.

Käyttökohde: Analysis of transcriptional and translational regulation of hypoxia in non-malignant breast epithelial and triple-negative breast cancer cell lines

Demonstraamme GREINin käyttöä analysoimalla uudelleen äskettäin julkaistua GEO:n RNA-seq-dataa (GSE104193). Sesé et al.21 tutkivat hormoniresistentin kolmoisnegatiivisen rintasyövän (TNBC) alatyypin transkriptionaalista ja translaationaalista säätelyä hypoksia- ja mTOR (mechanistic target of rapamycin) -inhibiittorihoidon yhdistelmähoidossa. Kirjoittajat analysoivat erityisesti TNBC-solujen (MDA-MB-231) ja ei-pahanlaatuisten rintaepiteelisolujen (MCF10A) ilmentymisprofiileja, jotka altistettiin normoksisille (21 % O2) ja hypoksisille (0,5 % O2) olosuhteille ja/tai joita hoidettiin mTORC1- ja -2-estäjällä PP242. Jokaisesta näytteestä sekvensoitiin kokonais- (T) ja polysomeihin sidottu (P) mRNA. Tietokokonaisuus sisältää 32 näytettä, jotka edustavat kahta biologista toistoa kullekin solulinjan, happitason, hoitotilanteen ja mRNA-fraktion yhdistelmälle.

Käsitellyn tietokokonaisuuden eksploratiivinen analyysi GREIN-ohjelmassa (kuva 2) osoittaa, että näytteiden välisen vaihtelun voimakkain lähde on peräisin kahden solulinjan välisistä eroista. Tätä vahvistavat täydellisten ekspressioprofiilien korrelaatioanalyysi (kuva 2A), 500 eniten vaihtelevan geenin hierarkkinen klusterointi absoluuttisen mediaanipoikkeaman perusteella (kuva 2B), näytteiden 3D PCA-diagrammi (kuva 2C) ja 2D t-SNE-diagrammi (kuva 2D). Lisäksi saman solulinjan ekspressioprofiilien korkeat korrelaatiot (kuva 2A) viittaavat geeniekspressiomittausten hyvään signaali-kohina-suhteeseen. 2D t-SNE-plotin osoittamaa datan ylimääräistä alarakennetta on tutkittu maalaamalla näytteitä eri ominaisuuksien mukaan (täydentävä kuva S1). Tämä analyysi paljasti, että erottelut kunkin solulinjan sisällä johtuvat erilaisista mRNA-fraktioista ja sitten koeolosuhteiden välisistä eroista.

Seuraavaksi suoritimme GREINin avulla tilastollisen tehoanalyysin, joka perustui tässä tietokokonaisuudessa havaittuun biologisen vaihtelun malliin. Tarkastelimme kunkin hypoksialle altistuneen ja PP242:lla tai ilman PP242:ta käsitellyn solulinjan transkriptioprofiileja, mikä johtaa neljään vertailuun. Jos oletetaan, että ryhmien välinen ekspressioero on vähintään kaksinkertainen, tilastollinen merkitsevyys on α = 0,01 ja kussakin ryhmässä on vain kaksi toistoa, geenin tilastollinen teho havaita erilaista ekspressiota on alle 0,55 kaikissa vertailuissa (taulukko 2). Analyysimme osoittaa, että tarvittaisiin neljä toistoa ryhmää kohti, jotta saavutettaisiin 80 prosentin teho havaita kaksinkertainen muutos ekspressiossa (taulukko 2 ja kuva 3A). Tyypillisessä RNA-seq-kokeessa 20-30 miljoonan sekvensointisyvyys riittää lähes kaikkien geenien ilmentymisen kvantifiointiin4,22 , mikä on ilmeistä myös tässä aineistossa. Arvioimme myös kunkin geenin tilastollista tehoa tulla havaituksi differentiaalisesti ilmentyneeksi ”Detectability of genes” -diagrammista. Geenien keskimääräiset lukumäärän miljoonaa kohti lasketut logaritmiarvot (CPM) piirrettiin geenikohtaista biologista variaatiokerrointa (BCOV) vastaan, ja vastaavien geenien teho laskettiin (kuva 3B). Tilastollisen merkitsevyyden arvioinnissa käytettiin kontrolloitua väärien löydösten osuutta 0,05 ja todellisten positiivisten geenien odotettua prosenttiosuutta 10 prosenttia. Määritimme geenin havaittavaksi erilaista ilmentymää hypoksisissa olosuhteissa, jos sen teho on 0,8 tai enemmän. Odotetusti BCOV:n ja tehon välillä on käänteinen suhde (kuva 3B). Myös teho havaita geenin erilainen ilmentyminen kasvaa suuremman log CPM:n tai efektikoon myötä.

Taulukko 2 Tilastollinen tehoanalyysi transkriptiomuutosten arvioimiseksi pahanlaatuisissa ja ei-pahanlaatuisissa solulinjoissa.

Yksi tutkimuksen tavoitteista oli analysoida transkriptiomuutoksia hypoksisissa ja normoksisissa olosuhteissa PP242-käsittelyn kanssa ja ilman PP242-käsittelyä molemmissa, sekä MCF10A:n että MDA-MB-231:n solulinjoissa. Loimme hypoksian ja hypoksian + PP242:n transkriptiosignatuurit kokonais-mRNA:ssa tekemällä differentiaalisen ilmentymisanalyysin hypoksianäytteiden ja hypoksian + PP242:n näytteiden välillä verrattuna kontrollinäytteisiin, samalla kun säätelimme erän vaikutusta käsittelemällä ”replikaattia” kovariaattina, jokaiselle solulinjalle erikseen. Löysimme suuremman määrän differentiaalisesti ilmentyviä geenejä (DE) MCF10A-solulinjoissa verrattuna MDA-MB-231-solulinjaan sekä hypoksiassa että hypoksiassa + PP242 (kuva 4A), mikä osoittaa, että ehkä kasvainsolulinja on paremmin varustautunut käsittelemään hypoksiaa. Tämä analyysi osoitti myös, että useimmat ei-differentiaalisesti ilmentyvät geenit eivät myöskään ole havaittavissa, mikä viittaa siihen, että ne saattavat edustaa vääriä negatiivisia tuloksia. Tämä on sopusoinnussa tehoanalyysin kanssa, joka osoittaa, että tarvittaisiin 4 näytettä ryhmää kohti, jotta voitaisiin johdonmukaisesti tunnistaa differentiaalisesti ilmentyvät geenit keskimääräisellä BCOV:llä. Heikommin ilmentyneiden geenien tunnistamiseksi tarvittaisiin vielä suurempi näytekoko.

Kuva 4

Erotteleva ilmentyminen ja geenien havaittavuus. (A) Niiden geenien lukumäärä (log10-asteikolla), jotka eivät ole differentiaalisesti ilmentyneitä eivätkä havaittavissa (NDE&NDT), jotka ovat differentiaalisesti ilmentyneitä (DE) ja jotka eivät ole differentiaalisesti ilmentyneitä, mutta havaittavissa (NDE&DT), normoksiavertailuissa mRNA:n kokonaisfraktion osalta. Kutsumme geeniä havaittavaksi (DT), jos sen teho ≥0,8, ja erilaistuvaksi, jos FDR < 0,05. (B) Ensimmäisen vertailun (MCF10A ja hypoksia) geenien havaittavuusdiagrammi, joka visualisoi edellä mainitun geeniluettelon yhdessä niiden vastaavien kertaistuvien muutosten (FC) kanssa.

Tulkitaksemme differentiaalisesti ilmentyneitä geenejä vaikutuksen kohteena olevien biologisten polkujen kannalta lähetimme hypoksiaa koskevat differentiaaliset geeniekspressiosignaariot verkossa oleviin rikastamistyökaluihin (DAVID23, ToppGene24, Enrichr25 ja Reactome26) iLINCS:n kautta. Lähetetyt allekirjoitukset sisälsivät yhdistetyn luettelon DE- ja NDE&DT-geeneistä, jotka edustavat todennäköisiä todellisia positiivisia ja todellisia negatiivisia geenejä. Geenit valittiin käyttämällä 0,7:n ja 0,01:n raja-arvoa tilastollisen tehon ja FDR:n osalta. Kuvassa 5 havainnollistetaan ToppGenen avulla saadut rikastumistulokset MCF10-hypoksiasignatuurin osalta. Merkittävästi rikastuneet (FDR < 0.05) ToppGenen ja DAVID-toiminnallisen annotaatiotyökalun 10 tärkeintä geeniontologian (GO) luokkaa ovat vaste hypoksiaan, vaste alentuneeseen happipitoisuuteen, angiogeneesi, solujen lisääntymisen säätely, hapettumis-pelkistymisprosessi ja vaste abioottiselle ärsykkeelle, jotka ovat yhteisiä molemmille solulinjoille (täydentävä taulukko S2 ja täydentävä taulukko S3). Useimmat näistä luokista ovat yhdenmukaisia alkuperäisen tutkimuksen kanssa. Lisäksi ToppGene-suite tunnisti hypoksiaa indusoivan tekijän (HIF-1-alfa) transkriptiotekijäverkoston, joka aktivoitui molemmissa solulinjoissa (lisätaulukko S4 ja lisätaulukko S5).

Kuva 5

Kuvaus joistakin merkittävistä polku- ja geeniontologian (GO) kategorioista, jotka saatiin ToppGene-suiteesta iLINCS:n kautta. Nämä kategoriat löytyvät MCF10A-solulinjan hypoksian ja normoksian vertailussa käyttäen yhdistettyä DE- ja NDE&DT-geenien luetteloa. Punainen pystyviiva on valittu raja-arvo 0,05.

Viimeiseksi hyödynsimme GREIN-yhteyttä iLINCS:n kanssa ”liittääksemme” ladatun allekirjoituksen LINCS27 konsensukseen (CGS) perustuviin geenien knockdown-signatureihin18. Löysimme 3727 LINCS-konsensusgeenin knockdown-signatuuria, jotka olivat merkitsevästi (pValue < 0,05) yhteydessä lataamaamme signatuuriin. Kohdegeenit 100 parhaasta yhdistetystä allekirjoituksesta valittiin rikastumisanalyysiä varten. Löysimme soluvasteen hypoksiaan ja hapen aiheuttaman hypoksia-indusoituvan tekijän (HIF) säätelyn 10 tärkeimmän aktivoidun polun luettelossa molemmissa solulinjoissa (lisätaulukko S6 ja lisätaulukko S7). Vaikka tämä analyysi tuottaa samanlaisia rikastuneita funktionaalisia luokkia kuin alkuperäinen rikastumisanalyysi, se täydentää alkuperäistä analyysia osoittamalla useita kohdegeenejä, jotka eivät ilmentyisi eri tavoin, vaikka ne ilmentyisivät riittävän voimakkaasti ollakseen havaittavissa tehoanalyysiemme mukaan. Näiden kahden tuloksen yhdistäminen viittaa siihen, että nämä geenit ovat mahdollisia korkeamman tason säätelijöitä hypoksiavasteessa.

Vastaa

Sähköpostiosoitettasi ei julkaista.