GREIN: O platformă web interactivă pentru reanalizarea datelor GEO RNA-seq

Schema conceptuală a GREIN este prezentată în Fig. 1. Seturile individuale de date RNA-seq sunt procesate de către conducta GREP2 și stocate local ca seturi de expresii R. Utilizatorul poate accesa și analiza seturile de date preprocesate prin intermediul interfeței grafice cu utilizatorul (GUI) GREIN sau poate trimite pentru procesare seturi de date care nu au fost încă procesate. Fluxurile de lucru bazate pe GUI facilitează examinarea și vizualizarea datelor, analiza statistică, construirea semnăturilor transcripționale și interpretarea biologică sistemică a genelor exprimate diferențiat (DE). Atât GREIN, cât și pipeline-ul back-end (GREP2) sunt scrise în R și lansate ca container Docker și, respectiv, pachet R. Interfețele grafice cu utilizatorul pentru GREIN sunt implementate în Shiny16, un cadru web pentru construirea de aplicații web dinamice în R. Instanța web de la https://shiny.ilincs.org/grein este implementată prin intermediul unui roi Docker robust de servere Shiny echilibrate din punct de vedere al încărcăturii. Întreaga infrastructură GREIN, inclusiv conducta de procesare, este implementată prin intermediul containerelor Docker.

Figura 1

Fluxul de lucru schematic al GREP2, interfața web și ieșirile GREIN. Seturile de date GEO sunt procesate în mod sistematic cu ajutorul conductei GREP2 și stocate în cadrul bibliotecii de seturi de date back-end. Fluxurile de lucru GREIN bazate pe GUI facilitează analiza și vizualizarea cuprinzătoare a seturilor de date procesate.

Fluxurile de lucru bazate pe GUI prietenoase cu utilizatorul din GREIN facilitează scenariile tipice de reutilizare a datelor RNA-seq, cum ar fi examinarea măsurilor de control al calității și vizualizarea modelelor de expresie în întregul set de date, dimensiunea eșantionului și analiza puterii cu scopul de a informa proiectarea experimentală a studiilor viitoare, expresia genetică diferențială statistică, îmbogățirea listei de gene și analiza de rețea. Pe lângă comparația standard cu două grupuri, modulul de analiză a expresiei genetice diferențiale suportă, de asemenea, ajustarea unui model liniar generalizat care ține cont de covariate sau de efecte de lot. Instrumentele interactive de vizualizare și explorare implementate includ analiza de grup, hărți termice interactive, analiza componentelor principale (PCA), încorporarea vecinului stocastic distribuit în t (t-SNE) etc. (Tabelul suplimentar S1). Utilizatorul poate, de asemenea, să caute adnotări ontologice ale probelor umane RNA-seq și seturi de date furnizate de proiectul MetaSRA13. Fiecare eșantion RNA-seq uman procesat este etichetat cu cartografierea MetaSRA a ontologiilor biomedicale, inclusiv Disease Ontology, Cell Ontology, Experimental Factor Ontology, Cellosaurus și Uberon. Interpretarea biologică a expresiilor genetice diferențiale este facilitată de legături directe către alte instrumente online pentru efectuarea de analize post-hoc tipice, cum ar fi lista de gene și analiza îmbogățirii căilor de acces și analiza de rețea a genelor exprimate diferențiat (DE). Legătura cu aceste servicii web analitice este implementată prin trimiterea semnăturii expresiei genetice diferențiale (adică lista modificărilor medii ale expresiei genice și valorile p asociate pentru toate genele reglementate în sus/în jos analizate) către iLINCS17 (Integrative LINCS). iLINCS oferă, de asemenea, analiza conectivității semnăturilor pentru semnăturile recent lansate Connectivity Map L100018. Instrucțiuni detaliate pas cu pas despre fluxurile de lucru ale analizei GREIN sunt furnizate în materialul suplimentar și în secțiunea „Help” (Ajutor) din GREIN.

Funcționalități cheie

Search or submit for processing

Utilizatorul poate fie să caute un set de date GEO deja procesat în caseta „Search for GEO series (GSE) accession” (Căutați accesarea seriilor GEO (GSE)), fie să trimită un set de date pentru procesare dacă setul de date nu este deja procesat (Fig. Suplimentară S2). În acest moment, marea majoritate a seturilor de date GEO RNA-seq umane, de șoarece și de șobolan au fost preprocesate, iar trimiterea de către utilizator a seturilor de date GEO pentru procesare va fi necesară doar ocazional. Utilizatorul poate verifica starea de procesare a setului de date solicitat în fila „Processing console” (consolă de procesare) (Fig. Suplimentară S3). Alte opțiuni de căutare includ căutarea prin cuvinte cheie prin metadatele seturilor de date și căutarea de probe prin ontologii biomedicale prin intermediul adnotărilor ontologice MetaSRA.

Explore dataset

GREIN permite accesul atât la date brute, cât și la date normalizate (număr de celule pe milion și transcripție pe milion) la nivel de gene și transcripție. GREIN vine cu mai multe instrumente interactive și personalizabile pentru a vizualiza modelele de expresie, cum ar fi hărți termice interactive ale genelor și eșantioanelor grupate, diagrame de densitate pentru toate sau pentru un subset de eșantioane, analiza variabilității între și în cadrul grupului prin analize de reducere a dimensionalității 2D și 3D și vizualizări precum PCA și t-SNE (Fig. 2). De asemenea, utilizatorul poate vizualiza profilul de expresie al fiecărei gene în parte (Fig. Suplimentară S6).

Figura 2

Ploturi de analiză exploratorie în GREIN. (A) Harta termică a corelației arată o corelație mai mare în cadrul liniilor celulare și o corelație scăzută între liniile celulare. În general, corelațiile ridicate în cadrul fiecărei linii celulare indică o calitate ridicată a profilurilor transcripționale. (B) Gruparea ierarhică bazată pe corelația Pearson a primelor 500 de gene cele mai variabile pe baza deviației absolute mediane ca măsură a variabilității. Datele sunt normalizate și centrate pe medie. (C) Diagrama tridimensională a analizei componentelor principale a liniilor celulare. (D) Graficul t-SNE bidimensional al condiției de tratament și al liniei celulare arată o separare clară a liniilor celulare și apoi a fracțiunilor de ARN, indicând două surse dominante de variabilitate între profilurile RNA-seq.

Controlul calității

Calitatea datelor RNA-seq din depozitele publice continuă să fie o problemă majoră. Într-un studiu recent realizat de Deelen et al.19, mai mult de jumătate din cele 65 000 de eșantioane RNA-seq publice procesate au trebuit să fie eliminate din cauza problemelor de QC. În loc să elimine eșantioane, GREIN oferă un raport cuprinzător de control al calității (QC) al datelor de secvență brute și al cartografierii secvențelor pentru fiecare eșantion (Fig. suplimentară S7) și permite utilizatorului să ia o decizie cu privire la ce eșantioane ar trebui excluse din analizele din aval.

Analiză statistică a puterii

Modulul de analiză a puterii din GREIN facilitează calcularea și vizualizarea puterii statistice de detectare a genelor exprimate diferențiat în studiile viitoare care utilizează eșantioane biologice similare. Estimarea dimensiunii adecvate a eșantioanelor pentru studii viitoare cu eșantioane biologice similare este adesea factorul cheie de motivare în reanalizarea datelor RNA-seq. Analiza puterii facilitează, de asemenea, analiza post-hoc a ratelor fals negative în setul de date actual. Lipsa de putere statistică și diferențele de putere statistică între gene pot produce rezultate fals negative care duc la concluzii greșite20. Segmentul „Power curve” (Curbă de putere) oferă estimări ale puterii pentru un număr diferit de eșantioane pe baza unei singure gene (Fig. 3A). Utilizatorul poate modifica valorile implicite ale parametrilor. Graficul „Detectability of genes” (detectabilitatea genelor) vizualizează estimarea puterii pentru fiecare dintre gene pe baza grupurilor selectate și a dispersiei în funcție de genă (Fig. 3B). Acoperirea medie a genelor este reprezentată grafic față de variabilitatea lor biologică și sunt afișate în două seturi pe baza statutului lor de detectabilitate (putere ≥0,8 și putere < 0,8).

Figura 3

Analiză de putere pentru evaluarea modificărilor transcripționale în linia celulară MCF10A non-malignă. (A) Estimări ale puterii bazate pe o singură genă pentru un număr diferit de eșantioane din fiecare grup, cu o schimbare fold minimă de 2 și semnificație statistică α = 0,01. (B) Detectabilitatea în funcție de genă pe planul log2CPM-BCOV cu FDR ≤0,1 și două eșantioane în fiecare grup.

Expresia genetică diferențială

Crearea și interpretarea semnăturii de expresie genetică diferențială este un scenariu tipic de analiză în experimentele RNA-seq. Cu GREIN, utilizatorul poate crea o semnătură prin compararea expresiei genice între două grupuri de probe, cu sau fără ajustări pentru covariate experimentale sau efecte de lot. GREIN poate gestiona proiecte experimentale complexe, oferind flexibilitatea de a rearanja grupurile și subgrupurile sau de a selecta probe specifice. Semnătura de expresie diferențială poate fi vizualizată prin intermediul unor grafice interactive care includ harta termică a principalelor gene dereglate diferențiat (figura suplimentară S15) clasificate în funcție de rata de descoperire falsă (FDR), graficul log fold change vs. log average expression (MA) (figura suplimentară S16) și graficul detectabilității genelor (figura suplimentară S17). Semnătura de expresie diferențială, cu sau fără luarea în considerare a rezultatelor potențial fals negative, poate fi exportată direct în iLINCS pentru analiza de îmbogățire și conectivitate.

Caz de utilizare: Analiza reglementării transcripționale și translaționale a hipoxiei în liniile celulare epiteliale mamare non-maligne și în liniile celulare de cancer mamar triplu-negativ

Demonstrăm utilizarea GREIN prin reanalizarea unor date RNA-seq GEO publicate recent (GSE104193). Sesé et al.21 au examinat reglarea transcripțională și translațională a subtipului de cancer de sân triplu-negativ (TNBC) refractar la hormoni sub o combinație de hipoxie și tratament cu inhibitor mTOR (ținta mecanică a rapamicinei). În special, autorii au analizat profilurile de expresie ale celulelor TNBC (MDA-MB-231) și ale celulelor epiteliale mamare non-maligne (MCF10A) expuse la condiții normoxice (21% O2) și hipoxice (0,5% O2) și/sau tratate cu un inhibitor mTORC1 și -2 PP242. Fiecare dintre probe a fost secvențiat pentru ARNm total (T) și ARNm legat de polisom (P). Setul de date conține 32 de probe, reprezentând două replici biologice pentru fiecare combinație de linie celulară, nivel de oxigen, stare de tratament și fracțiune de ARNm.

Analiza exploratorie a setului de date procesat în GREIN (Fig. 2) arată că cea mai puternică sursă de variație între probe provine din diferențele dintre cele două linii celulare. Acest lucru este întărit de analiza de corelație a profilurilor complete de expresie (Fig. 2A), de gruparea ierarhică a primelor 500 de gene foarte variabile pe baza deviației absolute mediane (Fig. 2B), de graficul PCA 3D al probelor (Fig. 2C) și de graficul t-SNE 2D (Fig. 2D). În plus, corelațiile ridicate între profilurile de expresie pentru aceeași linie celulară (Fig. 2A) indică un raport semnal-zgomot bun în măsurătorile expresiei genice. Substructura suplimentară a datelor indicate de graficul 2D t-SNE a fost examinată prin pictarea eșantioanelor în funcție de diferite atribute (Fig. Suplimentară S1). Această analiză a arătat că separările din cadrul fiecărei linii celulare sunt induse de diferite fracții de ARNm și apoi de diferențele dintre condițiile experimentale.

În continuare, am utilizat GREIN pentru a efectua o analiză a puterii statistice pe baza modelului de variabilitate biologică observat în acest set de date. Am luat în considerare profilurile transcripționale ale fiecărei linii celulare expuse la hipoxie și tratate cu sau fără PP242, ceea ce duce la patru comparații. Presupunând o diferență de expresie de cel puțin două ori între grupuri, la semnificația statistică de α = 0,01 și cu doar două replici în fiecare grup, puterea statistică a unei gene de a fi detectată ca fiind diferențiat exprimată este sub 0,55 în toate comparațiile (tabelul 2). Analiza noastră indică faptul că ar fi nevoie de patru replici pe grup pentru a obține o putere de 80 % pentru a detecta o schimbare de două ori în expresie (tabelul 2 și figura 3A). Într-un experiment tipic de ARN-seq, o profunzime de secvențiere de 20-30 de milioane este suficientă pentru a cuantifica expresia genică pentru aproape toate genele4,22 , ceea ce este, de asemenea, evident în acest set de date. Am evaluat, de asemenea, puterea statistică a fiecărei gene de a fi detectată ca fiind diferențiat exprimată din graficul „Detectability of genes”. Logul mediu al valorilor logaritmice ale numerelor pe milion (CPM) ale genelor au fost reprezentate grafic față de coeficientul biologic de variație (BCOV) în funcție de genă și puterea a fost calculată pentru genele corespunzătoare (Fig. 3B). Pentru a estima semnificația statistică a fost utilizată o rată de descoperire falsă controlată de 0,05 și un procentaj preconizat de rezultate pozitive adevărate de 10 %. Am definit o genă ca fiind detectabilă ca fiind diferențiat exprimată în condiții hipoxice dacă puterea sa este de 0,8 sau mai mare. După cum era de așteptat, există o relație inversă între BCOV și putere (Fig. 3B). De asemenea, puterea de a detecta expresia diferențială a unei gene crește cu un log CPM sau o dimensiune a efectului mai mare.

Tabel 2 Analiza puterii statistice pentru a evalua modificările transcripționale în liniile celulare maligne și nemaligne.

Unul dintre obiectivele studiului a fost acela de a analiza modificările transcripționale în condiții hipoxice și normoxice cu și fără tratament cu PP242 atât în liniile celulare MCF10A, cât și MDA-MB-231. Am creat semnături transcripționale ale hipoxiei și hipoxiei + PP242 în ARNm total prin analiza expresiei diferențiale între eșantioanele de hipoxie și, respectiv, hipoxie + PP242 față de eșantioanele de control, în timp ce am ajustat pentru efectul de lot prin tratarea „replicii” ca o covariabilă, pentru fiecare linie celulară în parte. Am găsit un număr mai mare de gene exprimate diferențiat (DE) în liniile celulare MCF10A în comparație cu MDA-MB-231 atât în hipoxie, cât și în hipoxie + PP242 (Fig. 4A), ceea ce indică faptul că, probabil, linia celulară tumorală este mai bine echipată pentru a face față hipoxiei. Această analiză a arătat, de asemenea, că majoritatea genelor exprimate nediferențial nu sunt, de asemenea, detectabile, ceea ce indică faptul că acestea pot reprezenta rezultate fals negative. Acest lucru este în concordanță cu analiza puterii care arată că ar fi necesare 4 eșantioane per grup pentru a identifica în mod constant genele exprimate diferențiat cu BCOV mediu. Pentru a identifica genele mai puțin exprimate ar fi necesară o dimensiune și mai mare a eșantionului.

Figura 4

Expresia diferențială și detectabilitatea genelor. (A) Numărul de gene (scară log10) neexprimate diferențiat și nedetectabile (NDE&NDT), exprimate diferențiat (DE) și neexprimate diferențiat, dar detectabile (NDE&DT) în comparațiile cu normoxia pentru fracția totală de ARNm. Numim o genă detectabilă (DT) dacă puterea sa ≥0,8 și diferențiabilă dacă FDR < 0,05. (B) Graficul de detectabilitate a genelor pentru prima comparație (MCF10A și hipoxie), care vizualizează lista de gene menționată mai sus, împreună cu modificările lor fold (FC) respective.

Pentru a interpreta genele exprimate diferențiat în ceea ce privește căile biologice afectate, am trimis semnăturile de expresie genetică diferențială a hipoxiei la instrumentele de îmbogățire online (DAVID23, ToppGene24, Enrichr25 și Reactome26) prin intermediul iLINCS. Semnăturile trimise au inclus o listă combinată de gene DE și NDE&DT reprezentând probabil adevărate gene pozitive și adevărate gene negative. Genele au fost selectate pe baza unui cutoff de 0,7 și 0,01 pentru puterea statistică și, respectiv, FDR. Figura 5 ilustrează rezultatele îmbogățirii obținute de ToppGene pentru semnătura de hipoxie MCF10. Îmbogățirea semnificativă (FDR < 0.05) primele 10 categorii de ontologie genetică (GO) din ToppGene și instrumentul de adnotare funcțională DAVID includ răspunsul la hipoxie, răspunsul la scăderea nivelului de oxigen, angiogeneza, reglarea proliferării celulare, procesul de oxidare-reducere și răspunsul la stimulii abiotici care sunt comune în ambele linii celulare (tabelul suplimentar S2 și tabelul suplimentar S3). Cele mai multe dintre aceste categorii sunt în concordanță cu studiul original. În plus, suita ToppGene a identificat rețeaua de factori de transcripție a factorului indus de hipoxie (HIF-1-alfa) care a fost activată în ambele linii celulare (Tabelul suplimentar S4 și Tabelul suplimentar S5).

Figura 5

Snapshot al unora dintre categoriile semnificative de căi și ontologii genetice (GO) din ToppGene prin intermediul iLINCS. Aceste categorii se regăsesc în comparația dintre hipoxie și normoxie în linia celulară MCF10A folosind o listă combinată de gene DE și NDE&DT. Linia verticală roșie reprezintă cutoff-ul selectat de 0,05.

În cele din urmă, am utilizat conexiunea GREIN cu iLINCS pentru a „conecta” semnătura încărcată cu semnăturile de knockdown de gene de consens LINCS27 (CGS)18. Am găsit 3 727 de semnături de knockdown al genelor consensuale LINCS care au fost conectate în mod semnificativ (pValoare < 0,05) cu semnătura noastră încărcată. Genele țintă ale primelor 100 de semnături conectate au fost selectate pentru o analiză suplimentară de îmbogățire. Am găsit răspunsul celular la hipoxie și reglarea factorului indus de hipoxie (HIF) de către oxigen în lista celor mai importante 10 căi activate în ambele linii celulare (Tabelul suplimentar S6 și Tabelul suplimentar S7). În timp ce această analiză produce categorii funcționale îmbogățite similare cu analiza inițială de îmbogățire, aceasta completează analiza inițială prin implicarea mai multor gene țintă care nu sunt exprimate diferențiat, deși sunt suficient de puternic exprimate pentru a fi detectabile conform analizelor noastre de putere. Legarea acestor două rezultate împreună implică aceste gene ca potențiali regulatori de nivel superior ai răspunsului la hipoxie.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.