Schema conceptuală a GREIN este prezentată în Fig. 1. Seturile individuale de date RNA-seq sunt procesate de către conducta GREP2 și stocate local ca seturi de expresii R. Utilizatorul poate accesa și analiza seturile de date preprocesate prin intermediul interfeței grafice cu utilizatorul (GUI) GREIN sau poate trimite pentru procesare seturi de date care nu au fost încă procesate. Fluxurile de lucru bazate pe GUI facilitează examinarea și vizualizarea datelor, analiza statistică, construirea semnăturilor transcripționale și interpretarea biologică sistemică a genelor exprimate diferențiat (DE). Atât GREIN, cât și pipeline-ul back-end (GREP2) sunt scrise în R și lansate ca container Docker și, respectiv, pachet R. Interfețele grafice cu utilizatorul pentru GREIN sunt implementate în Shiny16, un cadru web pentru construirea de aplicații web dinamice în R. Instanța web de la https://shiny.ilincs.org/grein este implementată prin intermediul unui roi Docker robust de servere Shiny echilibrate din punct de vedere al încărcăturii. Întreaga infrastructură GREIN, inclusiv conducta de procesare, este implementată prin intermediul containerelor Docker.
Fluxurile de lucru bazate pe GUI prietenoase cu utilizatorul din GREIN facilitează scenariile tipice de reutilizare a datelor RNA-seq, cum ar fi examinarea măsurilor de control al calității și vizualizarea modelelor de expresie în întregul set de date, dimensiunea eșantionului și analiza puterii cu scopul de a informa proiectarea experimentală a studiilor viitoare, expresia genetică diferențială statistică, îmbogățirea listei de gene și analiza de rețea. Pe lângă comparația standard cu două grupuri, modulul de analiză a expresiei genetice diferențiale suportă, de asemenea, ajustarea unui model liniar generalizat care ține cont de covariate sau de efecte de lot. Instrumentele interactive de vizualizare și explorare implementate includ analiza de grup, hărți termice interactive, analiza componentelor principale (PCA), încorporarea vecinului stocastic distribuit în t (t-SNE) etc. (Tabelul suplimentar S1). Utilizatorul poate, de asemenea, să caute adnotări ontologice ale probelor umane RNA-seq și seturi de date furnizate de proiectul MetaSRA13. Fiecare eșantion RNA-seq uman procesat este etichetat cu cartografierea MetaSRA a ontologiilor biomedicale, inclusiv Disease Ontology, Cell Ontology, Experimental Factor Ontology, Cellosaurus și Uberon. Interpretarea biologică a expresiilor genetice diferențiale este facilitată de legături directe către alte instrumente online pentru efectuarea de analize post-hoc tipice, cum ar fi lista de gene și analiza îmbogățirii căilor de acces și analiza de rețea a genelor exprimate diferențiat (DE). Legătura cu aceste servicii web analitice este implementată prin trimiterea semnăturii expresiei genetice diferențiale (adică lista modificărilor medii ale expresiei genice și valorile p asociate pentru toate genele reglementate în sus/în jos analizate) către iLINCS17 (Integrative LINCS). iLINCS oferă, de asemenea, analiza conectivității semnăturilor pentru semnăturile recent lansate Connectivity Map L100018. Instrucțiuni detaliate pas cu pas despre fluxurile de lucru ale analizei GREIN sunt furnizate în materialul suplimentar și în secțiunea „Help” (Ajutor) din GREIN.
Utilizatorul poate fie să caute un set de date GEO deja procesat în caseta „Search for GEO series (GSE) accession” (Căutați accesarea seriilor GEO (GSE)), fie să trimită un set de date pentru procesare dacă setul de date nu este deja procesat (Fig. Suplimentară S2). În acest moment, marea majoritate a seturilor de date GEO RNA-seq umane, de șoarece și de șobolan au fost preprocesate, iar trimiterea de către utilizator a seturilor de date GEO pentru procesare va fi necesară doar ocazional. Utilizatorul poate verifica starea de procesare a setului de date solicitat în fila „Processing console” (consolă de procesare) (Fig. Suplimentară S3). Alte opțiuni de căutare includ căutarea prin cuvinte cheie prin metadatele seturilor de date și căutarea de probe prin ontologii biomedicale prin intermediul adnotărilor ontologice MetaSRA.
Explore dataset
GREIN permite accesul atât la date brute, cât și la date normalizate (număr de celule pe milion și transcripție pe milion) la nivel de gene și transcripție. GREIN vine cu mai multe instrumente interactive și personalizabile pentru a vizualiza modelele de expresie, cum ar fi hărți termice interactive ale genelor și eșantioanelor grupate, diagrame de densitate pentru toate sau pentru un subset de eșantioane, analiza variabilității între și în cadrul grupului prin analize de reducere a dimensionalității 2D și 3D și vizualizări precum PCA și t-SNE (Fig. 2). De asemenea, utilizatorul poate vizualiza profilul de expresie al fiecărei gene în parte (Fig. Suplimentară S6).
Controlul calității
Calitatea datelor RNA-seq din depozitele publice continuă să fie o problemă majoră. Într-un studiu recent realizat de Deelen et al.19, mai mult de jumătate din cele 65 000 de eșantioane RNA-seq publice procesate au trebuit să fie eliminate din cauza problemelor de QC. În loc să elimine eșantioane, GREIN oferă un raport cuprinzător de control al calității (QC) al datelor de secvență brute și al cartografierii secvențelor pentru fiecare eșantion (Fig. suplimentară S7) și permite utilizatorului să ia o decizie cu privire la ce eșantioane ar trebui excluse din analizele din aval.
Analiză statistică a puterii
Modulul de analiză a puterii din GREIN facilitează calcularea și vizualizarea puterii statistice de detectare a genelor exprimate diferențiat în studiile viitoare care utilizează eșantioane biologice similare. Estimarea dimensiunii adecvate a eșantioanelor pentru studii viitoare cu eșantioane biologice similare este adesea factorul cheie de motivare în reanalizarea datelor RNA-seq. Analiza puterii facilitează, de asemenea, analiza post-hoc a ratelor fals negative în setul de date actual. Lipsa de putere statistică și diferențele de putere statistică între gene pot produce rezultate fals negative care duc la concluzii greșite20. Segmentul „Power curve” (Curbă de putere) oferă estimări ale puterii pentru un număr diferit de eșantioane pe baza unei singure gene (Fig. 3A). Utilizatorul poate modifica valorile implicite ale parametrilor. Graficul „Detectability of genes” (detectabilitatea genelor) vizualizează estimarea puterii pentru fiecare dintre gene pe baza grupurilor selectate și a dispersiei în funcție de genă (Fig. 3B). Acoperirea medie a genelor este reprezentată grafic față de variabilitatea lor biologică și sunt afișate în două seturi pe baza statutului lor de detectabilitate (putere ≥0,8 și putere < 0,8).