GSEA基本原理從方法上來講,GSEA主要分為基因集進行排序、計算富集分數(EnrichmentScore,ES)、估計富集分數的***性水平并進行多重假設檢驗三個步驟。**步對輸入的所有基因集L進行排序,通常來說初始輸入的基因數據為表達矩陣,排序的過程相當于特定兩組中(case-control、upper-lower等等)基因差異表達分析的過程。根據所有基因在兩組樣本的差異度量不同(共有六種差異度量,默認是signal2noise,GSEA官網有提供公式,也可以選擇較為普遍的foldchange),對基因進行排序,并且Z-score標準化。第二步是GSEA的**步驟,通過分析預先定義基因集S在**步獲得的基因序列上的分布計算富集指數EnrichmentScore,并繪制分布趨勢圖Enrichmentplot。每個基因在基因集S的EnrichmentScore取決于這個基因是否屬于基因集S及其差異度量(如foldchange)。差異度量越大基因的EnrichmentScore權重越大,如果基因在基因集S中則EnrichmentScore取正,反則取負。將基因集L在基因集S里的所有基因的EnrichmentScore一個個加起來,就是Enrichmentplot上的EnrichmentScore趨勢,直到EnrichmentScore達到**值,就是基因集S**終的EnrichmentScore。第三步是為了檢驗第二部獲得結果的統計學意義。 承擔各類項目超過400余項。山東公共數據庫挖掘數據科學活動
bubbles(不同分組的基因表達或通路富集展示):Bubbles可以同時展示pvalue和表達量。例如展示motif的pvalue和motif對應的轉錄因子的表達量,方便快速看出轉錄因子富集且高表達所在的group,預示著該分組對細胞狀態的改變(例如細胞分化、轉移、應激)起關鍵調控作用;例如做基因功能富集分析時,展示富集的通路qvalue和基因數量或geneRatio。
基本原理:
Bubbles的實質是分組數據下基因表達量或通路內基因數量的可視化,同時可以展示pvalue。
數據要求:
表達矩陣,分組 重慶診療軟件開發數據科學售后分析文稿投稿2個月online 發表。
Inmmune gene
免疫學研究是目前科研領域爭相研究的熱點,**免疫細胞浸潤是其中一種。**免疫細胞浸潤是指免疫細胞從血液中移向**組織發揮作用。我們從**組織中分離出浸潤免疫細胞含量,計算基因與浸潤免疫細胞含量的相關性,篩選出影響免疫浸潤的候選基因。
基本原理:
從基因矩陣數據中提取免疫細胞含量,生成免疫細胞含量矩陣;
計算目標基因與浸潤免疫細胞含量的相關性,篩選與浸潤免疫細胞含量高度相關的基因。
術語解讀:
相關性系數(pearson,spearman, kendall)反應兩個變量之間變化趨勢的方向以及程度。相關系數范圍為-1到+1。0表示兩個變量不相關,正值表示正相關,負值表示負相關,值越大表示相關性越強。
數據要求:
**數據表達矩陣
三角坐標統計圖是采用數字坐標形式來表現三項要素的數字信息圖像。三角形坐標圖常用百分數(%)來表示某項要素與整體的結構比例。三條邊分別表示三個不同分量,三個頂點可以看作是三個原點。三角圖可以展示某特定值在一個整體中不同類型的分布。在生物信息中三角圖可以方便地展示3種不同疾病或者3個不同分組之間某個指標的相關性。
數據要求
多個樣本的三個變量值,或者多個基因在三個不同分組中的數據值,可以是突變頻率數據、基因表達數據、甲基化數據等。 診療軟件開發、算法還原與開發、臨床統計等數據科學工作。
術語解讀:
TME: Tumormicroenvironment
TMEscore: TMEsignature score(使用PCA算法計算得到,高意味著對病毒和干擾素免疫***和應答敏感。)
PCA:Principal component analysis
CIBERSORT:Cell type identification by estimating relative subset of known RNA transcripts
CYT:Cytolytic activity
EMT:Epithelial-mesenchymal-transition
CR: Completeresponse
PR: Partialresponse
PD:Progressive disease
TMB: Tumormutational burden
數據要求:
各細胞之間的相關關系、pvalue、聚類/分類結果、跟預后的關系表。 OmicCircos圖可以對感興趣的多個基因,展示其染色體的位置、拷貝數變異等多個特征。湖北數據庫建設數據科學共同合作
基因組數據全鏈條處理。山東公共數據庫挖掘數據科學活動
GSEA全名為GeneSetEnrichmentAnalysis(基因集富集分析)。用以分析特定基因集(如關注的GO條目或KEGGPathway)在兩個生物學狀態(如**與對照,高齡與低齡)中是否存在差異。能夠研究基因變化的生物學意義。SubtypeGSEA是在GSEA的基礎上對不同亞型樣本中重要通路的富集情況進行組間比較,能直觀比較不同亞型中相同通路富集情況。基本原理GSEA主要分為基因集進行排序、計算富集分數(EnrichmentScore,ES)、估計富集分數的***性水平并進行多重假設檢驗三個步驟。**步對輸入的所有基因集L進行排序,通常來說初始輸入的基因數據為表達矩陣,排序的過程相當于特定兩組中(case-control、upper-lower等等)基因差異表達分析的過程。根據所有基因在兩組樣本的差異度量不同(共有六種差異度量,默認是signal2noise,GSEA官網有提供公式,也可以選擇較為普遍的foldchange),對基因進行排序,并且Z-score標準化。第二步是GSEA的**步驟,通過分析預先定義基因集S在**步獲得的基因序列上的分布計算富集指數EnrichmentScore,并繪制分布趨勢圖Enrichmentplot。每個基因在基因集S的EnrichmentScore取決于這個基因是否屬于基因集S及其差異度量(如foldchange)。 山東公共數據庫挖掘數據科學活動