PCA主成分分析測序技術的發展使得現在能夠從宏觀角度分析基因表達,但是也在一定程度上增加了數據分析難度。許多基因之間可能存在相關性,如果分別對每個基因進行分析,分析往往是孤立的,盲目減少指標會損失很多有用的信息。PCA(PrincipalComponentAnalysis),即主成分分析方法,是一種使用*****的數據降維算法。一般可應用的研究方向有:一組基因在多個分組中的差異情況,多個基因在該樣本中的差異情況。基本原理PCA的主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱為主成分,是在原有n維特征的基礎上重新構造出來的k維特征。PCA的工作就是從原始的空間中順序地找一組相互正交的坐標軸,新的坐標軸的選擇與數據本身是密切相關的。其中,**個新坐標軸選擇是原始數據中方差**的方向,第二個新坐標軸選取是與**個坐標軸正交的平面中使得方差**的,第三個軸是與第1,2個軸正交的平面中方差**的。依次類推,可以得到n個這樣的坐標軸。通過這種方式獲得的新的坐標軸,我們發現,大部分方差都包含在前面k個坐標軸中,后面的坐標軸所含的方差幾乎為0。于是,我們可以忽略余下的坐標軸,只保留前面k個含有絕大部分方差的坐標軸。事實上。 兩個實驗組的差異基因比較。成果發表指導數據科學售后服務
Adonis(置換多元方差分析,分析不同分組或環境因子對樣品差異的解釋度):ADONIS置換多元方差分析(Permutationalmultivariateanalysisofvariance,PERMANOVA),又稱非參數多因素方差分析(nonparametricmultivariateanalysisofvariance)、或者ADONIS分析。使用PERMANOVA可分析不同分組因素對樣品差異的解釋度,并使用置換檢驗進行***性統計。基本原理:置換多元方差分析(PERMANOVA,Adonis)是一種基于F統計的方差分析,依據距離矩陣對總方差進行分解的非參數多元方差分析方法。基本步驟是基于OTU豐度表,計算樣本間樣本間Bray-curtis距離,然后adonis分析生成結果,繪圖展示。術語解讀:OTU:operationaltaxonomicunits,分類單元Df:自由度,其值=所比較的分組數量-1;SumsOfSqs:即Sumsofsquares,總方差,又稱離差平方和;MeanSqs:即Meansquares,均方(差);FModel:F檢驗值;R2:即Variation(R2),方差貢獻,表示不同分組對樣品差異的解釋度,即分組方差與總方差的比值,R2越大表示分組對差異的解釋度越高;Pr(>F):***性p值,小于***。數據要求:OTU豐度表或者樣本距離矩陣。 云南公共數據庫挖掘數據科學早期肝疾病的預后基因panel研究。
GSEA術語解讀Enrichmentscore(ES)ES是GSEA**初的結果,反應關注的基因集S在原始基因數據序列L的頂部或底部富集的程度。ES原理:掃描排序序列,當出現一個基因集S中的基因時,增加ES值,反之減少ES值,一個基因的ES值權重與差異表達度相關。ES是個動態值,**終ES是動態掃描過程中獲得的**ES值。如果**終ES為正,表示某一功能基因集S富集在排序序列頂部。ES為負,表示某一基因集S富集在排序序列底部。NES由于ES是根據分析的排序序列中的基因是否在一個基因集S中出現來計算的,但各個基因集S中包含的基因數目不同,且不同功能基因集S與原始數據之間的相關性也不同,因此比較數據中基因在不同基因集S中的富集程度要對ES進行標準化處理,也就是計算NES。NES=某一基因集S的ES/數據集所有隨機組合得到的ES平均值,NES是主要的統計量。nominalp-value(普通P值)描述的是針對某一功能基因集S得到的富集得分的統計***性,通常p越小富集性越好。FDR(多重假設檢驗矯正P值)NES確定后,需要判斷其中可能包含的錯誤陽性發現率。FDR=25%意味著對此NES的判斷4次可能錯1次。GSEA結果中,高亮顯示FDR<25%的富集基因集S。因為從這些功能基因集S中**可能產生有意義的假設。大多數情況下。
ROC機器學習受試者工作特征曲線(receiveroperatingcharacteristiccurve,簡稱ROC曲線),又稱為感受性曲線(sensitivitycurve),是用來驗證一個分類器(二分)模型的性能的。一般應用于直觀展示敏感性和特異性連續變量的綜合指標,如比較多個biomarker或臨床參數的診斷表現、比較多個算法的分類效果。基本原理ROC曲線工作原理是,向模型中輸入已知正負類的一組數據,對比模型對該組數據的預測,衡量這個模型的性能。術語解讀:1、TP(TruePositive,真正,TP)被模型預測為正的正樣本(原來為正預測為正)2、TN(TrueNegative,真負,TN)被模型預測為負的負樣本(原來為負預測為負)3、FP(FalsePositive,假正,FP)被模型預測為正的負樣本(原來為負預測為正)4、FN(FalseNegative,假負,FN)被模型預測為負的正樣本(原來為正預測為負)5、真正類率(TruePostiveRate)TPR:TP/(TP+FN),**分類器預測的正類中實際正實例占所有正實例的比例。Sensitivity6、假正類率(FalsePostiveRate)FPR:FP/(FP+TN),**分類器預測的負類中預測為正實例(實際為負實例)占所有負實例的比例。1-Specificity7、真負類率(TrueNegativeRate)TNR:TN/(FP+TN)。 實驗室致病類病原微生物數據分析平臺。
industryTemplate云生物立足于上海,提供相關數據科研咨詢與服務。湖北生物/藥物信息學分析數據科學服務
提供語言潤色、圖表調整、格式修改等工作模塊。成果發表指導數據科學售后服務
ssGSEA基本原理
對于一個基因表達矩陣,ssGSEA首先對樣本的所有基因的表達水平進行排序獲得其在所有基因中的秩次rank。然后對于輸入的基因集,從基因集中尋找表達數據里存在的基因并計數,并將這些基因的表達水平求和。接著基于上述求值,計算通路中每個基因的富集分數,并進一步打亂基因順序重新計算富集分數,重復一千次,***根據基因富集分數的分布計算p值整合基因集**終富集分數。
數據要求
1、特定感興趣的基因集(通常為免疫細胞表面marker genes),列出基因集中基因
2、基因表達矩陣,為經過log2標準化的芯片數據或者RNA-seq count數數據(基因名形式與基因集對應)
下游分析
免疫細胞浸潤分數相關性(corralation)分析 成果發表指導數據科學售后服務