PCA主成分分析測序技術的發展使得現在能夠從宏觀角度分析基因表達,但是也在一定程度上增加了數據分析難度。許多基因之間可能存在相關性,如果分別對每個基因進行分析,分析往往是孤立的,盲目減少指標會損失很多有用的信息。PCA(PrincipalComponentAnalysis),即主成分分析方法,是一種使用*****的數據降維算法。一般可應用的研究方向有:一組基因在多個分組中的差異情況,多個基因在該樣本中的差異情況。基本原理PCA的主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱為主成分,是在原有n維特征的基礎上重新構造出來的k維特征。PCA的工作就是從原始的空間中順序地找一組相互正交的坐標軸,新的坐標軸的選擇與數據本身是密切相關的。其中,**個新坐標軸選擇是原始數據中方差**的方向,第二個新坐標軸選取是與**個坐標軸正交的平面中使得方差**的,第三個軸是與第1,2個軸正交的平面中方差**的。依次類推,可以得到n個這樣的坐標軸。通過這種方式獲得的新的坐標軸,我們發現,大部分方差都包含在前面k個坐標軸中,后面的坐標軸所含的方差幾乎為0。于是,我們可以忽略余下的坐標軸,只保留前面k個含有絕大部分方差的坐標軸。事實上。 參考國內外數據資源,根據需求制定構建方案。遼寧組學實驗數據科學歡迎咨詢
GSVA(基因集變異分析,反映了樣本和感興趣的通路之間的聯系):GSVA全名Genesetvariationanalysis(基因集變異分析),是一種非參數,無監督的算法。與GSEA不同,GSVA不需要預先對樣本進行分組,可以計算每個樣本中特定基因集的富集分數。換而言之,GSVA轉化了基因表達數據,從單個基因作為特征的表達矩陣,轉化為特定基因集作為特征的表達矩陣。GSVA對基因富集結果進行了量化,可以更方便地進行后續統計分析。如果用limma包做差異表達分析可以尋找樣本間差異表達的基因,同樣地,使用limma包對GSVA的結果(依然是一個矩陣)做同樣的分析,則可以尋找樣本間有***差異的基因集。這些“差異表達”的基因集,相對于基因而言,更加具有生物學意義,更具有可解釋性,可以進一步用于**subtype的分型等等與生物學意義結合密切的探究。 遼寧組學實驗數據科學歡迎咨詢承擔各類項目超過400余項。
不同分組的全基因組拷貝數變化的比較:**初目的:不同分組的拷貝數變異在染色體水平和染色體臂水平的展示和比較。應用:不同分組的全基因組拷貝數變化的比較,展示genome-wideDNAcopy-numberprofiles。不同染色體臂的變異與臨床表型息息相關。輸入數據格式:一個表征每個樣本的染色體變異(gain,balance,loss)的數值矩陣和樣本分組信息。或者拷貝數的原始結果,可處理成所需矩陣。參考文獻:(2)::本文計算出病人的拷貝數變異情況后,按照之前病人的分組比較了不同分組的染色體變異的異同,找到特定的染色體變異模式。確定了各組的特征,如lmonosomy2inPFB2,monosomy8inPFB3,monosomy3inPFB1,andgainof1qinPFB1.。
RoastROAST是一種差異表達分析方法,有助于提高統計能力、組織和解釋結果以及在不同實驗中的關聯表達模式,一般適用于microarray、RNA-seq的表達矩陣,用limma給全部基因做差異表達分析,不需要篩差異表達基因。基本原理:ROAST是一種假設驅動的測試,對結果基因集做富集分析,富集分析考慮基因集中基因的方向性(上調或下調)和強度(log2倍變化),判斷上/下調基因是否***富于集目標基因集;ROAST使用rotation,一種MonteCarlotechnology的多元回歸方法,適用于樣本數量較少的情況;roast檢驗一個geneset,對于復雜矩陣,使用mroast做multipleroasttests。富集分析結果用barcodeplot展示,使上/下調基因在目標基因集中的分布可視化。數據要求:表達矩陣。 協助構建各類科研、臨床數據庫。
GSEA全名為GeneSetEnrichmentAnalysis(基因集富集分析)。用以分析特定基因集(如關注的GO條目或KEGGPathway)在兩個生物學狀態(如**與對照,高齡與低齡)中是否存在差異。能夠研究基因變化的生物學意義。SubtypeGSEA是在GSEA的基礎上對不同亞型樣本中重要通路的富集情況進行組間比較,能直觀比較不同亞型中相同通路富集情況。基本原理GSEA主要分為基因集進行排序、計算富集分數(EnrichmentScore,ES)、估計富集分數的***性水平并進行多重假設檢驗三個步驟。**步對輸入的所有基因集L進行排序,通常來說初始輸入的基因數據為表達矩陣,排序的過程相當于特定兩組中(case-control、upper-lower等等)基因差異表達分析的過程。根據所有基因在兩組樣本的差異度量不同(共有六種差異度量,默認是signal2noise,GSEA官網有提供公式,也可以選擇較為普遍的foldchange),對基因進行排序,并且Z-score標準化。第二步是GSEA的**步驟,通過分析預先定義基因集S在**步獲得的基因序列上的分布計算富集指數EnrichmentScore,并繪制分布趨勢圖Enrichmentplot。每個基因在基因集S的EnrichmentScore取決于這個基因是否屬于基因集S及其差異度量(如foldchange)。 長期與交大、復旦、中科院、南大、藥科大等實驗室合作。遼寧組學實驗數據科學歡迎咨詢
構建新的臨床預測模型。遼寧組學實驗數據科學歡迎咨詢
GSEA數據要求1、通常為表達譜芯片或測序數據(已經過預處理),也可以是其他形式可排序的基因數據。2、具有已知生物學意義(GO、Pathway、**特征基因集等)的基因集。下游分析:得到GSEA結果之后的分析有:1.基因注釋:1、繪制基因集富集趨勢圖(Enrichmentplot)橫坐標:按差異表達差異排序的基因序列。數值越小(偏向左端)的基因**在shICAM-1組中有越高倍數的差異表達,數值越小(偏向右端)的基因在對照組中有越高倍數的差異表達。縱坐標:上方的縱坐標為富集打分ES,ES是一個動態的值,沿著基因序列,找到條目中的基因則增加評分,否則減少評分。通常用偏離0**遠的值作為**終富集打分。下方的縱坐標**基因表達與表型的關聯,***值越大**關聯越強,數值大于0**正相關,小于0則**負相關。 遼寧組學實驗數據科學歡迎咨詢