GSEA分析:GSEA全名為GeneSetEnrichmentAnalysis(基因集富集分析)。用以分析特定基因集(如關(guān)注的GO條目或KEGGPathway)在兩個(gè)生物學(xué)狀態(tài)(如**與對(duì)照,高齡與低齡)中是否存在差異。能夠研究基因變化的生物學(xué)意義。普通GO/KEGG富集的思路是先篩選差異基因,然后確定這些差異基因的GO/KEGG注釋,然后通過(guò)超幾何分布計(jì)算出哪些通路富集到了,再通過(guò)p值或FDR等閾值進(jìn)行篩選。挑選用于富集的基因有一定的主觀性,沒(méi)有關(guān)注到的基因的信息會(huì)被忽視,所以有一定的局限性。在這種情況下有了GSEA(GeneSetEnrichmentAnalysis),其思路是發(fā)表于2005年的Genesetenrichmentanalysis:aknowledge-basedapproachforinterpretinggenome-wideexpressionprofiles。主要是要有兩個(gè)概念:預(yù)先定義的基因集S(基于先驗(yàn)知識(shí)的基因注釋信息)和待分析基因集L(一般初始輸入是表達(dá)矩陣);然后GSEA目的就是為了判斷S基因集中的基因是隨機(jī)分布于L(按差異表達(dá)程度對(duì)基因進(jìn)行排序),還是聚集分布在L的頂部或者底部(也就是存在差異性富集)。如果基因集中的基因***富集在L的頂部或者底部,這說(shuō)明這些基因的表達(dá)對(duì)定義的分組(預(yù)先分組)的差異有***影響(一致性)。在富集分析的理論中。 做數(shù)據(jù)分析就找云生物。北京成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)口碑推薦
蛋白質(zhì)主要由碳、氫、氧、氮等化學(xué)元素組成,是一類重要的生物大分子。蛋白質(zhì)的功能由蛋白質(zhì)的三維結(jié)構(gòu)決定。蛋白質(zhì)三維結(jié)構(gòu)繪圖,可以直觀地展示蛋白質(zhì)三維功能結(jié)構(gòu),廣泛應(yīng)用于單核苷酸突變功能分析、藥物蛋白分子相互作用分析等研究領(lǐng)域。基本原理蛋白質(zhì)三維結(jié)構(gòu)繪圖主要分為蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)以及對(duì)結(jié)構(gòu)進(jìn)行可視化兩步。蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)是基于蛋白質(zhì)中氨基酸序列預(yù)測(cè)蛋白質(zhì)折疊結(jié)構(gòu)的步驟,**常用的預(yù)測(cè)方法為同源建模,同源建模的原理是序列相似的蛋白質(zhì)具有相似的蛋白質(zhì)結(jié)構(gòu),要推測(cè)一個(gè)未知結(jié)構(gòu)蛋白的三維結(jié)構(gòu),只需要找到與之序列高度相似的已知結(jié)構(gòu)模板。在無(wú)法進(jìn)行同源建模(找不到模型)的情況下,還有折疊識(shí)別及從頭建模法,但是計(jì)算量大運(yùn)行緩慢且建模準(zhǔn)確度不如同源建模。獲得蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)的pbd文件后還需要通過(guò)分子三維結(jié)構(gòu)軟件繪制可視化的三維圖,并分析特殊位點(diǎn)(分子對(duì)接或突變位點(diǎn)分析),常用的有pymol和DeepView等。數(shù)據(jù)要求目標(biāo)蛋白的氨基酸序列或者編碼蛋白的基因序列,突變數(shù)據(jù)等。下游分析突變位點(diǎn)靶向藥物分析等。 四川生物/藥物信息學(xué)分析數(shù)據(jù)科學(xué)共同合作按照斯普林格學(xué)術(shù)規(guī)范化處理準(zhǔn)則提供文稿同行**投稿前意見(jiàn)評(píng)估。
pancancer泛**圖譜泛*研究是通過(guò)整合不同**類型、不同組織起源的**表達(dá)數(shù)據(jù),查找**之間的共性或者差異的過(guò)程。通常使用**數(shù)據(jù)信息較為***的TCGA數(shù)據(jù),通過(guò)分裂小提琴圖展示某個(gè)基因在TCGA**和正常組織中的表達(dá)差異。分裂小提琴圖(ViolinPlot)結(jié)合了箱形圖和密度圖的特征,主要用來(lái)顯示數(shù)據(jù)的分布形狀,它一般應(yīng)用于對(duì)比某一基因在TCGA**組織和正常組織基因表達(dá)量TPM值或其它表達(dá)量數(shù)據(jù)。基本原理:小提琴圖(ViolinPlot)使用一組數(shù)據(jù)中的最小值、**四分位數(shù)、中位數(shù)、第三四分位數(shù)和**值來(lái)反映數(shù)據(jù)分布的中心位置和散布范圍,將多組數(shù)據(jù)的小提琴圖畫(huà)在同一坐標(biāo)上,可以清晰地顯示各組數(shù)據(jù)的分布差異。分裂小提琴圖在小提琴圖的基礎(chǔ)上又加入了分組對(duì)比項(xiàng),便于觀察多**類型在某一基因上的表達(dá)分布情況,或者某一基因在某一**上,其疾病與正常的對(duì)比表達(dá)差異情況。
Adonis(置換多元方差分析,分析不同分組或環(huán)境因子對(duì)樣品差異的解釋度):ADONIS置換多元方差分析(Permutationalmultivariateanalysisofvariance,PERMANOVA),又稱非參數(shù)多因素方差分析(nonparametricmultivariateanalysisofvariance)、或者ADONIS分析。使用PERMANOVA可分析不同分組因素對(duì)樣品差異的解釋度,并使用置換檢驗(yàn)進(jìn)行***性統(tǒng)計(jì)。基本原理:置換多元方差分析(PERMANOVA,Adonis)是一種基于F統(tǒng)計(jì)的方差分析,依據(jù)距離矩陣對(duì)總方差進(jìn)行分解的非參數(shù)多元方差分析方法。基本步驟是基于OTU豐度表,計(jì)算樣本間樣本間Bray-curtis距離,然后adonis分析生成結(jié)果,繪圖展示。術(shù)語(yǔ)解讀:OTU:operationaltaxonomicunits,分類單元Df:自由度,其值=所比較的分組數(shù)量-1;SumsOfSqs:即Sumsofsquares,總方差,又稱離差平方和;MeanSqs:即Meansquares,均方(差);FModel:F檢驗(yàn)值;R2:即Variation(R2),方差貢獻(xiàn),表示不同分組對(duì)樣品差異的解釋度,即分組方差與總方差的比值,R2越大表示分組對(duì)差異的解釋度越高;Pr(>F):***性p值,小于***。數(shù)據(jù)要求:OTU豐度表或者樣本距離矩陣。 根據(jù)委托方提供的參考文獻(xiàn)和要求進(jìn)行個(gè)性化特定分析。
mutationEvents**已存在的基因突變會(huì)影響其他基因的突變,突變分析時(shí)確定這些基因突變潛在的相互作用,能更好地了解健康細(xì)胞轉(zhuǎn)化為*細(xì)胞的過(guò)程和機(jī)制。DISCOVER,一種針對(duì)基因突變的統(tǒng)計(jì)檢驗(yàn)工具,幫助尋找***的基因突變間互斥性和共現(xiàn)性。一般可應(yīng)用的研究場(chǎng)景:探索一組基因是否在**中存在互斥性和共現(xiàn)性;基于基因突變的互斥性和共現(xiàn)性,研究**發(fā)***展的潛在機(jī)制。基本原理:DISCOVER(DiscreteIndependenceStatisticControllingforObservationswithVaryingEventRates)是一種用于檢測(cè)**基因組數(shù)據(jù)的共現(xiàn)性和互斥性的新統(tǒng)計(jì)檢驗(yàn)方法。與Fisher'sexacttest等用于這些任務(wù)的傳統(tǒng)方法不同的是,DISCOVER基于一個(gè)空模型,該模型考慮了總體**特異性的變化率,從而決定變化率的同時(shí)發(fā)生的頻率是否高于或低于預(yù)期。該方法避免了共現(xiàn)檢測(cè)中的虛假關(guān)聯(lián),提高了檢測(cè)互斥性的統(tǒng)計(jì)能力。DISCOVER的性能與其他幾個(gè)已發(fā)布的互斥性測(cè)試相比,在整個(gè)***性水平范圍內(nèi),DISCOVER在控制假陽(yáng)性率的同時(shí)更敏感。 WGCNA其譯為加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析。上海算法還原與開(kāi)發(fā)數(shù)據(jù)科學(xué)活動(dòng)
實(shí)驗(yàn)室致病類病原微生物數(shù)據(jù)分析平臺(tái)。北京成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)口碑推薦
ssGSEA(single sample GSEA)主要針對(duì)單樣本無(wú)法做GSEA而提出的一種實(shí)現(xiàn)方法,原理上與GSEA是類似的。ssGSEA根據(jù)表達(dá)譜文件計(jì)算每個(gè)基因的rank值,再進(jìn)行后續(xù)的統(tǒng)計(jì)分析。通過(guò)這個(gè)方法,我們可以得到每個(gè)樣本的免疫細(xì)胞或者免疫功能,免疫通路的活性,然后根據(jù)免疫活性進(jìn)行分組。
ssGSEA量化免疫細(xì)胞浸潤(rùn)**的一個(gè)優(yōu)點(diǎn)就是自己可以定制量化免疫浸潤(rùn)細(xì)胞種類。目前公認(rèn)并且用的**多的免疫細(xì)胞marker就是2013年發(fā)表在Immunity上的SpatiotemporalDynamicsof IntratumoralImmuneCellsReveal the Immune Landscape in Human Cancer 所提供的免疫細(xì)胞marker genes(Table S1),能提取到24種免疫細(xì)胞信息。 北京成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)口碑推薦