Bubbles可以同時(shí)展示pvalue和表達(dá)量。例如展示motif的pvalue和motif對(duì)應(yīng)的轉(zhuǎn)錄因子的表達(dá)量,方便快速看出轉(zhuǎn)錄因子富集且高表達(dá)所在的group,預(yù)示著該分組對(duì)細(xì)胞狀態(tài)的改變(例如細(xì)胞分化、轉(zhuǎn)移、應(yīng)激)起關(guān)鍵調(diào)控作用;例如做基因功能富集分析時(shí),展示富集的通路qvalue和基因數(shù)量或geneRatio。
基本原理:
Bubbles的實(shí)質(zhì)是分組數(shù)據(jù)下基因表達(dá)量或通路內(nèi)基因數(shù)量的可視化,同時(shí)可以展示pvalue。
數(shù)據(jù)要求:
表達(dá)矩陣,分組 利用甲基化數(shù)據(jù)分析樣本的拷貝數(shù)變異。四川算法還原與開發(fā)數(shù)據(jù)科學(xué)
GSEA術(shù)語(yǔ)解讀Enrichmentscore(ES)ES是GSEA**初的結(jié)果,反應(yīng)關(guān)注的基因集S在原始基因數(shù)據(jù)序列L的頂部或底部富集的程度。ES原理:掃描排序序列,當(dāng)出現(xiàn)一個(gè)基因集S中的基因時(shí),增加ES值,反之減少ES值,一個(gè)基因的ES值權(quán)重與差異表達(dá)度相關(guān)。ES是個(gè)動(dòng)態(tài)值,**終ES是動(dòng)態(tài)掃描過程中獲得的**ES值。如果**終ES為正,表示某一功能基因集S富集在排序序列頂部。ES為負(fù),表示某一基因集S富集在排序序列底部。NES由于ES是根據(jù)分析的排序序列中的基因是否在一個(gè)基因集S中出現(xiàn)來計(jì)算的,但各個(gè)基因集S中包含的基因數(shù)目不同,且不同功能基因集S與原始數(shù)據(jù)之間的相關(guān)性也不同,因此比較數(shù)據(jù)中基因在不同基因集S中的富集程度要對(duì)ES進(jìn)行標(biāo)準(zhǔn)化處理,也就是計(jì)算NES。NES=某一基因集S的ES/數(shù)據(jù)集所有隨機(jī)組合得到的ES平均值,NES是主要的統(tǒng)計(jì)量。nominalp-value(普通P值)描述的是針對(duì)某一功能基因集S得到的富集得分的統(tǒng)計(jì)***性,通常p越小富集性越好。FDR(多重假設(shè)檢驗(yàn)矯正P值)NES確定后,需要判斷其中可能包含的錯(cuò)誤陽(yáng)性發(fā)現(xiàn)率。FDR=25%意味著對(duì)此NES的判斷4次可能錯(cuò)1次。GSEA結(jié)果中,高亮顯示FDR<25%的富集基因集S。因?yàn)閺倪@些功能基因集S中**可能產(chǎn)生有意義的假設(shè)。大多數(shù)情況下。 四川算法還原與開發(fā)數(shù)據(jù)科學(xué)承擔(dān)各類項(xiàng)目超過400余項(xiàng)。
術(shù)語(yǔ)解讀
數(shù)據(jù)降維:
降維就是一種對(duì)高維度特征數(shù)據(jù)預(yù)處理方法。降維是將高維度的數(shù)據(jù)保留下**重要的一些特征,去除噪聲和不重要的特征,從而實(shí)現(xiàn)提升數(shù)據(jù)處理速度的目的。在實(shí)際的生產(chǎn)和應(yīng)用中,降維在一定的信息損失范圍內(nèi),可以為我們節(jié)省大量的時(shí)間和成本。降維也成為應(yīng)用非常***的數(shù)據(jù)預(yù)處理方法。
數(shù)據(jù)要求:
表達(dá)譜芯片或測(cè)序數(shù)據(jù)(已經(jīng)過預(yù)處理)
下游分析
得到PCA分析結(jié)果之后的分析有:
1.對(duì)組成主要成分的基因進(jìn)行后續(xù)分析,探究該情況下關(guān)鍵基因表達(dá)情況
2.對(duì)組成不同主成分簇的基因進(jìn)行后續(xù)分析,探究該情況下不同基因集的表達(dá)情況
**初目的:對(duì)手上的**樣本(或病人)進(jìn)行分型分析,期望找到不同的亞型,并對(duì)應(yīng)不同的臨床特征??蓴U(kuò)展應(yīng)用到:所有樣本的亞型分析,用于樣本的特征分析。數(shù)據(jù)可用轉(zhuǎn)錄組、基因組、甲基化、蛋白質(zhì)組等。輸入數(shù)據(jù)格式:一個(gè)數(shù)值矩陣,行是基因或者其他特征,列是樣本。本分析要求樣本數(shù)要多,有利于亞型的分析。參考文獻(xiàn):(2)::本文利用室管膜瘤病人的甲基化數(shù)據(jù),首先進(jìn)行了tSNE分型,隨后又采用了新的方法spectralclustering進(jìn)行分類分析,作者比較了兩種分類方法。使用spectralclustering的分類,鑒定了每一種**亞型的特異性表達(dá)模式。并且發(fā)現(xiàn)spectralclustering的分類和病人的臨床特征有關(guān),從而提出一種新的室管膜瘤亞型,可用于臨床的篩選和檢測(cè)。 自有服務(wù)器機(jī)房,可隨時(shí)調(diào)用各計(jì)算平臺(tái)算力,且團(tuán)隊(duì)成員有多年科研經(jīng)歷。
genomeview(基因?yàn)g覽圖):genomeView是對(duì)基因組的可視化,可以直觀展示RNA-seq和ChIP-seq的信號(hào),證實(shí)轉(zhuǎn)錄因子結(jié)合對(duì)基因轉(zhuǎn)錄的影響等等。數(shù)據(jù)要求:RNA-seq和ChIP-seq等數(shù)據(jù)。應(yīng)用示例:文獻(xiàn)1:Genomic landscape and evolution of metastatic chromophobe renal cell carcinoma.(于2017年6月發(fā)表在JCI Insight.,影響因子6.041)。本文對(duì)轉(zhuǎn)移性腎嫌色細(xì)胞*進(jìn)行了系統(tǒng)的基因組研究,文中繪制基因流覽圖對(duì)整個(gè)基因組數(shù)據(jù)進(jìn)行了可視化。轉(zhuǎn)移性腎嫌色細(xì)胞*的基因組景觀和演化。 云生物立足于上海,提供相關(guān)數(shù)據(jù)科研咨詢與服務(wù)。四川算法還原與開發(fā)數(shù)據(jù)科學(xué)
在基因組上同時(shí)展示突變位點(diǎn)和motif,為突變影響轉(zhuǎn)錄因子結(jié)合提供量化和可視化的證據(jù)。四川算法還原與開發(fā)數(shù)據(jù)科學(xué)
棒棒糖圖是直觀顯示蛋白質(zhì)結(jié)構(gòu)上的突變點(diǎn)**簡(jiǎn)單且有效的方式。許多致*基因具有比任何其他基因座更頻繁突變的優(yōu)先位點(diǎn)。這些位點(diǎn)被認(rèn)為是突變熱點(diǎn),棒棒糖圖可以用于顯示突變熱點(diǎn)以及其他突變位點(diǎn)。并可以對(duì)比不同**/亞型的突變位點(diǎn)。
基本原理
將蛋白質(zhì)結(jié)構(gòu)根據(jù)氨基酸順序繪制為長(zhǎng)條形,以不同色塊標(biāo)注不同結(jié)構(gòu)域,在基因突變導(dǎo)致氨基酸改變的位置標(biāo)注棒棒糖,并在棒棒糖圓球標(biāo)注位點(diǎn)的突變頻數(shù)以及突變位點(diǎn)。
數(shù)據(jù)要求
基因突變或者蛋白質(zhì)突變數(shù)據(jù)
下游分析
1、突變位點(diǎn)靶向藥物分析
2、驅(qū)動(dòng)基因突變分析 四川算法還原與開發(fā)數(shù)據(jù)科學(xué)