sankey
桑基圖(sankey)是一種數(shù)據(jù)流圖,每條邊**一條數(shù)據(jù)流,寬度**數(shù)據(jù)流的大小。一套數(shù)據(jù)集可能有多重屬性,每層屬性之間有交叉,就可以用這種圖來展示。一般應(yīng)用場景:分組與基因為多對多關(guān)系,展示高頻突變基因所處的分組;miRNA和靶基因的關(guān)系;人群按性別、年齡、家族史等特征分組,展示不同分組得**的規(guī)律。
數(shù)據(jù)要求:
多個分組及其關(guān)系,包括且不限于基因表達(dá)、突變。
下游分析:
1. 補(bǔ)充展示部分的已有相關(guān)研究
2. 解釋展示部分對研究課題的意義 乳腺類疾病預(yù)后相關(guān)信性基因突變研究數(shù)據(jù)包。重慶文章成稿指導(dǎo)數(shù)據(jù)科學(xué)服務(wù)
GSVA算法接受的輸入為基因表達(dá)矩陣(經(jīng)過log2標(biāo)準(zhǔn)化的芯片數(shù)據(jù)或者RNA-seqcount數(shù)數(shù)據(jù))以及特定基因集。**步,算法會對表達(dá)數(shù)據(jù)進(jìn)行核密度估計;第二部,基于**步的結(jié)果對樣本進(jìn)行表達(dá)水平排序;第三步,對于每一個基因集進(jìn)行類似K-S檢驗的秩統(tǒng)計量計算;第四步,獲取GSVA富集分?jǐn)?shù)。**終輸出為以每個基因集對應(yīng)每個樣本的數(shù)據(jù)矩陣。無監(jiān)督算法無監(jiān)督算法常常被用于數(shù)據(jù)挖掘,用于在大量無標(biāo)簽數(shù)據(jù)中發(fā)現(xiàn)些什么。它的訓(xùn)練數(shù)據(jù)是無標(biāo)簽的,訓(xùn)練目標(biāo)是能對觀察值進(jìn)行分類或區(qū)分等。核密度估計核密度估計(kerneldensityestimation)在概率論中用來估計未知的密度函數(shù),屬于非參數(shù)檢驗方法之一。數(shù)據(jù)要求1、特定感興趣的基因集(如信號通路,GO條目等),列出基因集中基因2、基因表達(dá)矩陣,為經(jīng)過log2標(biāo)準(zhǔn)化的芯片數(shù)據(jù)或者RNA-seqcount數(shù)數(shù)據(jù)(基因名形式與基因集對應(yīng))下游分析1、基因集(如信號通路)的生存分析2、基因集(如信號通路)的差異表達(dá)分析3、基因集。 湖北算法還原與開發(fā)數(shù)據(jù)科學(xué)共同合作做數(shù)據(jù)分析就找云生物。
下游分析針對LASSO獲得的基因模型(或稱基因Panel)的驗證:1.計算風(fēng)險指數(shù)RiskScore2.繪制ROC曲線、DCA曲線、列線圖進(jìn)行驗證3.繪制生KM存曲線對基因模型中的基因進(jìn)行解釋和分析:1.基因注釋2.靶向藥物分析應(yīng)用示例:文獻(xiàn)1:PrognosticandpredictivevalueofamicroRNAsignatureinstageIIcoloncancer:amicroRNAexpressionanalysis.于2013年12月發(fā)表在LancetOncol.,影響因子。一個miRNA特征集在stageII結(jié)腸*的預(yù)后預(yù)測作用分析文章對stageII結(jié)腸*組織和*旁正常組織的miRNA芯片數(shù)據(jù)進(jìn)行了差異表達(dá)分析,并通過LASSOCox回歸對獲得的差異表達(dá)miRNA進(jìn)行篩選,獲得了6個miRNA的可以預(yù)測預(yù)后情況的miRNA特征集。文獻(xiàn)2:PrognosticValueofaBCSC-associatedMicroRNASignatureinHormoneReceptor-PositiveHER2-NegativeBreastCancer(于2016年9月發(fā)表在EBioMedicine.上,影響因子)文章將符合條件的患者劃分為訓(xùn)練集和測試集,首先分析獲得了**干細(xì)胞相關(guān)的miRNA,接著通過LASSO對**干細(xì)胞相關(guān)的miRNA進(jìn)行篩選,構(gòu)建了10個miRNA的預(yù)后預(yù)測模型,并計算風(fēng)險指數(shù)繪制了生存曲線和ROC曲線。
術(shù)語解讀:PPI:蛋白質(zhì)-蛋白質(zhì)相互作用(protein-proteininteraction)PPImoduleI:指蛋白質(zhì)相互作用模塊,一個模塊指向一個功能數(shù)據(jù)要求:基因列表應(yīng)用示例1:(于2018年3月發(fā)表在Immunity.,影響因子)T細(xì)胞活化過程中產(chǎn)生蛋白質(zhì)組進(jìn)行多重定量分析,然后對差異表達(dá)蛋白權(quán)重聚類,并將聚類蛋白疊加到PPI網(wǎng)絡(luò)上以識別功能模塊。D.模塊大小的分布,通過將每個WPC(權(quán)重聚類結(jié)果)中的蛋白疊加到蛋白-蛋白相互作用(PPI)網(wǎng)絡(luò)上識別模塊。每個模塊的蛋白質(zhì)數(shù)量顯示出來。E.各個模塊及其交互的關(guān)系圖。圓圈(節(jié)點)表示90個模塊,圓圈大小與模塊大小成比例。邊連接共享PPIs的模塊。在(F)和(G)中進(jìn)一步擴(kuò)展了裝箱模塊。F.來自WPC3的細(xì)胞質(zhì)和線粒體核糖體的四個互連模塊。顯示了蛋白質(zhì)的名稱和每個模塊的代表性功能術(shù)語。G.來自WPC3的蛋白酶體,OXPHOS和線粒體復(fù)合物IV途徑的模塊。 提供語言潤色、圖表調(diào)整、格式修改等工作模塊。
STEM基因表達(dá)趨勢分析數(shù)據(jù)要求表達(dá)譜芯片或測序數(shù)據(jù)(已經(jīng)過預(yù)處理)下游分析得到***富集的時間表達(dá)模式之后的分析有:1.時間表達(dá)模式中基因的功能富集2.時間表達(dá)模式中基因表達(dá)與性狀之間的相關(guān)性挖掘模塊的關(guān)鍵信息:1.找到時間表達(dá)模式中的**基因2.利用關(guān)系預(yù)測該時間表達(dá)模式功能文獻(xiàn)1:DynamicEBF1occupancydirectssequentialepigeneticandtranscriptionaleventsinB-cellprogramming(于2018年1月發(fā)表在GenesDev.,影響因子)EBF1動態(tài)占據(jù)在B細(xì)胞中對序列表觀遺傳和轉(zhuǎn)錄過程的影響該文獻(xiàn)采用基因表達(dá)趨勢分析,探尋了EBF1誘導(dǎo)前后25kb轉(zhuǎn)錄起始位點內(nèi)基因轉(zhuǎn)錄水平的差異,來尋找EBF1對特定功能基因的影響以及造成影響的時間節(jié)點。文獻(xiàn)2:ComprehensivetranscriptionalprofilingofNaCl-stressedArabidopsisrootsrevealsnovelclassesofresponsivegenes(于2016年10月發(fā)表在BMCPlantBiol.,影響因子)該文獻(xiàn)采用基因表達(dá)趨勢分析,研究了高濃度鹽水作用不同時間下擬南芥根的基因表達(dá)差異,來探尋在遇到高濃度鹽水時擬南芥在基因?qū)用嫔系膽?yīng)對方式。 文稿投稿2個月online 發(fā)表。數(shù)據(jù)庫建設(shè)數(shù)據(jù)科學(xué)共同合作
采用機(jī)器學(xué)習(xí)算法對疾病的干性指數(shù)進(jìn)行分型分類研究。重慶文章成稿指導(dǎo)數(shù)據(jù)科學(xué)服務(wù)
CNV(拷貝數(shù)變異分析):CNV(copy-numbervariant)是指拷貝數(shù)目變異,也稱拷貝數(shù)目多態(tài)性(copy-numberpolymorphism,CNP),是一個大小介于1kb至3MB的DN**段的變異,在人類及動植物基因組中***分布,主要表現(xiàn)為亞顯微水平的缺失或重復(fù)。CNV是近年來基因組學(xué)的研究熱點,是許多人類疾病(如**、遺傳性疾病、心血管疾病等)發(fā)***展的重要分子機(jī)制之一。CNV的分析多見于易于發(fā)生染色體結(jié)構(gòu)變異的**研究中,也可用于復(fù)雜的神經(jīng)精神疾病的病因?qū)W研究,如智力障礙、帕金森病和孤獨(dú)癥等,也可用于其他疾病的易感性分析,如銀屑病、克羅恩病和一些自身免疫系統(tǒng)疾病。CNV研究既可用于單個的病例分析,找到遺傳高度異質(zhì)性的個體致病的遺傳學(xué)基礎(chǔ),如智力低下的病因診斷;也可用于大量的病例一對照分析,患病群體的常見CNV變異研究,還可用于**家系的研究,如疾病相關(guān)新發(fā)CNV的研究。基本原理目前主流的CNV檢驗方法有RNA-seq和SNPArray,已有研究表明使用轉(zhuǎn)錄組數(shù)據(jù)分析到的CNV情況和。CNV分析的**步為篩選somaticCNVs。對正常人來說,基因組應(yīng)該是二倍體的,所以凡是測到非2倍體的地方都是CNV。但是CNV本身就是人群遺傳物質(zhì)多樣性的體現(xiàn),所以對**樣本來說。 重慶文章成稿指導(dǎo)數(shù)據(jù)科學(xué)服務(wù)