t-SNE(t分布隨機鄰域嵌入)是一種用于探索高維數據的非線性降維算法。它將多維數據映射到適合于人類觀察的兩個或多個維度。t-SNE非線性降維算法通過基于具有多個特征的數據點的相似性識別觀察到的簇來在數據中找到模式。另外t-SNE的輸出可以作為其他分類算法的輸入特征。因為t-SNE算法定義了數據的局部和全局結構之間的軟邊界。t-SNE幾乎可用于所有高維數據集,廣泛應用于圖像處理,自然語言處理和語音處理。在生物信息中可廣泛應用于基因表達數據、基因甲基化數據、基因突變數據等,能夠直觀地對不同數據集進行比較。基本原理從方法上來講,t-SNE本質上是基于流行學習(manifoldlearning)的降維算法,不同于傳統的PCA和MMD等方法,t-SNE在高維用normalizedGaussiankernel對數據點對進行相似性建模。相應的,在低維用t分布對數據點對進行相似性(直觀上的距離)建模,然后用KL距離來拉近高維和低維空間中的距離分布。 檢測服務及數據分析助力取得2020年國自然面上十項、青年基金十八項。湖北成果發表指導數據科學活動
PPImodule蛋白質互作蛋白質-蛋白質相互作用(protein-proteininteraction,PPI)是指兩個或兩個以上的蛋白質分子通過非共價鍵形成蛋白質復合體(proteincomplex)的過程。PPImodule是指共表達蛋白模塊或蛋白質相互作用模塊。蛋白質相互作用形成人體復雜的蛋白質相互作用網絡,對蛋白質相互作用網絡進行聚類形成模塊從而幫助我們理解細胞的功能。我們一般使用PPImodule把基因列表跟蛋白相互作用網絡聯系起來。例如RNA-seq獲得的差異表達基因,看他們在蛋白相互作用網絡中,哪些基因處于同一module。基本原理:蛋白質在細胞中的功能取決于它與其他蛋白質、核酸和小分子相互作用關系,對蛋白質相互作用網絡進行聚類形成模塊,各個蛋白模塊發揮不同的功能,我們將基因列表重疊于模塊上,查找基因列表所在的功能模塊,從而發現基因列表中的基因可能發揮的細胞功能。我們通過PPI數據庫找到共表達蛋白中的module,然后從模塊中篩選出基因列表的產物蛋白,篩選出的結果就是基因列表***表達的PPImodule。 湖北成果發表指導數據科學活動文稿投稿2個月online 發表。
術語解讀:PPI:蛋白質-蛋白質相互作用(protein-proteininteraction)PPImoduleI:指蛋白質相互作用模塊,一個模塊指向一個功能數據要求:基因列表應用示例1:(于2018年3月發表在Immunity.,影響因子)T細胞活化過程中產生蛋白質組進行多重定量分析,然后對差異表達蛋白權重聚類,并將聚類蛋白疊加到PPI網絡上以識別功能模塊。D.模塊大小的分布,通過將每個WPC(權重聚類結果)中的蛋白疊加到蛋白-蛋白相互作用(PPI)網絡上識別模塊。每個模塊的蛋白質數量顯示出來。E.各個模塊及其交互的關系圖。圓圈(節點)表示90個模塊,圓圈大小與模塊大小成比例。邊連接共享PPIs的模塊。在(F)和(G)中進一步擴展了裝箱模塊。F.來自WPC3的細胞質和線粒體核糖體的四個互連模塊。顯示了蛋白質的名稱和每個模塊的代表性功能術語。G.來自WPC3的蛋白酶體,OXPHOS和線粒體復合物IV途徑的模塊。
術語解讀:
TME: Tumormicroenvironment
TMEscore: TMEsignature score(使用PCA算法計算得到,高意味著對病毒和干擾素免疫***和應答敏感。)
PCA:Principal component analysis
CIBERSORT:Cell type identification by estimating relative subset of known RNA transcripts
CYT:Cytolytic activity
EMT:Epithelial-mesenchymal-transition
CR: Completeresponse
PR: Partialresponse
PD:Progressive disease
TMB: Tumormutational burden
數據要求:
各細胞之間的相關關系、pvalue、聚類/分類結果、跟預后的關系表。 與復旦大學問附屬醫院合作,開發人血液外泌體中RNA的數據庫。
sankey
桑基圖(sankey)是一種數據流圖,每條邊**一條數據流,寬度**數據流的大小。一套數據集可能有多重屬性,每層屬性之間有交叉,就可以用這種圖來展示。一般應用場景:分組與基因為多對多關系,展示高頻突變基因所處的分組;miRNA和靶基因的關系;人群按性別、年齡、家族史等特征分組,展示不同分組得**的規律。
數據要求:
多個分組及其關系,包括且不限于基因表達、突變。
下游分析:
1. 補充展示部分的已有相關研究
2. 解釋展示部分對研究課題的意義 糖尿病藥物基因組學分析找到新的作用靶點。湖北成果發表指導數據科學活動
長期與交大、復旦、中科院、南大、藥科大等實驗室合作。湖北成果發表指導數據科學活動
TMB**突變負荷**突變負荷(TMB)作為免疫療法的生物標志物,能夠較好的預測患者免疫***的療效。基于**突變負荷,可以從一種新的角度探尋基因跟免疫及預后的關系。一般應用場景:基于TMB預測不同性狀的免疫***療效、不同基因表達或突變對免疫***潛在的影響。基本原理:**突變負荷(TumorMutationBurden,TMB),通常被定義為一份**樣本中,所評估基因的外顯子編碼區每兆堿基中發生置換和插入/缺失突變的總數。近年許多研究都報道了TMB與PD-1/PD-L1抑制劑的療效高度相關,同時基于TMB進行的臨床研究都得到了較好的結果。這讓一些**患者可以通過TMB標志物對免疫療法的療效進行一定程度的預測。結合TMB,可以從免疫***角度探尋關鍵基因、探究不同亞型**存在的不同發病機制。數據要求:基因突變數據,臨床或其他分類數據。 湖北成果發表指導數據科學活動