柚子快報(bào)激活碼778899分享:生物信息學(xué) GO、KEGG
柚子快報(bào)激活碼778899分享:生物信息學(xué) GO、KEGG
文章目錄
北大基因本體論分子通路KEGGGO注釋分子通路鑒定
關(guān)于同源 相似性
b站鏈接:北大課程 概述了當(dāng)前生物信息學(xué)領(lǐng)域中幾個(gè)重要的概念和工具,介紹基因本體論(Gene Ontology, GO)、分子通路知識(shí)庫(kù)KEGG(Kyoto Encyclopedia of Genes and Genomes)以及分子通路鑒定和GO注釋的過程。 首先從北京大學(xué)生物信息學(xué)團(tuán)隊(duì)的研究工作講起,解釋了基因本體論的框架,它是一套用于表示基因產(chǎn)品屬性的控制詞匯表。然深入探討了KEGG數(shù)據(jù)庫(kù)如何系統(tǒng)地整合了生物化學(xué)通路和分子交互網(wǎng)絡(luò)的信息。此外,還探討了GO注釋的重要性,它是指將基因本體論的術(shù)語(yǔ)分配給基因產(chǎn)品以描述其特性的過程。文章解釋了分子通路的鑒定如何幫助科學(xué)家理解復(fù)雜的生物學(xué)過程和疾病機(jī)理。
北大
基因本體論
當(dāng)時(shí)不同的生物測(cè)序,同源基因?qū)Σ簧?,于是大家商討著確定一套體系
在信息科學(xué)中,ontology 是對(duì)特定領(lǐng)域的概念和概念之間關(guān)系的一種規(guī)范描述。它通常使用共享詞匯來(lái)定義領(lǐng)域內(nèi)的概念類型、屬性以及這些概念之間的關(guān)系。簡(jiǎn)單來(lái)說(shuō),它是一種數(shù)據(jù)模型,用于組織和整合信息,使其可查詢、可分析。在哲學(xué)中,ontology 是研究存在本質(zhì)、變化、實(shí)在性以及存在的基本類別及其相互關(guān)系的領(lǐng)域。它探討了現(xiàn)實(shí)和存在的基礎(chǔ)框架以及如何理解世界的本質(zhì)。
通信(Communication): 本體可以幫助確保不同團(tuán)隊(duì)或不同學(xué)科領(lǐng)域之間的無(wú)歧義溝通。舉例來(lái)說(shuō),在各種基因組項(xiàng)目中,不同研究組對(duì)基因功能的注釋可能各不相同。使用本體,這些注釋可以統(tǒng)一標(biāo)準(zhǔn)化,確保所有人對(duì)同一術(shù)語(yǔ)有相同理解。計(jì)算(Computation): 本體使知識(shí)可以以計(jì)算機(jī)可處理的形式表示,這意味著文獻(xiàn)和數(shù)據(jù)可以結(jié)構(gòu)化,使得計(jì)算機(jī)程序能夠自動(dòng)執(zhí)行分析。例如,研究人員可以編寫程序來(lái)查詢和分析基因或蛋白質(zhì)的功能,這一過程由本體中定義的結(jié)構(gòu)化知識(shí)支持。模式發(fā)現(xiàn)(Discovery of Patterns): 本體還可以用來(lái)發(fā)現(xiàn)更大規(guī)模的模式和關(guān)聯(lián)。例如,研究人員可以通過本體來(lái)識(shí)別涉及特定基因集的更廣泛的功能分類或代謝途徑,從而提供一個(gè)從局部到整體的視角。這就像從鳥瞰視角看問題,而不僅僅是從地面水平視角看問題。
Gene Ontology (GO)
從剛開始的三家,到現(xiàn)在有二十多家機(jī)構(gòu)參與
三個(gè)部分
這張幻燈片介紹了基因本體論(Gene Ontology, GO)中的三個(gè)主要類別:
分子功能(Molecular Function):指的是基因產(chǎn)品(如蛋白質(zhì))的基本活動(dòng)或任務(wù),比如特定的生化活動(dòng)。例如,某個(gè)蛋白質(zhì)可能具有碳水化合物結(jié)合的功能或ATP酶活性。生物過程(Biological Process):涉及多個(gè)分子功能的集合,這些集合合作實(shí)現(xiàn)某個(gè)寬泛的生物目標(biāo)或目的,如細(xì)胞分裂(有絲分裂)或嘌呤代謝。細(xì)胞組分(Cellular Component):特定的細(xì)胞位置或復(fù)雜體,如亞細(xì)胞結(jié)構(gòu)、位置或大分子復(fù)合體。這可能包括核、端?;騌NA聚合酶II整體等。
使用基因本體論(Gene Ontology, GO)來(lái)描述與色素形成(pigmentation)相關(guān)的生物過程的一個(gè)例子
GO提供了一個(gè)用于描述基因功能和相關(guān)生物學(xué)特性的標(biāo)準(zhǔn)化詞匯。這個(gè)系統(tǒng)中,生物過程、分子功能和細(xì)胞組分是通過有向無(wú)環(huán)圖(Directed Acyclic Graph, DAG)的形式展現(xiàn)的,其中節(jié)點(diǎn)表示GO術(shù)語(yǔ),而邊表示這些術(shù)語(yǔ)之間的關(guān)系。
在這個(gè)例子中,每個(gè)方框代表一個(gè)GO術(shù)語(yǔ),這些術(shù)語(yǔ)描述了色素形成的不同方面,例如:
色素形成過程發(fā)育期間的色素形成調(diào)控色素代謝過程
箭頭表示的是不同術(shù)語(yǔ)之間的關(guān)系,比如某個(gè)過程是另一個(gè)過程的一部分,或者一個(gè)過程是另一個(gè)過程的調(diào)控(正調(diào)控或負(fù)調(diào)控)。GO的這種層級(jí)結(jié)構(gòu)和術(shù)語(yǔ)間的關(guān)系有助于研究人員精確地描述和理解基因產(chǎn)物的功能和它們?cè)谏飳W(xué)中的作用。
如何將像上面的圖**(有向無(wú)環(huán)圖)**存儲(chǔ)進(jìn)電腦 幾種存儲(chǔ)格式
OBO File Format
[Term]idnameNamespace(三大類)defsynonym 同義詞 簡(jiǎn)稱Is_a 從屬于哪些更大的類別 XML
Go:term
go:accessiongo:namego:synonymgo:definitiongo:isaGo:dbxref. 其他數(shù)據(jù)庫(kù)如果也存在,就給出其他數(shù)據(jù)庫(kù)的鏈接
三種relationship
is apart ofregulates 這樣的推斷規(guī)則就讓計(jì)算機(jī)比較方便的處理
目前的GO的規(guī)模(2018年)
可以在官網(wǎng)搜索
分子通路KEGG
Main types of biological pathways:
Metabolic pathways:添加原材料(食物和氧氣),轉(zhuǎn)化成產(chǎn)品(能量、生長(zhǎng)和維修所需的分子)并分配到身體的各個(gè)部分。Gene regulation pathways:根據(jù)外界/自身的情況,調(diào)節(jié)哪些基因多表達(dá)一些,哪些少表達(dá)一些。
確定哪些工廠(基因)應(yīng)當(dāng)在什么時(shí)候開工,生產(chǎn)多少商品(蛋白質(zhì)和RNA) Signal transduction pathways:信號(hào)轉(zhuǎn)導(dǎo)
幫助城市的各個(gè)部分(細(xì)胞)根據(jù)收到的消息(信號(hào)分子)做出反應(yīng),調(diào)整各自的活動(dòng)
最完善的是代謝相關(guān)的通路
每一個(gè)pathway也會(huì)鏈到其他的pathway
重要的就是interactions
PPI
磷酸化(Phosphorylation):一個(gè)蛋白質(zhì)(酶)向另一個(gè)蛋白質(zhì)添加磷酸基團(tuán),通常導(dǎo)致被磷酸化的蛋白質(zhì)活性的增加或減少。去磷酸化(Dephosphorylation):磷酸基團(tuán)從蛋白質(zhì)上移除,這個(gè)過程通常是由另一類酶執(zhí)行的,可以逆轉(zhuǎn)磷酸化的效果。泛素化(Ubiquitination):將泛素(一種小蛋白質(zhì))附加到目標(biāo)蛋白質(zhì)上,通常標(biāo)記蛋白質(zhì)進(jìn)行降解。糖基化(Glycosylation):添加糖基團(tuán)到蛋白質(zhì)上,這可以影響蛋白質(zhì)的穩(wěn)定性、位置和功能。甲基化(Methylation):添加甲基團(tuán)到蛋白質(zhì)上,這種修改可以影響蛋白質(zhì)的活性或相互作用。激活(Activation):使蛋白質(zhì)變得活躍或增強(qiáng)其活性。抑制(Inhibition):降低蛋白質(zhì)的活性或完全停止其功能。間接效應(yīng)(Indirect effect):一個(gè)蛋白質(zhì)對(duì)另一個(gè)蛋白質(zhì)產(chǎn)生的非直接作用,比如通過影響一個(gè)中間分子。狀態(tài)變化(State change):蛋白質(zhì)狀態(tài)的改變,例如從不活躍狀態(tài)到活躍狀態(tài)。結(jié)合/聯(lián)合(Binding/Association):兩個(gè)或多個(gè)蛋白質(zhì)形成穩(wěn)定的復(fù)合物。解離(Dissociation):蛋白質(zhì)復(fù)合物的分離。復(fù)合物(Complex):兩個(gè)或多個(gè)蛋白質(zhì)通過結(jié)合形成的穩(wěn)定結(jié)構(gòu)。
Gene expression relations
酶之間的反應(yīng)
KEGG Pathway File
KGML格式
KEGG Orthology (KO):
KEGG的一個(gè)數(shù)據(jù)庫(kù),存儲(chǔ)“KO”號(hào)主要是對(duì)于不同物種中具有相似功能基因的標(biāo)識(shí)符,更多的是針對(duì)基因KO 提供了一個(gè)標(biāo)準(zhǔn)化的方法來(lái)標(biāo)識(shí)和分類這些基因和蛋白質(zhì),并將它們與 KEGG Pathways 中描述的特定生物化學(xué)過程相關(guān)聯(lián)。
每個(gè) KO 都是一個(gè)編碼特定分子功能的基因或蛋白質(zhì)的集合,在不同物種中,執(zhí)行相同功能的基因或蛋白質(zhì)會(huì)被分配相同的 KO 編號(hào)。在 KEGG Pathways 的上下文中,可以使用 KO 來(lái)標(biāo)識(shí)途徑中涉及的特定基因或蛋白質(zhì),這有助于跨物種比較途徑成分。這種關(guān)聯(lián)是雙向的:一個(gè)特定的 KO 可能參與多個(gè)不同的途徑,而一個(gè)途徑可能涉及多個(gè)不同的 KO。
KO vs GO
基因本體論(Gene Ontology, GO):GO 為基因產(chǎn)品(主要是蛋白質(zhì))的功能提供了一個(gè)結(jié)構(gòu)化的、動(dòng)態(tài)更新的控制詞匯。GO 將基因產(chǎn)品的功能描述為屬于三個(gè)不同領(lǐng)域的屬性:生物過程(biological process)、分子功能(molecular function)和細(xì)胞組分(cellular component)。GO 更多關(guān)注單個(gè)基因產(chǎn)品的特定功能,以及它們?cè)诩?xì)胞內(nèi)外的位置。KEGG:KEGG 關(guān)注的是基因產(chǎn)品參與的整體生物化學(xué)途徑和網(wǎng)絡(luò)。KEGG 提供了對(duì)這些網(wǎng)絡(luò)的圖形表示,強(qiáng)調(diào)了不同基因和蛋白質(zhì)如何協(xié)同工作,影響生物學(xué)功能。KO 系統(tǒng)是 KEGG 用來(lái)標(biāo)準(zhǔn)化和整合這些信息的方式,側(cè)重于跨物種的功能比較。
GO注釋
通過實(shí)驗(yàn)證據(jù),并且人工review過的
通過計(jì)算分析,并通過人工review的
ISO (Inferred from Sequence Orthology): 這是當(dāng)一個(gè)基因產(chǎn)品的功能被推斷出與其他已知功能的基因產(chǎn)品有序列同源性時(shí)使用的。通常涉及比較進(jìn)化上相關(guān)物種之間的基因。ISA (Inferred from Sequence Alignment): 通過序列比對(duì)的方法推斷功能。如果一個(gè)未知功能的蛋白質(zhì)與已知功能的蛋白質(zhì)序列對(duì)齊,那么未知蛋白質(zhì)可能具有類似的功能。ISM (Inferred from Sequence Model): 通過比對(duì)特定的序列模式或序列特征,如保守域或基序,預(yù)測(cè)功能。ISS (Inferred from Sequence or Structural Similarity): 當(dāng)一個(gè)基因產(chǎn)品由于序列或結(jié)構(gòu)相似性被推斷具有某種功能時(shí)使用。這可以基于序列比對(duì)或三維結(jié)構(gòu)的比較。IGC (Inferred from Genomic Context): 根據(jù)基因在基因組中的位置來(lái)推斷功能,例如在同一操作單元中的基因,或基因的鄰近性,可能參與相同的代謝途徑或生物過程。IBA (Inferred from Biological aspect of Ancestor): 當(dāng)一個(gè)功能從一個(gè)祖先物種中推斷出來(lái),并且被認(rèn)為在當(dāng)前物種中仍然存在時(shí)使用。IBD (Inferred from Biological aspect of Descendant): 如果一個(gè)功能可以在下游的物種中觀察到,并且這種功能被推斷在共有的祖先物種中存在,就會(huì)使用這種方法。RCA (Inferred from Reviewed Computational Analysis): 功能推斷是基于經(jīng)過審查的計(jì)算分析,可能涉及多種生物信息學(xué)工具和方法。IKR (Inferred from Key Residues): 相反的推斷,如果序列差不多,但是缺少了關(guān)鍵的殘基,那么就排除該序列具有該功能IRD (Inferred from Rapid Divergence): 當(dāng)一個(gè)基因或蛋白質(zhì)與已知的功能相似,但序列發(fā)生了快速演變,使其在某些位置有顯著差異,可能指示功能上的差異化時(shí)使用。
通過計(jì)算分析但沒有人工review
其他奇怪的
就是說(shuō)一些沒有足夠的證據(jù)的注釋,比如作者在論文中提了一嘴這樣 這是一個(gè)關(guān)于不同物種注釋類型的數(shù)據(jù)統(tǒng)計(jì)
可以看出水果的話,大部分都是實(shí)驗(yàn)得到的和經(jīng)過人工review注釋,計(jì)算機(jī)推測(cè)的比較少而對(duì)于豬的話,就是計(jì)算機(jī)推測(cè)的還沒經(jīng)過人工review的占比比較大
分子通路鑒定
當(dāng)時(shí)老師課題組的一個(gè)工作
給基因注釋上通路(有時(shí)候能注釋到8 90% 有時(shí)候一半都不到)
KO
存儲(chǔ)了KEGG里pathway的表存儲(chǔ)了KEGG里KO的表存儲(chǔ)了KO對(duì)應(yīng)pathway的表 Gene
存儲(chǔ)了gene對(duì)應(yīng)pathway的表 (推理出的)存儲(chǔ)了ko對(duì)應(yīng)gene的表(推理出的)存儲(chǔ)了genes的信息
大概的思路,是query的gene序列,跟KEGG 里的genes做blast,相似度高的,進(jìn)行一個(gè)mapping。就是query對(duì)應(yīng)到KEGG里的gene的KO,然后再?gòu)腒O對(duì)應(yīng)到pathway
哪些通路是sigificant的
很多時(shí)候由于實(shí)驗(yàn),數(shù)據(jù)是帶有噪聲的,即數(shù)據(jù)中存在由測(cè)量誤差、實(shí)驗(yàn)條件或其他非相關(guān)生物學(xué)過程導(dǎo)致的變異,因此需要統(tǒng)計(jì)方法來(lái)確定哪些結(jié)果是真正具有生物學(xué)意義的。
Most frequent pathway Most enriched pathway 通路富集
對(duì)于某一個(gè)通路(一個(gè)一個(gè)看),研究的一個(gè)基因組中,所有能注釋到的基因稱為“background”評(píng)估自己實(shí)驗(yàn)條件下的這些基因在通路中的概率,跟background中所有基因落在通路中的概率,比較這二者,算p值 其實(shí)就是一個(gè)抽樣問題,用超幾何分布來(lái)算p值
多假設(shè)檢驗(yàn)矯正 FDR矯正
因?yàn)榍懊媸且粋€(gè)一個(gè)通路去做檢測(cè)的,所以每個(gè)通路判斷的誤差累計(jì)起來(lái)還是不容忽視的,所以這里進(jìn)行一個(gè)多假設(shè)檢驗(yàn)的矯正
如果這個(gè)期望小于0.05,那么認(rèn)為是比較有生物學(xué)意義的
有三類分析方法,這里只介紹了第一種,并且給出了一些分析軟件
關(guān)于同源 相似性
homology
Ortholog直系同源:不同物種的相同功能序列,來(lái)自歷史上同個(gè)祖先
paralog旁系同源:同個(gè)物種,發(fā)生復(fù)制
同源性往往具有相似性,所以我們常常會(huì)根據(jù)相似性去推斷同源性
相似性矩陣
對(duì)于氨基酸
PAM矩陣BLOSUM矩陣
柚子快報(bào)激活碼778899分享:生物信息學(xué) GO、KEGG
相關(guān)鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。