柚子快報(bào)激活碼778899分享:InCDE論文翻譯
柚子快報(bào)激活碼778899分享:InCDE論文翻譯
InCDE論文翻譯
Towards Continual Knowledge Graph Embedding via Incremental Distillation
通過增量蒸餾實(shí)現(xiàn)持續(xù)知識圖嵌入
Abstract
傳統(tǒng)的知識圖嵌入(KGE)方法通常需要在新知識出現(xiàn)時(shí)保留整個(gè)知識圖(KG),這會帶來巨大的訓(xùn)練成本。為了解決這個(gè)問題,提出了連續(xù)知識圖嵌入(CKGE)任務(wù),通過有效地學(xué)習(xí)新興知識,同時(shí)保留適當(dāng)?shù)呐f知識來訓(xùn)練 KGE 模型。然而,知識圖譜中的顯式圖結(jié)構(gòu)對于實(shí)現(xiàn)上述目標(biāo)至關(guān)重要,但卻被現(xiàn)有的 CKGE 方法嚴(yán)重忽略。一方面,現(xiàn)有方法通常以隨機(jī)順序?qū)W習(xí)新的三元組,破壞了新知識圖譜的內(nèi)部結(jié)構(gòu)。另一方面,舊的三元組被同等優(yōu)先地保留,未能有效緩解災(zāi)難性遺忘。在本文中,我們提出了一種基于增量蒸餾(IncDE)的CKGE競爭方法,該方法考慮了知識圖譜中顯式圖結(jié)構(gòu)的充分利用。首先,為了優(yōu)化學(xué)習(xí)順序,我們引入了分層策略,對新的三元組進(jìn)行排序以進(jìn)行逐層學(xué)習(xí)。通過一起使用層次間和層次內(nèi)的順序,新的三元組根據(jù)圖結(jié)構(gòu)特征被分組到層中。其次,為了有效地保存舊知識,我們設(shè)計(jì)了一種新穎的增量蒸餾機(jī)制,該機(jī)制有助于實(shí)體表示從上一層到下一層的無縫轉(zhuǎn)移,從而促進(jìn)舊知識的保存。最后,我們采用兩階段訓(xùn)練范式,以避免訓(xùn)練不足的新知識影響舊知識的過度腐敗。實(shí)驗(yàn)結(jié)果證明 IncDE 優(yōu)于最先進(jìn)的基線。值得注意的是,增量蒸餾機(jī)制有助于平均倒數(shù)排名 (MRR) 分?jǐn)?shù)提高 0.2%-6.5%。更多探索性實(shí)驗(yàn)驗(yàn)證了 IncDE 在熟練學(xué)習(xí)新知識同時(shí)在所有時(shí)間步驟中保留舊知識方面的有效性。
Introduction
知識圖嵌入(KGE)旨在以較低的速度將知識圖譜(KG)中的實(shí)體和關(guān)系嵌入到低維空間連續(xù)向量中。這對于各種知識驅(qū)動(dòng)的任務(wù)至關(guān)重要,例如問答、語義搜索和關(guān)系提取。傳統(tǒng)的 KGE 模型僅關(guān)注于獲取靜態(tài)知識圖譜中實(shí)體和關(guān)系的嵌入。然而,現(xiàn)實(shí)世界的知識圖譜不斷發(fā)展,特別是不斷出現(xiàn)的新知識,例如新的三元組、實(shí)體和關(guān)系。例如,在 DBpedia 從 2016 年到 2018 年的演變過程中,出現(xiàn)了約 100 萬個(gè)新實(shí)體、2,000 個(gè)新關(guān)系和 2000 萬個(gè)新三元組 (DBpedia 2021)。傳統(tǒng)上,當(dāng)知識圖譜發(fā)生演化時(shí),KGE模型需要用整個(gè)知識圖譜重新訓(xùn)練模型,這是一個(gè)不簡單的過程,訓(xùn)練成本巨大。在生物醫(yī)學(xué)和金融等領(lǐng)域,更新KGE模型以通過快速發(fā)展的KG(尤其是大量新知識)支持醫(yī)療援助和明智的市場決策具有重要意義。
為此,人們提出了連續(xù) KGE(CKGE)任務(wù),通過僅使用新興知識進(jìn)行學(xué)習(xí)來緩解這一問題。與傳統(tǒng)的KGE相比,CKGE的關(guān)鍵在于學(xué)好新興知識,同時(shí)有效保存舊知識。如圖1所示,需要學(xué)習(xí)新的實(shí)體和關(guān)系(即新的實(shí)體a、b和c)以適應(yīng)新的KG。同時(shí),舊KG中的知識(例如舊實(shí)體d)應(yīng)該被保留。一般來說,現(xiàn)有的 CKGE 方法可以分為三個(gè)系列:基于動(dòng)態(tài)架構(gòu)的方法、基于重播的方法和基于正則化的方法。 基于動(dòng)態(tài)架構(gòu)的方法保留所有舊參數(shù)并通過新架構(gòu)學(xué)習(xí)新興知識。然而,保留所有舊參數(shù)會阻礙舊知識對新知識的適應(yīng)。基于重放的方法,重放KG子圖來記住舊知識,但僅回憶一部分子圖會導(dǎo)致整個(gè)舊圖結(jié)構(gòu)的破壞 。基于正則化的方法旨在通過添加正則化項(xiàng)來保留舊知識。然而,僅向舊參數(shù)添加正則化項(xiàng)使得無法很好地捕獲新知識。
圖 1:不斷增長的 KG 的圖示。應(yīng)考慮兩個(gè)特定的學(xué)習(xí)順序:應(yīng)優(yōu)先考慮更接近舊KG的實(shí)體(a優(yōu)先于b);應(yīng)優(yōu)先考慮對新三元組影響較大的實(shí)體(例如與更多關(guān)系連接)(a 優(yōu)先于 c)。
盡管取得了有希望的有效性,但由于 KG 的顯式圖結(jié)構(gòu)被嚴(yán)重忽視,當(dāng)前的 CKGE 方法仍然表現(xiàn)不佳。同時(shí),之前的研究強(qiáng)調(diào)了圖結(jié)構(gòu)在解決圖相關(guān)持續(xù)學(xué)習(xí)任務(wù)中的關(guān)鍵作用。具體來說,現(xiàn)有的 CKGE 方法存在兩個(gè)主要缺點(diǎn):(1)首先,對于新出現(xiàn)的知識,當(dāng)前的 CKGE 方法利用隨機(jī)順序?qū)W習(xí)策略,忽略了知識圖譜中不同三元組的重要性。先前的研究表明,實(shí)體和關(guān)系的學(xué)習(xí)順序可以顯著影響圖的持續(xù)學(xué)習(xí)。由于知識圖譜中的知識是以圖結(jié)構(gòu)組織的,因此隨機(jī)學(xué)習(xí)順序可能會破壞知識圖譜傳達(dá)的固有語義。因此,為了有效的學(xué)習(xí)和傳播,必須考慮新實(shí)體和關(guān)系的優(yōu)先級。圖 1 說明了一個(gè)示例,其中實(shí)體 a 應(yīng)該在實(shí)體 b 之前學(xué)習(xí),因?yàn)?b 的表示是通過舊 KG 中的 a 傳播的。(2)其次,對于舊知識,當(dāng)前的CKGE方法將記憶視為同等水平,導(dǎo)致災(zāi)難性遺忘的處理效率低下。現(xiàn)有研究表明,通過拓?fù)浣Y(jié)構(gòu)中重要節(jié)點(diǎn)的正則化或蒸餾來保存知識對于連續(xù)圖學(xué)習(xí)至關(guān)重要。 因此,具有更本質(zhì)的圖結(jié)構(gòu)特征的舊實(shí)體應(yīng)該獲得更高的保存優(yōu)先級。在圖 1 中,與實(shí)體
c
c
c 相比,連接更多其他實(shí)體的實(shí)體
a
a
a 應(yīng)優(yōu)先在時(shí)間
i
+
1
i + 1
i+1 保存。
在本文中,我們提出了 IncDE,這是一種利用增量蒸餾的 CKGE 任務(wù)的新方法。IncDE旨在增強(qiáng)學(xué)習(xí)新興知識的能力,同時(shí)有效地保存舊知識。首先,我們采用層次排序來確定新三元組的最佳學(xué)習(xí)序列。這涉及將三元組劃分為層并通過層次間和層次內(nèi)的順序?qū)λ鼈冞M(jìn)行排序。隨后,有序的新興知識被逐層學(xué)習(xí)。其次,我們引入了一種新穎的增量蒸餾機(jī)制,以有效地考慮圖結(jié)構(gòu)來保留舊知識。該機(jī)制結(jié)合了顯式圖結(jié)構(gòu),并采用逐層范式來提取實(shí)體表示。最后,我們使用兩階段訓(xùn)練策略來改善舊知識的保存。在第一階段,我們修復(fù)舊實(shí)體和關(guān)系的表示。在第二階段,我們訓(xùn)練所有實(shí)體和關(guān)系的表示,保護(hù)舊知識圖譜免受訓(xùn)練不足的新興知識的干擾。
為了評估 IncDE 的有效性,我們構(gòu)建了三個(gè)具有不同規(guī)模的新知識圖譜的新數(shù)據(jù)集。對現(xiàn)有和新的數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn)。結(jié)果表明 IncDE 優(yōu)于所有強(qiáng)基線。此外,消融實(shí)驗(yàn)表明增量蒸餾可以顯著提高性能。進(jìn)一步的探索性實(shí)驗(yàn)驗(yàn)證了 IncDE 有效學(xué)習(xí)新興知識同時(shí)有效保存舊知識的能力。
總結(jié)起來,本文的貢獻(xiàn)有三方面:
我們提出了一種新穎的連續(xù)知識圖嵌入框架 IncDE,它通過顯式圖結(jié)構(gòu)有效地學(xué)習(xí)和保存知識。我們提出分層排序以獲得適當(dāng)?shù)膶W(xué)習(xí)順序,以便更好地學(xué)習(xí)新興知識。此外,我們提出了增量蒸餾和兩階段訓(xùn)練策略來保存良好的舊知識。我們根據(jù)新知識的規(guī)模變化構(gòu)建了三個(gè)新數(shù)據(jù)集。 實(shí)驗(yàn)表明 IncDE 的性能優(yōu)于強(qiáng)基線。值得注意的是,增量蒸餾將 MRR 提高了 0.2%-6.5%。
Related Work
與傳統(tǒng)的 KGE 不同,CKGE允許 KGE 模型 在記住舊知識的同時(shí)學(xué)習(xí)新知識。 現(xiàn)有的CKGE方法可以分為三類。(1)基于動(dòng)態(tài)架構(gòu)的方法:動(dòng)態(tài)適應(yīng)新的神經(jīng)資源,以改變架構(gòu)屬性以響應(yīng)新信息并保留舊參數(shù)。(2)基于記憶回復(fù)的方法:通過重播來保留學(xué)到的知識。 (3)基于正則化的方法:通過對更新神經(jīng)權(quán)重施加約束來減輕災(zāi)難性遺忘。然而,這些方法忽視了以適當(dāng)?shù)捻樞驅(qū)W習(xí)圖數(shù)據(jù)新知識的重要性。而且,他們忽視了如何保存適當(dāng)?shù)呐f知識,以便更好地融合新舊知識。CKGE 的幾個(gè)數(shù)據(jù)集已經(jīng)構(gòu)建。然而,它們中的大多數(shù)限制新三元組至少包含一個(gè)舊實(shí)體,而忽略了沒有舊實(shí)體的三元組。 在 Wikipedia 和 Yago等現(xiàn)實(shí)世界 KG 的演變中,出現(xiàn)了許多新的三元組,而沒有任何舊實(shí)體。
Preliminary and Problem Statement
Growing Knowledge Graph
知識圖譜 (KG)
G
=
(
E
,
R
,
T
)
\mathcal{G} = (\mathcal{E},\mathcal{R},\mathcal{T})
G=(E,R,T)包含實(shí)體
E
\mathcal{E}
E、關(guān)系
R
\mathcal{R}
R 和三元組
T
\mathcal{T}
T 的集合。三元組可以表示為
(
h
,
r
,
t
)
∈
T
(h,r,t) \in \mathcal{T}
(h,r,t)∈T,其中
h
,
r
,
t
h, r,t
h,r,t 分別表示頭實(shí)體、關(guān)系和尾實(shí)體。當(dāng)知識圖譜隨著時(shí)間
i
i
i 的新興知識而增長時(shí),它被表示為
G
i
=
(
E
i
,
R
i
,
T
i
)
\mathcal{G}_{i} = (\mathcal{E}_{i},\mathcal{R}_{i},\mathcal{T}_{i})
Gi?=(Ei?,Ri?,Ti?),其中
E
i
,
R
i
,
T
i
\mathcal{E}_{i},\mathcal{R}_{i},\mathcal{T}_{i}
Ei?,Ri?,Ti? 是
G
i
\mathcal{G}_{i}
Gi? 中實(shí)體、關(guān)系和三元組的集合。此外,我們分別將
Δ
T
i
=
T
i
?
T
i
?
1
\Delta\mathcal{T}_{i} = \mathcal{T}_{i}-\mathcal{T}_{i-1}
ΔTi?=Ti??Ti?1?、
Δ
E
i
=
E
i
?
E
i
?
1
\Delta\mathcal{E}_{i} = \mathcal{E}_{i}-\mathcal{E}_{i-1}
ΔEi?=Ei??Ei?1? 和
Δ
R
i
=
R
i
?
R
i
?
1
\Delta\mathcal{R}_{i} = \mathcal{R}_{i} - \mathcal{R}_{i-1}
ΔRi?=Ri??Ri?1? 表示為新的三元組、實(shí)體和關(guān)系。
Continual Knowledge Graph Embedding
給定一個(gè)知識圖譜
G
\mathcal G
G,知識圖嵌入(KGE)旨在將實(shí)體和關(guān)系嵌入到低維向量空間
R
\mathbb R
R 中。給定頭實(shí)體
h
∈
E
h\in\mathcal{E}
h∈E,關(guān)系
r
∈
R
r\in\mathcal{R}
r∈R 和尾實(shí)體
t
∈
E
t\in\mathcal{E}
t∈E,它們的嵌入表示為
h
∈
R
d
\mathbf{h}\in\mathbb{R}^3ih7pjjnjzpn
h∈Rd、
r
∈
R
d
\mathbf{r}\in\mathbb{R}^3ih7pjjnjzpn
r∈Rd 和
t
∈
R
d
\mathbf{t}\in\mathbb{R}^3ih7pjjnjzpn
t∈Rd,其中
d
d
d 是嵌入大小。典型的 KGE 模型包含嵌入層和評分函數(shù)。嵌入層生成實(shí)體和關(guān)系的向量表示,而評分函數(shù)在訓(xùn)練階段為每個(gè)三元組分配分?jǐn)?shù)。
給定時(shí)間
i
i
i 不斷增長的知識圖譜
G
i
\mathcal G_i
Gi?,連續(xù)知識圖嵌入(CKGE)旨在更新舊實(shí)體
E
i
?
1
\mathcal{E}_{i-1}
Ei?1? 和關(guān)系
R
i
?
1
\mathcal{R}_{i-1}
Ri?1? 的嵌入,同時(shí)獲得新實(shí)體
Δ
E
i
\Delta\mathcal{E}_{i}
ΔEi? 和關(guān)系
Δ
R
i
\Delta\mathcal{R}_{i}
ΔRi? 的嵌入。最后,獲得所有實(shí)體
E
i
\mathcal{E}_{i}
Ei? 和關(guān)系
R
i
\mathcal{R}_{i}
Ri? 的嵌入。
Methodology
Framework Overview
IncDE 的框架如圖 2 所示。最初,當(dāng)新興知識在時(shí)間
i
i
i 出現(xiàn)時(shí),IncDE 對新三元組
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi? 執(zhí)行分層排序。具體來說,采用層次間排序,使用舊圖
G
i
?
1
\mathcal{G}_{i-1}
Gi?1? 的廣度優(yōu)先搜索 (BFS) 擴(kuò)展將
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi? 劃分為多個(gè)層。 隨后,在每一層內(nèi)應(yīng)用分層內(nèi)排序以進(jìn)一步對三元組進(jìn)行排序和劃分。 然后,對分組的
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi? 進(jìn)行逐層訓(xùn)練,
E
i
?
1
\mathcal E_{i?1}
Ei?1? 和
R
i
?
1
\mathcal R_{i?1}
Ri?1? 的嵌入繼承自前次
i
?
1
i?1
i?1 的 KGE 模型。在訓(xùn)練過程中,引入了增量蒸餾。準(zhǔn)確地說,如果第
j
j
j 層中的實(shí)體已出現(xiàn)在前一層中,則其表示形式將使用與當(dāng)前層最接近的層進(jìn)行提取。此外,還提出了兩階段訓(xùn)練策略。在第一階段,僅訓(xùn)練新實(shí)體
Δ
E
i
\Delta\mathcal{E}_{i}
ΔEi? 和關(guān)系
Δ
R
i
\Delta\mathcal{R}_{i}
ΔRi? 的表示。在第二階段,所有實(shí)體
E
i
\mathcal{E}_{i}
Ei?和關(guān)系
R
i
\mathcal{R}_{i}
Ri?在訓(xùn)練過程中得到訓(xùn)練。最后,得到第
i
i
i 時(shí)刻
E
i
\mathcal{E}_{i}
Ei? 和
R
i
\mathcal{R}_{i}
Ri? 的嵌入。
Hierarchical Ordering
為了增強(qiáng)對新興知識的圖結(jié)構(gòu)的學(xué)習(xí),我們首先根據(jù)實(shí)體和關(guān)系的重要性,以層次間和層次內(nèi)的方式對時(shí)間
i
i
i 的三元組
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi? 進(jìn)行排序,如圖 2 所示。可以預(yù)先計(jì)算以減少訓(xùn)練時(shí)間。然后,我們按順序逐層學(xué)習(xí)新的三元組
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi?。具體排序策略如下。
層次間排序 對于層次間排序**,**我們在時(shí)間
i
i
i 將所有新三元組
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi? 拆分為多個(gè)層
l
1
,
l
2
,
.
.
.
,
l
n
l_{1},l_{2},...,l_{n}
l1?,l2?,...,ln?。由于新實(shí)體
Δ
E
i
\Delta\mathcal{E}_{i}
ΔEi? 的表示是從舊實(shí)體
E
i
?
1
\mathcal E_{i?1}
Ei?1? 和舊關(guān)系
R
i
?
1
\mathcal R_{i?1}
Ri?1? 的表示傳播的,因此我們根據(jù)新實(shí)體
Δ
E
i
\Delta\mathcal{E}_{i}
ΔEi? 和舊圖
G
i
?
1
\mathcal G_{i?1}
Gi?1? 之間的距離分割新三元組
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi? 。我們使用面包優(yōu)先搜索(BFS)算法逐步將
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi? 與
G
i
?
1
\mathcal G_{i?1}
Gi?1? 分開。首先,我們將舊圖設(shè)為
l
0
l_0
l0?。 然后,我們將所有包含舊實(shí)體的新三元組作為下一層,
l
1
l_1
l1?。接下來,我們將
l
1
l_1
l1? 中的新實(shí)體視為看到的舊實(shí)體。重復(fù)上述兩個(gè)過程,直到?jīng)]有三元組可以添加到新層中。 最后,我們使用所有剩余的三元組作為最后一層。這樣,我們首先將所有新的三元組
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi? 分為多層。
圖結(jié)構(gòu)中三元組的重要性對于實(shí)體
E
i
\mathcal E_{i}
Ei? 和關(guān)系
R
i
\mathcal R_{i}
Ri? 在時(shí)間
i
i
i 學(xué)習(xí)或更新的順序也至關(guān)重要。因此對于每一層的三元組,我們根據(jù)圖結(jié)構(gòu)中實(shí)體和關(guān)系的重要性進(jìn)一步對它們進(jìn)行排序,如圖2(a)所示。為了衡量實(shí)體
E
i
\mathcal E_{i}
Ei? 在新三元組
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi? 中的重要性,我們首先計(jì)算實(shí)體
e
∈
E
i
e\in\mathcal{E}_{i}
e∈Ei? 的節(jié)點(diǎn)中心性為
f
n
c
(
e
)
f_{nc}(e)
fnc?(e),如下所示:
f
n
c
(
e
)
=
f
n
e
i
g
h
b
o
r
(
e
)
N
?
1
(
1
)
f_{nc}(e)=\frac{f_{neighbor}(e)}{N-1}\quad\quad\quad(1)
fnc?(e)=N?1fneighbor?(e)?(1)
其中
f
n
e
i
g
h
b
o
r
(
e
)
f_{neighbor}(e)
fneighbor?(e) 表示
e
e
e 的鄰居數(shù)量,
N
N
N 表示在時(shí)間
i
i
i 時(shí)新三元組
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi? 中的實(shí)體數(shù)量。然后,為了衡量關(guān)系
R
i
\mathcal R_{i}
Ri? 在每層三元組中的重要性,我們將關(guān)系
r
∈
R
i
r\in\mathcal R_{i}
r∈Ri? 的介數(shù)中心性計(jì)算為
f
b
c
(
r
)
f_{bc}(r)
fbc?(r):
f
b
c
(
r
)
=
∑
s
,
t
∈
E
i
,
s
≠
t
σ
(
s
,
t
∣
r
)
σ
(
s
,
t
)
(
2
)
f_{bc}(r)=\sum_{s,t\in\mathcal{E}_{i},s\neq t}\frac{\sigma(s,t|r)}{\sigma(s,t)}\quad\quad\quad(2)
fbc?(r)=s,t∈Ei?,s=t∑?σ(s,t)σ(s,t∣r)?(2)
其中
σ
(
s
,
t
)
\sigma(s, t)
σ(s,t) 是新三元組
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi? 中
s
s
s 和
t
t
t 之間的最短路徑的數(shù)量,
σ
(
s
,
t
∣
r
)
\sigma(s,t|r)
σ(s,t∣r) 是經(jīng)過關(guān)系
r
r
r 的
σ
(
s
,
t
)
\sigma(s, t)
σ(s,t) 的數(shù)量。具體來說,我們只計(jì)算新興KG的
f
n
c
f_{nc}
fnc? 和
f
b
c
f_{bc}
fbc?,避免圖表過多。為了獲得三元組
(
h
,
r
,
t
)
(h,r,t)
(h,r,t)在每一層中的重要性,我們計(jì)算該三元組中頭實(shí)體
h
h
h 的節(jié)點(diǎn)中心性、尾實(shí)體
t
t
t 的節(jié)點(diǎn)中心性以及關(guān)系
r
r
r 的介數(shù)中心性??紤]到圖結(jié)構(gòu)中實(shí)體和關(guān)系的整體重要性,我們一起采用
f
n
c
f_{nc}
fnc? 和
f
b
c
f_{bc}
fbc?。 每個(gè)三元組的最終重要性可以計(jì)算為:
I
T
(
h
,
r
,
t
)
=
m
a
x
(
f
n
c
(
h
)
,
f
n
c
(
t
)
)
+
f
b
c
(
r
)
(
3
)
IT_{(h,r,t)}=max(f_{nc}(h),f_{nc}(t))+f_{bc}(r)\quad(3)
IT(h,r,t)?=max(fnc?(h),fnc?(t))+fbc?(r)(3)
我們根據(jù)
I
T
IT
IT 值對每一層的三元組進(jìn)行排序。分層內(nèi)排序的利用保證了對每層圖結(jié)構(gòu)重要的三元組的優(yōu)先級。反過來,這可以更有效地學(xué)習(xí)新圖的結(jié)構(gòu)。
此外,層次內(nèi)排序可以幫助進(jìn)一步拆分層內(nèi)三元組,如圖 2 (b) 所示。由于每層中的三元組數(shù)量由新圖的大小決定,因此它可能太大而無法學(xué)習(xí)。為了防止特定層中的三元組數(shù)量過多,我們將每層中的三元組的最大數(shù)量設(shè)置為
M
M
M。如果一層中的三元組數(shù)量超過
M
M
M,則可以分割成不超過
M
M
M個(gè)三元組的若干層 在層次結(jié)構(gòu)內(nèi)部的排序中。
Distillation and Training
分層排序后,我們在時(shí)間
i
i
i 逐層訓(xùn)練新的三元組
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi?。我們采用 TransE 作為基本 KGE 模型。當(dāng)訓(xùn)練第
j
j
j 層
(
j
>
0
)
(j > 0)
(j>0)時(shí),原始 TransE 模型的損失為:
L
c
k
g
e
=
∑
(
h
,
r
,
t
)
∈
l
j
m
a
x
(
0
,
f
(
h
,
r
,
t
)
?
f
(
h
′
,
r
,
t
′
)
+
γ
)
(
4
)
\mathcal{L}_{ckge}=\sum_{(h,r,t)\in l_j}max(0,f(h,r,t)-f(h',r,t')+\gamma) \quad(4)
Lckge?=(h,r,t)∈lj?∑?max(0,f(h,r,t)?f(h′,r,t′)+γ)(4)
其中
(
h
′
,
r
,
t
′
)
(h',r,t')
(h′,r,t′) 是
(
h
,
r
,
t
)
∈
l
j
(h,r,t) \in l_j
(h,r,t)∈lj? 的負(fù)三元組,而
f
(
h
,
r
,
t
)
=
∣
h
+
r
?
t
∣
L
1
/
L
2
f(h,r,t)=|h+r-t|_{L1/L2}
f(h,r,t)=∣h+r?t∣L1/L2? 是 TransE的得分函數(shù)。我們在時(shí)間
i
?
1
i?1
i?1 時(shí)從 KGE 模型繼承舊實(shí)體
E
i
?
1
\mathcal{E}_{i-1}
Ei?1? 和關(guān)系
R
i
?
1
\mathcal{R}_{i-1}
Ri?1? 的嵌入,并隨機(jī)初始化新實(shí)體
Δ
E
i
\Delta\mathcal{E}_{i}
ΔEi? 和關(guān)系
Δ
R
i
\Delta\mathcal{R}_{i}
ΔRi? 的嵌入。
在訓(xùn)練過程中,我們使用增量蒸餾來保留舊知識。此外,我們提出了一種兩階段訓(xùn)練策略,以防止舊實(shí)體和關(guān)系的嵌入在訓(xùn)練開始時(shí)被過度破壞。
增量蒸餾 為了減輕在先前層中學(xué)習(xí)的實(shí)體的災(zāi)難性遺忘,受到 KGE 模型知識蒸餾的啟發(fā),我們蒸餾了以下實(shí)體表示: 當(dāng)前層與先前層中出現(xiàn)的實(shí)體如圖 2 所示。具體來說,如果第 j (j > 0) 層中的實(shí)體
e
e
e 已出現(xiàn)在先前層中,我們將其與
e
e
e 的表示形式進(jìn)行提取 最近的層。 實(shí)體
e
k
(
k
∈
[
1
,
∣
E
i
∣
]
)
e_k(k\in[1,|\mathcal{E}_i|])
ek?(k∈[1,∣Ei?∣]) 的蒸餾損失為:
L
d
i
s
t
i
l
l
k
=
{
1
2
(
e
′
k
?
e
k
)
2
,
∣
e
′
k
?
e
k
∣
≤
1
∣
e
′
k
?
e
k
∣
?
1
2
,
∣
e
′
k
?
e
k
∣
>
1
(
5
)
\left.\mathcal{L}_{distill}^k=\left\{\begin{array}{ll}\frac{1}{2}(\mathbf{e'}_k-\mathbf{e}_k)^2,&|\mathbf{e'}_k-\mathbf{e}_k|\leq1\\|\mathbf{e'}_k-\mathbf{e}_k|-\frac{1}{2},&|\mathbf{e'}_k-\mathbf{e}_k|>1\end{array}\right.\right.\quad\quad(5)
Ldistillk?={21?(e′k??ek?)2,∣e′k??ek?∣?21?,?∣e′k??ek?∣≤1∣e′k??ek?∣>1?(5)
其中
e
k
e_k
ek? 表示第
j
j
j 層中實(shí)體
e
k
e_k
ek? 的表示,
e
k
′
e^\prime_k
ek′? 表示最近一層的實(shí)體
e
k
e_k
ek? 的表示。通過提煉先前層中出現(xiàn)的實(shí)體,我們可以有效地記住舊知識。然而,不同的實(shí)體對于過去的表征應(yīng)該有不同程度的記憶。圖結(jié)構(gòu)中重要性較高的實(shí)體應(yīng)在蒸餾過程中優(yōu)先考慮并更大程度地保留。除了實(shí)體
f
n
c
f_{nc}
fnc? 的節(jié)點(diǎn)中心性之外,與關(guān)系的介數(shù)中心性類似,我們將實(shí)體
e
e
e 在時(shí)間
i
i
i 的介數(shù)中心性
f
b
c
(
e
)
f_{bc}(e)
fbc?(e) 定義為:
f
b
c
(
e
)
=
∑
s
,
t
∈
E
i
,
s
≠
t
σ
(
s
,
t
∣
e
)
σ
(
s
,
t
)
(
6
)
f_{bc}(e)=\sum_{s,t\in\mathcal{E}_i,s\neq t}\frac{\sigma(s,t|e)}{\sigma(s,t)}\quad\quad(6)
fbc?(e)=s,t∈Ei?,s=t∑?σ(s,t)σ(s,t∣e)?(6)
我們結(jié)合
f
b
c
(
e
)
f_{bc}(e)
fbc?(e) 和
f
n
c
(
e
)
f_{nc}(e)
fnc?(e) 來評估實(shí)體
e
e
e 的重要性。具體來說,在訓(xùn)練第
j
j
j 層時(shí),對于在時(shí)間
i
i
i 出現(xiàn)的每個(gè)新實(shí)體
e
k
e_k
ek?,我們計(jì)算
f
b
c
(
e
k
)
f_{bc}(e_k)
fbc?(ek?)和
f
n
c
(
e
k
)
f_{nc}(e_k)
fnc?(ek?)以獲得初步權(quán)重
λ
k
\lambda_k
λk?為:
λ
k
=
λ
0
?
(
f
b
c
(
e
k
)
+
f
n
c
(
e
k
)
)
(
7
)
\lambda_k=\lambda_0\cdot(f_{bc}(e_k)+f_{nc}(e_k))\quad\quad(7)
λk?=λ0??(fbc?(ek?)+fnc?(ek?))(7)
其中,對于先前層中已出現(xiàn)的新實(shí)體
λ
0
\lambda_0
λ0? 為 1;對于尚未出現(xiàn)的新實(shí)體
λ
0
\lambda_0
λ0? 為 0。同時(shí),我們學(xué)習(xí)一個(gè)矩陣
W
∈
R
1
×
∣
E
i
∣
\mathbf{W}\in\mathbb{R}^{1\times|\mathcal{E}_{i}|}
W∈R1×∣Ei?∣ 動(dòng)態(tài)改變不同實(shí)體的蒸餾損失權(quán)重。 動(dòng)態(tài)蒸餾重量為:
[
λ
1
′
,
λ
2
′
,
.
.
.
,
λ
∣
E
i
∣
′
]
=
[
λ
1
,
λ
2
,
.
.
.
,
λ
∣
E
i
∣
]
°
W
(
8
)
[\lambda_1^{\prime},\lambda_2^{\prime},...,\lambda_{|\mathcal{E}_i|}^{\prime}]=[\lambda_1,\lambda_2,...,\lambda_{|\mathcal{E}_i|}]\circ\mathbf{W}\quad\quad(8)
[λ1′?,λ2′?,...,λ∣Ei?∣′?]=[λ1?,λ2?,...,λ∣Ei?∣?]°W(8)
其中
°
\circ
° 表示 Hadamard 產(chǎn)品。每層
j
j
j 在時(shí)間
i
i
i 的最終蒸餾損失為:
L
d
i
s
t
i
l
l
=
∑
k
=
1
∣
E
i
∣
λ
k
′
?
L
d
i
s
t
i
l
l
k
(
9
)
\mathcal{L}_{distill}=\sum_{k=1}^{|\mathcal{E}_i|}\lambda_k^{^{\prime}}\cdot\mathcal{L}_{distill}^k\quad\quad(9)
Ldistill?=k=1∑∣Ei?∣?λk′??Ldistillk?(9)
當(dāng)訓(xùn)練第
j
j
j層時(shí),最終的損失函數(shù)可以計(jì)算為:
L
f
i
n
a
l
=
L
c
k
g
e
+
L
d
i
s
t
i
l
l
(
10
)
\mathcal{L}_{final}=\mathcal{L}_{ckge}+\mathcal{L}_{distill}\quad\quad(10)
Lfinal?=Lckge?+Ldistill?(10)
經(jīng)過對新三元組
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi?的逐層訓(xùn)練,得到實(shí)體
E
i
\mathcal{E}_{i}
Ei?和關(guān)系
R
i
\mathcal{R}_{i}
Ri?的所有表示。
兩階段訓(xùn)練 在訓(xùn)練過程中,當(dāng)在時(shí)間
i
i
i 將新三元組
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi? 合并到現(xiàn)有圖
G
i
?
1
\mathcal G_{i?1}
Gi?1? 中時(shí),新三元組
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi? 中不存在的舊實(shí)體和關(guān)系的嵌入保持不變。然而,新三元組
Δ
T
i
\Delta\mathcal{T}_{i}
ΔTi? 中包含的舊實(shí)體和關(guān)系的嵌入會被更新。因此,在每個(gè)時(shí)間i的初始階段,舊圖
G
i
?
1
\mathcal G_{i?1}
Gi?1?中實(shí)體
E
i
?
1
\mathcal E_{i?1}
Ei?1?和關(guān)系
R
i
?
1
\mathcal R_{i?1}
Ri?1?的部分表示將被未完全訓(xùn)練的新實(shí)體
Δ
E
i
\Delta\mathcal{E}_{i}
ΔEi?和關(guān)系
Δ
R
i
\Delta\mathcal{R}_{i}
ΔRi?破壞。為了解決這個(gè)問題,IncDE 使用兩階段訓(xùn)練策略來更好地保留舊圖中的知識,如圖 2 所示。在第一個(gè)訓(xùn)練階段,IncDE 凍結(jié)所有舊實(shí)體
E
i
?
1
\mathcal E_{i?1}
Ei?1? 和關(guān)系
R
i
?
1
\mathcal R_{i?1}
Ri?1? 的嵌入并僅訓(xùn)練新實(shí)體
Δ
E
i
\Delta\mathcal{E}_{i}
ΔEi? 和關(guān)系
Δ
R
i
\Delta\mathcal{R}_{i}
ΔRi? 的嵌入。 然后,IncDE 在第二個(gè)訓(xùn)練階段訓(xùn)練新圖中所有實(shí)體
E
i
\mathcal E_{i}
Ei? 和關(guān)系
R
i
\mathcal R_{i}
Ri? 的嵌入。通過兩階段訓(xùn)練策略,IncDE 可以防止舊圖的結(jié)構(gòu)在早期訓(xùn)練階段被新三元組破壞。 同時(shí),舊圖中和新圖中實(shí)體和關(guān)系的表示可以在訓(xùn)練過程中更好地相互適應(yīng)。
Experiments
Experimental Setup
數(shù)據(jù)集 我們使用 CKGE 的七個(gè)數(shù)據(jù)集,包括四個(gè)公共數(shù)據(jù)集:ENTITY、RELATION、FACT、HYBRID,以及我們構(gòu)建的三個(gè)新數(shù)據(jù)集:GraphEqual、GraphHigher 和 GraphLower。在 ENTITY、RELATION 和 FACT 中,實(shí)體、關(guān)系和三元組的數(shù)量在每個(gè)時(shí)間步均勻增加。在 HYBRID 中,實(shí)體、關(guān)系和三元組的總和隨著時(shí)間的推移均勻增加。然而,這些數(shù)據(jù)集限制了知識的增長,要求新的三元組至少包含一個(gè)現(xiàn)有實(shí)體。為了解決這個(gè)限制,我們放寬了這些約束并構(gòu)建了三個(gè)新的數(shù)據(jù)集:GraphEqual、GraphHigher 和 GraphLower。在 GraphEqual 中,三元組的數(shù)量在每個(gè)時(shí)間步始終以相同的增量增加。在 GraphHigher 和 GraphLower 中,三元組的增量分別變得更高和更低。所有數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)數(shù)據(jù)如表 1 所示。時(shí)間步長設(shè)置為 5。每個(gè)時(shí)間步長的訓(xùn)練集、有效集和測試集按 3:1:1 的比例分配。 數(shù)據(jù)集可在 https://github.com/seukgcode/IncDE 獲取。
基線 我們選擇兩種基線模型:非持續(xù)學(xué)習(xí)方法和基于持續(xù)學(xué)習(xí)的方法。首先,我們選擇一種非連續(xù)學(xué)習(xí)方法 Fine-tune,每次都會使用新的三元組進(jìn)行微調(diào)。然后,我們選擇三種基于持續(xù)學(xué)習(xí)的方法:基于動(dòng)態(tài)架構(gòu)、基于記憶重放的基線和基于正則化。具體來說,基于動(dòng)態(tài)架構(gòu)的方法是 PNN 和 CWR?;谟洃浿胤诺姆椒ㄓ?GEM 、EMR 和 DiCGRL?;谡齽t化的方法有 SI、EWC和 LKGE。
指標(biāo) 我們評估我們的模型在鏈接預(yù)測任務(wù)上的性能。特別是,我們用所有其他實(shí)體替換測試集中三元組的頭或尾實(shí)體,然后計(jì)算每個(gè)三元組的分?jǐn)?shù)并對其進(jìn)行排名。然后,我們計(jì)算 MRR、Hits@1 和 Hits@10 作為指標(biāo)。MRR、Hits@1、Hits@3 和 Hits@10 越高,模型效果越好。在時(shí)間
i
i
i,我們使用時(shí)間
[
1
,
i
]
[1, i]
[1,i] 在所有測試集上測試的指標(biāo)的平均值作為最終指標(biāo)。主要結(jié)果是從上次生成的模型中得到的。
設(shè)置 所有實(shí)驗(yàn)均在 NVIDIA RTX 3090Ti GPU 上使用 PyTorch 實(shí)施。在所有實(shí)驗(yàn)中,我們將 TransE 設(shè)置為基本 KGE 模型,時(shí)間
i
i
i 的最大大小為 5。實(shí)體和關(guān)系的嵌入大小為 200。我們在
[
512
,
1024
,
2048
]
[512, 1024, 2048]
[512,1024,2048] 中調(diào)整批處理大小。我們選擇 Adam 作為優(yōu)化器,并從
[
1
e
?
5
,
1
e
?
4
,
1
e
3
]
[1e^{-5}, 1e^{-4}, 1e^3]
[1e?5,1e?4,1e3] 中設(shè)置學(xué)習(xí)率。在我們的實(shí)驗(yàn)中,我們在
[
512
,
1024
,
2048
]
[512,1024,2048]
[512,1024,2048]中設(shè)置每層
M
M
M中三元組的最大數(shù)量。為了保證公平性,所有實(shí)驗(yàn)結(jié)果均為5次運(yùn)行的平均值。
Results
主要結(jié)果 表 2 和表 3 報(bào)告了七個(gè)數(shù)據(jù)集的主要實(shí)驗(yàn)結(jié)果。
首先,值得注意的是,與 Fine-tune 相比,IncDE 表現(xiàn)出了相當(dāng)大的改進(jìn)。具體來說,與 Fine-tune 相比,IncDE 的 MRR 提高了 2.9% - 10.6%,Hits@1 提高了 2.4% - 7.2%,Hits@10 提高了 3.7% - 17.5%。結(jié)果表明,直接微調(diào)會導(dǎo)致災(zāi)難性遺忘。
其次,IncDE 優(yōu)于所有 CKGE 基線。值得注意的是,與基于動(dòng)態(tài)架構(gòu)的方法(PNN 和 CWR)相比,IncDE 在 MRR、Hits@1 和 Hits@10 方面分別實(shí)現(xiàn)了1.5% - 19.6%、1.0% - 12.4% 和 1.9% - 34.6% 的改進(jìn)。與基于重放的基線(GEM、EMR 和 DiCGRL)相比,IncDE 在 MRR、Hits@1 和 Hits@10 方面分別提高了2.5% - 14.6%、1.9% - 9.4% 和 3.3% - 23.7%。此外,與基于正則化的方法(SI、EWC 和 LKGE)相比,IncDE 在 MRR、Hits@1 和 Hits@10 方面獲得了 0.6% - 11.3%、0.5% - 8.2% 和 0.4%-17.2% 的改進(jìn)。這些結(jié)果證明了 IncDE 在增長 KG 方面的卓越性能。
第三,與強(qiáng)基線相比,IncDE 在不同類型的數(shù)據(jù)集上表現(xiàn)出明顯的改進(jìn)。在知識增長相同的數(shù)據(jù)集中(ENTITY、FACT、RELATION、HYBRID 和 GraphEqual),IncDE 的 MRR 比最先進(jìn)的方法平均提高了 1.4%。在知識增長不均的數(shù)據(jù)集中(GraphHigher 和 GraphLower),IncDE 的 MRR 比最優(yōu)方法提高了1.8% - 2.0%。這意味著IncDE特別適合涉及知識增長不平等的場景。值得注意的是,在處理更真實(shí)的場景感知數(shù)據(jù)集 GraphHigher 時(shí),其中出現(xiàn)了大量新知識,與其他最強(qiáng)基線相比,IncDE 在 MRR 方面表現(xiàn)出最明顯的優(yōu)勢,提高了2.0%。這表明當(dāng)大量新知識出現(xiàn)時(shí),IncDE 表現(xiàn)良好。因此,我們在不同大小的數(shù)據(jù)集(GraphHigher、GraphLower 和 GraphEqual)(從 10K 到 160K、從 160K 到 10K 以及剩余的 62K)中驗(yàn)證 IncDE 的可擴(kuò)展性。特別是,我們觀察到,與所有基線中的最佳結(jié)果相比,IncDE 在 RELATION 和 FACT 上的 MRR 僅提高了 0.6% - 0.7%,其中的改進(jìn)與其他數(shù)據(jù)集相比并不顯著。這可以歸因于這兩個(gè)數(shù)據(jù)集中新實(shí)體的增長有限,這表明 IncDE 對于實(shí)體數(shù)量變化較大的情況具有很強(qiáng)的適應(yīng)性?,F(xiàn)實(shí)生活中,實(shí)體之間的關(guān)系數(shù)量保持相對穩(wěn)定,而大量出現(xiàn)的卻是實(shí)體本身。這就是 IncDE 適應(yīng)性強(qiáng)的地方。憑借其強(qiáng)大的能力,IncDE可以有效處理眾多實(shí)體及其對應(yīng)關(guān)系,確保無縫集成和高效處理。
消融實(shí)驗(yàn) 我們研究了分層排序、增量蒸餾和兩階段訓(xùn)練策略的影響,如表 4 和表 5 所示。首先,當(dāng)我們刪除增量蒸餾時(shí),模型性能顯著下降。具體來說,MRR 指標(biāo)下降了 0.2% - 6.5%,Hits@1 指標(biāo)下降了 0.1% - 5.2%,Hits@10 指標(biāo)下降了0.2% - 11.6%。這些發(fā)現(xiàn)強(qiáng)調(diào)了增量蒸餾在有效保留舊圖的結(jié)構(gòu)同時(shí)學(xué)習(xí)新圖的表示方面的關(guān)鍵作用。其次,當(dāng)我們消除分層排序和兩階段訓(xùn)練策略時(shí),模型性能略有下降。具體來說,MRR指標(biāo)下降了0.2% - 1.8%,Hits@1下降了0.1% - 1.8%,Hits@10下降了0.2% - 4.4%。結(jié)果表明,分層排序和兩階段訓(xùn)練提高了 IncDE 的性能。
IncDE 每次的表現(xiàn) 圖3顯示了 IncDE 在不同時(shí)間記住舊知識的程度。首先,我們觀察到在幾個(gè)測試數(shù)據(jù)上(ENTITY 中的 D1、D2、D3、D4;HYBRID 中的 D3、D4),IncDE 的性能隨著時(shí)間的增加略有下降 0.2% - 3.1%。 特別是,IncDE 的性能在多個(gè)數(shù)據(jù)集上沒有出現(xiàn)明顯下降,例如 HYBRID 的 D1(時(shí)間 2 到時(shí)間 4)和 GraphLower 的 D2(時(shí)間 2 到時(shí)間 5)。這意味著 IncDE 可以很好地記住大多數(shù)數(shù)據(jù)集上的舊知識。 其次,在一些數(shù)據(jù)集上,隨著繼續(xù)訓(xùn)練,IncDE 的性能意外提高。 具體來說,IncDE的性能在MRR中GraphLower的D3上逐漸提高了0.6%。 這表明 IncDE 很好地學(xué)習(xí)了新興知識,并用新興知識增強(qiáng)了舊知識。
圖 3:IncDE 每次在 ENTITY、HYBRID 和 GraphLower 上的有效性。不同的顏色代表不同時(shí)間生成的模型的性能。
D
i
Di
Di 表示時(shí)間
i
i
i 的測試集。
學(xué)習(xí)和記憶的效果 為了驗(yàn)證IncDE能夠很好地學(xué)習(xí)新興知識并有效地記住舊知識,我們分別研究了IncDE和Fine-tune每次對新KG和舊KG的影響,如圖4所示 為了評估舊 KG 的性能,我們計(jì)算了所有過去時(shí)間步長的 MRR 平均值。首先,我們觀察到 IncDE 在新 KG 上的表現(xiàn)優(yōu)于 Fine-tune,MRR 更高,范圍為 0.5% 到 5.5%。這表明 IncDE 能夠有效地學(xué)習(xí)新興知識。其次,IncDE 在 MRR 上比舊 KG 上的 Fine-tune 高出 3.8%-11.2%。這些發(fā)現(xiàn)表明,IncDE 減輕了災(zāi)難性遺忘的問題,并實(shí)現(xiàn)了更有效地保留舊知識。
最大層尺寸的影響 為了研究增量蒸餾中每層最大尺寸M對模型性能的影響,我們研究了最后一次具有不同M的IncDE模型的性能,如圖5所示。首先,我們發(fā)現(xiàn)隨著
M
M
M 在 [128, 1024] 范圍內(nèi),所有數(shù)據(jù)集上的模型性能都會提高。這表明,一般來說,
M
M
M 越高,增量蒸餾的影響就越大。其次,當(dāng)
M
M
M 達(dá)到 2048 時(shí),我們觀察到一些數(shù)據(jù)集的性能顯著下降。這意味著太大的 M 可能導(dǎo)致層數(shù)太少并限制增量蒸餾的性能。根據(jù)經(jīng)驗(yàn),
M
=
1024
M=1024
M=1024 是大多數(shù)數(shù)據(jù)集中的最佳大小。這進(jìn)一步證明有必要限制每層學(xué)習(xí)的三元組數(shù)量。
案例研究 為了進(jìn)一步探討 IncDE 保存舊知識的能力,我們進(jìn)行了全面的案例研究,如表 6 所示。在預(yù)測亞利桑那州立大學(xué)的主要研究領(lǐng)域的情況下,IncDE 將正確答案計(jì)算機(jī)科學(xué)排在 排名第一,優(yōu)于排名第二或第三的其他強(qiáng)基線,例如 EWC、PNN 和 LKGE。 這表明雖然其他方法在一定程度上忘記了過去時(shí)間的知識,但 IncDE 可以準(zhǔn)確地記住每個(gè)時(shí)間的舊知識。 此外,當(dāng)刪除增量蒸餾(ID)時(shí),IncDE 無法預(yù)測前三個(gè)位置中的正確答案。 這表明,在不進(jìn)行增量蒸餾的情況下預(yù)測舊知識時(shí),IncDE 的性能顯著下降。 相反,在去除層次排序(HO)和兩階段訓(xùn)練策略(TS)后,IncDE仍然準(zhǔn)確地預(yù)測出第一個(gè)位置的正確答案。 這一觀察有力地支持了這樣一個(gè)事實(shí):增量蒸餾為 IncDE 在保存舊知識方面提供了相對于其他強(qiáng)基線的關(guān)鍵優(yōu)勢。
表 6:案例研究的結(jié)果。我們使用時(shí)間 5 生成的模型,并隨機(jī)選擇時(shí)間 1 出現(xiàn)在 ENTITY 中的查詢進(jìn)行預(yù)測。 斜體是查詢結(jié)果,粗體是真實(shí)的預(yù)測結(jié)果。
Discussion
IncDE的新穎性 IncDE的新穎性可以概括為以下兩個(gè)方面。(1)高效的知識保存蒸餾。雖然 IncDE 采用蒸餾方法,但它與之前的 KGE 蒸餾方法不同。一方面,與其他主要提取最終分布的 KGE 蒸餾方法相比,增量蒸餾(ID)提取了中間隱藏狀態(tài)。這種方式巧妙地保留了舊知識的基本特征,使其能夠適應(yīng)各種下游任務(wù)。另一方面,只有 ID 才能從模型本身傳輸知識,因此與從其他模型傳輸知識相比可以減少錯(cuò)誤傳播。(2)顯式的圖感知機(jī)制。 與其他 CKGE 基線相比,IncDE 通過將圖結(jié)構(gòu)融入持續(xù)學(xué)習(xí)而脫穎而出。 這種顯式的圖感知機(jī)制使 IncDE 能夠利用圖內(nèi)編碼的固有語義,使其能夠智能地確定最佳學(xué)習(xí)順序并有效平衡舊知識的保存。
IncDE 中的三個(gè)組件 IncDE 的三個(gè)組件:分層排序 (HO)、增量蒸餾 (ID) 和兩階段訓(xùn)練 (TS) 本質(zhì)上相互依賴,并且需要一起使用。我們從以下兩個(gè)方面來解釋。 (一)設(shè)計(jì)原則。IncDE 的根本動(dòng)機(jī)在于有效學(xué)習(xí)新興知識,同時(shí)保留舊知識。此目標(biāo)由所有三個(gè)組件實(shí)現(xiàn):HO、ID 和 TS。一方面,HO起到將新三元組分層的作用,優(yōu)化新知識的學(xué)習(xí)過程。另一方面,ID和TS試圖提取和保存實(shí)體的表示,確保舊知識的有效保存。(2)相互依存。 這三個(gè)組成部分本質(zhì)上是相互關(guān)聯(lián)的,應(yīng)該一起使用。一方面,HO 在生成新三元組的分區(qū)方面發(fā)揮著至關(guān)重要的作用,這些新三元組隨后被輸入到 ID 中。另一方面,通過使用 TS,ID 可以防止舊實(shí)體在早期訓(xùn)練階段被破壞。
增量蒸餾的意義 盡管 IncDE 提出的三個(gè)組件:增量蒸餾(ID)、分層排序(HO)和兩階段訓(xùn)練(TS)對于 CKGE 任務(wù)都有效,但 ID 是其中的中心模塊。理論上,持續(xù)學(xué)習(xí)任務(wù)的主要挑戰(zhàn)是逐步學(xué)習(xí)時(shí)發(fā)生的災(zāi)難性遺忘,這也適合CKGE任務(wù)。為了應(yīng)對這一挑戰(zhàn),ID 引入了顯式圖結(jié)構(gòu)來提取實(shí)體表示,在整個(gè)訓(xùn)練期間有效地逐層保留舊知識。然而,HO專注于很好地學(xué)習(xí)新知識,而TS只能緩解訓(xùn)練初期的災(zāi)難性遺忘。因此,ID在CKGE任務(wù)的所有組件中起著最重要的作用。在實(shí)驗(yàn)中,我們從表4和表5觀察到,與HO(MRR平均0.9%)和TS(MRR平均0.5%)相比,ID表現(xiàn)出顯著的改善(MRR平均4.1%)。這樣的結(jié)果進(jìn)一步驗(yàn)證 與 HO 和 TS 相比,ID 是關(guān)鍵組件。 這三個(gè)組件相互作用,共同完成CKGE任務(wù)。
Conclusion
本文提出了一種新穎的連續(xù)知識圖嵌入方法 IncDE,該方法結(jié)合知識圖譜的圖結(jié)構(gòu)來學(xué)習(xí)新知識和記住舊知識。首先,我們對新知識圖譜中的三元組進(jìn)行層次排序,以獲得最優(yōu)的學(xué)習(xí)序列。其次,我們提出增量蒸餾,以在逐層訓(xùn)練新三元組時(shí)保留舊知識。此外,我們通過兩階段訓(xùn)練策略優(yōu)化訓(xùn)練過程。 未來我們會考慮如何處理隨著知識圖的演化舊知識被刪除的情況。 此外,必須解決跨領(lǐng)域和異構(gòu)數(shù)據(jù)集成到擴(kuò)展知識圖譜中的問題。
論文鏈接:
https://arxiv.org/pdf/2405.04453
GitHub:
https://github.com/seukgcode/IncDE
柚子快報(bào)激活碼778899分享:InCDE論文翻譯
好文閱讀
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。