欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報(bào)激活碼778899分享:InCDE論文翻譯

柚子快報(bào)激活碼778899分享:InCDE論文翻譯

http://yzkb.51969.com/

InCDE論文翻譯

Towards Continual Knowledge Graph Embedding via Incremental Distillation

通過增量蒸餾實(shí)現(xiàn)持續(xù)知識圖嵌入

Abstract

傳統(tǒng)的知識圖嵌入(KGE)方法通常需要在新知識出現(xiàn)時(shí)保留整個(gè)知識圖(KG),這會帶來巨大的訓(xùn)練成本。為了解決這個(gè)問題,提出了連續(xù)知識圖嵌入(CKGE)任務(wù),通過有效地學(xué)習(xí)新興知識,同時(shí)保留適當(dāng)?shù)呐f知識來訓(xùn)練 KGE 模型。然而,知識圖譜中的顯式圖結(jié)構(gòu)對于實(shí)現(xiàn)上述目標(biāo)至關(guān)重要,但卻被現(xiàn)有的 CKGE 方法嚴(yán)重忽略。一方面,現(xiàn)有方法通常以隨機(jī)順序?qū)W習(xí)新的三元組,破壞了新知識圖譜的內(nèi)部結(jié)構(gòu)。另一方面,舊的三元組被同等優(yōu)先地保留,未能有效緩解災(zāi)難性遺忘。在本文中,我們提出了一種基于增量蒸餾(IncDE)的CKGE競爭方法,該方法考慮了知識圖譜中顯式圖結(jié)構(gòu)的充分利用。首先,為了優(yōu)化學(xué)習(xí)順序,我們引入了分層策略,對新的三元組進(jìn)行排序以進(jìn)行逐層學(xué)習(xí)。通過一起使用層次間和層次內(nèi)的順序,新的三元組根據(jù)圖結(jié)構(gòu)特征被分組到層中。其次,為了有效地保存舊知識,我們設(shè)計(jì)了一種新穎的增量蒸餾機(jī)制,該機(jī)制有助于實(shí)體表示從上一層到下一層的無縫轉(zhuǎn)移,從而促進(jìn)舊知識的保存。最后,我們采用兩階段訓(xùn)練范式,以避免訓(xùn)練不足的新知識影響舊知識的過度腐敗。實(shí)驗(yàn)結(jié)果證明 IncDE 優(yōu)于最先進(jìn)的基線。值得注意的是,增量蒸餾機(jī)制有助于平均倒數(shù)排名 (MRR) 分?jǐn)?shù)提高 0.2%-6.5%。更多探索性實(shí)驗(yàn)驗(yàn)證了 IncDE 在熟練學(xué)習(xí)新知識同時(shí)在所有時(shí)間步驟中保留舊知識方面的有效性。

Introduction

知識圖嵌入(KGE)旨在以較低的速度將知識圖譜(KG)中的實(shí)體和關(guān)系嵌入到低維空間連續(xù)向量中。這對于各種知識驅(qū)動(dòng)的任務(wù)至關(guān)重要,例如問答、語義搜索和關(guān)系提取。傳統(tǒng)的 KGE 模型僅關(guān)注于獲取靜態(tài)知識圖譜中實(shí)體和關(guān)系的嵌入。然而,現(xiàn)實(shí)世界的知識圖譜不斷發(fā)展,特別是不斷出現(xiàn)的新知識,例如新的三元組、實(shí)體和關(guān)系。例如,在 DBpedia 從 2016 年到 2018 年的演變過程中,出現(xiàn)了約 100 萬個(gè)新實(shí)體、2,000 個(gè)新關(guān)系和 2000 萬個(gè)新三元組 (DBpedia 2021)。傳統(tǒng)上,當(dāng)知識圖譜發(fā)生演化時(shí),KGE模型需要用整個(gè)知識圖譜重新訓(xùn)練模型,這是一個(gè)不簡單的過程,訓(xùn)練成本巨大。在生物醫(yī)學(xué)和金融等領(lǐng)域,更新KGE模型以通過快速發(fā)展的KG(尤其是大量新知識)支持醫(yī)療援助和明智的市場決策具有重要意義。

為此,人們提出了連續(xù) KGE(CKGE)任務(wù),通過僅使用新興知識進(jìn)行學(xué)習(xí)來緩解這一問題。與傳統(tǒng)的KGE相比,CKGE的關(guān)鍵在于學(xué)好新興知識,同時(shí)有效保存舊知識。如圖1所示,需要學(xué)習(xí)新的實(shí)體和關(guān)系(即新的實(shí)體a、b和c)以適應(yīng)新的KG。同時(shí),舊KG中的知識(例如舊實(shí)體d)應(yīng)該被保留。一般來說,現(xiàn)有的 CKGE 方法可以分為三個(gè)系列:基于動(dòng)態(tài)架構(gòu)的方法、基于重播的方法和基于正則化的方法。 基于動(dòng)態(tài)架構(gòu)的方法保留所有舊參數(shù)并通過新架構(gòu)學(xué)習(xí)新興知識。然而,保留所有舊參數(shù)會阻礙舊知識對新知識的適應(yīng)。基于重放的方法,重放KG子圖來記住舊知識,但僅回憶一部分子圖會導(dǎo)致整個(gè)舊圖結(jié)構(gòu)的破壞 。基于正則化的方法旨在通過添加正則化項(xiàng)來保留舊知識。然而,僅向舊參數(shù)添加正則化項(xiàng)使得無法很好地捕獲新知識。

圖 1:不斷增長的 KG 的圖示。應(yīng)考慮兩個(gè)特定的學(xué)習(xí)順序:應(yīng)優(yōu)先考慮更接近舊KG的實(shí)體(a優(yōu)先于b);應(yīng)優(yōu)先考慮對新三元組影響較大的實(shí)體(例如與更多關(guān)系連接)(a 優(yōu)先于 c)。

盡管取得了有希望的有效性,但由于 KG 的顯式圖結(jié)構(gòu)被嚴(yán)重忽視,當(dāng)前的 CKGE 方法仍然表現(xiàn)不佳。同時(shí),之前的研究強(qiáng)調(diào)了圖結(jié)構(gòu)在解決圖相關(guān)持續(xù)學(xué)習(xí)任務(wù)中的關(guān)鍵作用。具體來說,現(xiàn)有的 CKGE 方法存在兩個(gè)主要缺點(diǎn):(1)首先,對于新出現(xiàn)的知識,當(dāng)前的 CKGE 方法利用隨機(jī)順序?qū)W習(xí)策略,忽略了知識圖譜中不同三元組的重要性。先前的研究表明,實(shí)體和關(guān)系的學(xué)習(xí)順序可以顯著影響圖的持續(xù)學(xué)習(xí)。由于知識圖譜中的知識是以圖結(jié)構(gòu)組織的,因此隨機(jī)學(xué)習(xí)順序可能會破壞知識圖譜傳達(dá)的固有語義。因此,為了有效的學(xué)習(xí)和傳播,必須考慮新實(shí)體和關(guān)系的優(yōu)先級。圖 1 說明了一個(gè)示例,其中實(shí)體 a 應(yīng)該在實(shí)體 b 之前學(xué)習(xí),因?yàn)?b 的表示是通過舊 KG 中的 a 傳播的。(2)其次,對于舊知識,當(dāng)前的CKGE方法將記憶視為同等水平,導(dǎo)致災(zāi)難性遺忘的處理效率低下。現(xiàn)有研究表明,通過拓?fù)浣Y(jié)構(gòu)中重要節(jié)點(diǎn)的正則化或蒸餾來保存知識對于連續(xù)圖學(xué)習(xí)至關(guān)重要。 因此,具有更本質(zhì)的圖結(jié)構(gòu)特征的舊實(shí)體應(yīng)該獲得更高的保存優(yōu)先級。在圖 1 中,與實(shí)體

c

c

c 相比,連接更多其他實(shí)體的實(shí)體

a

a

a 應(yīng)優(yōu)先在時(shí)間

i

+

1

i + 1

i+1 保存。

在本文中,我們提出了 IncDE,這是一種利用增量蒸餾的 CKGE 任務(wù)的新方法。IncDE旨在增強(qiáng)學(xué)習(xí)新興知識的能力,同時(shí)有效地保存舊知識。首先,我們采用層次排序來確定新三元組的最佳學(xué)習(xí)序列。這涉及將三元組劃分為層并通過層次間和層次內(nèi)的順序?qū)λ鼈冞M(jìn)行排序。隨后,有序的新興知識被逐層學(xué)習(xí)。其次,我們引入了一種新穎的增量蒸餾機(jī)制,以有效地考慮圖結(jié)構(gòu)來保留舊知識。該機(jī)制結(jié)合了顯式圖結(jié)構(gòu),并采用逐層范式來提取實(shí)體表示。最后,我們使用兩階段訓(xùn)練策略來改善舊知識的保存。在第一階段,我們修復(fù)舊實(shí)體和關(guān)系的表示。在第二階段,我們訓(xùn)練所有實(shí)體和關(guān)系的表示,保護(hù)舊知識圖譜免受訓(xùn)練不足的新興知識的干擾。

為了評估 IncDE 的有效性,我們構(gòu)建了三個(gè)具有不同規(guī)模的新知識圖譜的新數(shù)據(jù)集。對現(xiàn)有和新的數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn)。結(jié)果表明 IncDE 優(yōu)于所有強(qiáng)基線。此外,消融實(shí)驗(yàn)表明增量蒸餾可以顯著提高性能。進(jìn)一步的探索性實(shí)驗(yàn)驗(yàn)證了 IncDE 有效學(xué)習(xí)新興知識同時(shí)有效保存舊知識的能力。

總結(jié)起來,本文的貢獻(xiàn)有三方面:

我們提出了一種新穎的連續(xù)知識圖嵌入框架 IncDE,它通過顯式圖結(jié)構(gòu)有效地學(xué)習(xí)和保存知識。我們提出分層排序以獲得適當(dāng)?shù)膶W(xué)習(xí)順序,以便更好地學(xué)習(xí)新興知識。此外,我們提出了增量蒸餾和兩階段訓(xùn)練策略來保存良好的舊知識。我們根據(jù)新知識的規(guī)模變化構(gòu)建了三個(gè)新數(shù)據(jù)集。 實(shí)驗(yàn)表明 IncDE 的性能優(yōu)于強(qiáng)基線。值得注意的是,增量蒸餾將 MRR 提高了 0.2%-6.5%。

Related Work

與傳統(tǒng)的 KGE 不同,CKGE允許 KGE 模型 在記住舊知識的同時(shí)學(xué)習(xí)新知識。 現(xiàn)有的CKGE方法可以分為三類。(1)基于動(dòng)態(tài)架構(gòu)的方法:動(dòng)態(tài)適應(yīng)新的神經(jīng)資源,以改變架構(gòu)屬性以響應(yīng)新信息并保留舊參數(shù)。(2)基于記憶回復(fù)的方法:通過重播來保留學(xué)到的知識。 (3)基于正則化的方法:通過對更新神經(jīng)權(quán)重施加約束來減輕災(zāi)難性遺忘。然而,這些方法忽視了以適當(dāng)?shù)捻樞驅(qū)W習(xí)圖數(shù)據(jù)新知識的重要性。而且,他們忽視了如何保存適當(dāng)?shù)呐f知識,以便更好地融合新舊知識。CKGE 的幾個(gè)數(shù)據(jù)集已經(jīng)構(gòu)建。然而,它們中的大多數(shù)限制新三元組至少包含一個(gè)舊實(shí)體,而忽略了沒有舊實(shí)體的三元組。 在 Wikipedia 和 Yago等現(xiàn)實(shí)世界 KG 的演變中,出現(xiàn)了許多新的三元組,而沒有任何舊實(shí)體。

Preliminary and Problem Statement

Growing Knowledge Graph

知識圖譜 (KG)

G

=

(

E

,

R

,

T

)

\mathcal{G} = (\mathcal{E},\mathcal{R},\mathcal{T})

G=(E,R,T)包含實(shí)體

E

\mathcal{E}

E、關(guān)系

R

\mathcal{R}

R 和三元組

T

\mathcal{T}

T 的集合。三元組可以表示為

(

h

,

r

,

t

)

T

(h,r,t) \in \mathcal{T}

(h,r,t)∈T,其中

h

,

r

,

t

h, r,t

h,r,t 分別表示頭實(shí)體、關(guān)系和尾實(shí)體。當(dāng)知識圖譜隨著時(shí)間

i

i

i 的新興知識而增長時(shí),它被表示為

G

i

=

(

E

i

,

R

i

,

T

i

)

\mathcal{G}_{i} = (\mathcal{E}_{i},\mathcal{R}_{i},\mathcal{T}_{i})

Gi?=(Ei?,Ri?,Ti?),其中

E

i

,

R

i

,

T

i

\mathcal{E}_{i},\mathcal{R}_{i},\mathcal{T}_{i}

Ei?,Ri?,Ti? 是

G

i

\mathcal{G}_{i}

Gi? 中實(shí)體、關(guān)系和三元組的集合。此外,我們分別將

Δ

T

i

=

T

i

?

T

i

?

1

\Delta\mathcal{T}_{i} = \mathcal{T}_{i}-\mathcal{T}_{i-1}

ΔTi?=Ti??Ti?1?、

Δ

E

i

=

E

i

?

E

i

?

1

\Delta\mathcal{E}_{i} = \mathcal{E}_{i}-\mathcal{E}_{i-1}

ΔEi?=Ei??Ei?1? 和

Δ

R

i

=

R

i

?

R

i

?

1

\Delta\mathcal{R}_{i} = \mathcal{R}_{i} - \mathcal{R}_{i-1}

ΔRi?=Ri??Ri?1? 表示為新的三元組、實(shí)體和關(guān)系。

Continual Knowledge Graph Embedding

給定一個(gè)知識圖譜

G

\mathcal G

G,知識圖嵌入(KGE)旨在將實(shí)體和關(guān)系嵌入到低維向量空間

R

\mathbb R

R 中。給定頭實(shí)體

h

E

h\in\mathcal{E}

h∈E,關(guān)系

r

R

r\in\mathcal{R}

r∈R 和尾實(shí)體

t

E

t\in\mathcal{E}

t∈E,它們的嵌入表示為

h

R

d

\mathbf{h}\in\mathbb{R}^3ih7pjjnjzpn

h∈Rd、

r

R

d

\mathbf{r}\in\mathbb{R}^3ih7pjjnjzpn

r∈Rd 和

t

R

d

\mathbf{t}\in\mathbb{R}^3ih7pjjnjzpn

t∈Rd,其中

d

d

d 是嵌入大小。典型的 KGE 模型包含嵌入層和評分函數(shù)。嵌入層生成實(shí)體和關(guān)系的向量表示,而評分函數(shù)在訓(xùn)練階段為每個(gè)三元組分配分?jǐn)?shù)。

給定時(shí)間

i

i

i 不斷增長的知識圖譜

G

i

\mathcal G_i

Gi?,連續(xù)知識圖嵌入(CKGE)旨在更新舊實(shí)體

E

i

?

1

\mathcal{E}_{i-1}

Ei?1? 和關(guān)系

R

i

?

1

\mathcal{R}_{i-1}

Ri?1? 的嵌入,同時(shí)獲得新實(shí)體

Δ

E

i

\Delta\mathcal{E}_{i}

ΔEi? 和關(guān)系

Δ

R

i

\Delta\mathcal{R}_{i}

ΔRi? 的嵌入。最后,獲得所有實(shí)體

E

i

\mathcal{E}_{i}

Ei? 和關(guān)系

R

i

\mathcal{R}_{i}

Ri? 的嵌入。

Methodology

Framework Overview

IncDE 的框架如圖 2 所示。最初,當(dāng)新興知識在時(shí)間

i

i

i 出現(xiàn)時(shí),IncDE 對新三元組

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi? 執(zhí)行分層排序。具體來說,采用層次間排序,使用舊圖

G

i

?

1

\mathcal{G}_{i-1}

Gi?1? 的廣度優(yōu)先搜索 (BFS) 擴(kuò)展將

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi? 劃分為多個(gè)層。 隨后,在每一層內(nèi)應(yīng)用分層內(nèi)排序以進(jìn)一步對三元組進(jìn)行排序和劃分。 然后,對分組的

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi? 進(jìn)行逐層訓(xùn)練,

E

i

?

1

\mathcal E_{i?1}

Ei?1? 和

R

i

?

1

\mathcal R_{i?1}

Ri?1? 的嵌入繼承自前次

i

?

1

i?1

i?1 的 KGE 模型。在訓(xùn)練過程中,引入了增量蒸餾。準(zhǔn)確地說,如果第

j

j

j 層中的實(shí)體已出現(xiàn)在前一層中,則其表示形式將使用與當(dāng)前層最接近的層進(jìn)行提取。此外,還提出了兩階段訓(xùn)練策略。在第一階段,僅訓(xùn)練新實(shí)體

Δ

E

i

\Delta\mathcal{E}_{i}

ΔEi? 和關(guān)系

Δ

R

i

\Delta\mathcal{R}_{i}

ΔRi? 的表示。在第二階段,所有實(shí)體

E

i

\mathcal{E}_{i}

Ei?和關(guān)系

R

i

\mathcal{R}_{i}

Ri?在訓(xùn)練過程中得到訓(xùn)練。最后,得到第

i

i

i 時(shí)刻

E

i

\mathcal{E}_{i}

Ei? 和

R

i

\mathcal{R}_{i}

Ri? 的嵌入。

Hierarchical Ordering

為了增強(qiáng)對新興知識的圖結(jié)構(gòu)的學(xué)習(xí),我們首先根據(jù)實(shí)體和關(guān)系的重要性,以層次間和層次內(nèi)的方式對時(shí)間

i

i

i 的三元組

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi? 進(jìn)行排序,如圖 2 所示。可以預(yù)先計(jì)算以減少訓(xùn)練時(shí)間。然后,我們按順序逐層學(xué)習(xí)新的三元組

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi?。具體排序策略如下。

層次間排序 對于層次間排序**,**我們在時(shí)間

i

i

i 將所有新三元組

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi? 拆分為多個(gè)層

l

1

,

l

2

,

.

.

.

,

l

n

l_{1},l_{2},...,l_{n}

l1?,l2?,...,ln?。由于新實(shí)體

Δ

E

i

\Delta\mathcal{E}_{i}

ΔEi? 的表示是從舊實(shí)體

E

i

?

1

\mathcal E_{i?1}

Ei?1? 和舊關(guān)系

R

i

?

1

\mathcal R_{i?1}

Ri?1? 的表示傳播的,因此我們根據(jù)新實(shí)體

Δ

E

i

\Delta\mathcal{E}_{i}

ΔEi? 和舊圖

G

i

?

1

\mathcal G_{i?1}

Gi?1? 之間的距離分割新三元組

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi? 。我們使用面包優(yōu)先搜索(BFS)算法逐步將

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi? 與

G

i

?

1

\mathcal G_{i?1}

Gi?1? 分開。首先,我們將舊圖設(shè)為

l

0

l_0

l0?。 然后,我們將所有包含舊實(shí)體的新三元組作為下一層,

l

1

l_1

l1?。接下來,我們將

l

1

l_1

l1? 中的新實(shí)體視為看到的舊實(shí)體。重復(fù)上述兩個(gè)過程,直到?jīng)]有三元組可以添加到新層中。 最后,我們使用所有剩余的三元組作為最后一層。這樣,我們首先將所有新的三元組

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi? 分為多層。

圖結(jié)構(gòu)中三元組的重要性對于實(shí)體

E

i

\mathcal E_{i}

Ei? 和關(guān)系

R

i

\mathcal R_{i}

Ri? 在時(shí)間

i

i

i 學(xué)習(xí)或更新的順序也至關(guān)重要。因此對于每一層的三元組,我們根據(jù)圖結(jié)構(gòu)中實(shí)體和關(guān)系的重要性進(jìn)一步對它們進(jìn)行排序,如圖2(a)所示。為了衡量實(shí)體

E

i

\mathcal E_{i}

Ei? 在新三元組

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi? 中的重要性,我們首先計(jì)算實(shí)體

e

E

i

e\in\mathcal{E}_{i}

e∈Ei? 的節(jié)點(diǎn)中心性為

f

n

c

(

e

)

f_{nc}(e)

fnc?(e),如下所示:

f

n

c

(

e

)

=

f

n

e

i

g

h

b

o

r

(

e

)

N

?

1

(

1

)

f_{nc}(e)=\frac{f_{neighbor}(e)}{N-1}\quad\quad\quad(1)

fnc?(e)=N?1fneighbor?(e)?(1)

其中

f

n

e

i

g

h

b

o

r

(

e

)

f_{neighbor}(e)

fneighbor?(e) 表示

e

e

e 的鄰居數(shù)量,

N

N

N 表示在時(shí)間

i

i

i 時(shí)新三元組

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi? 中的實(shí)體數(shù)量。然后,為了衡量關(guān)系

R

i

\mathcal R_{i}

Ri? 在每層三元組中的重要性,我們將關(guān)系

r

R

i

r\in\mathcal R_{i}

r∈Ri? 的介數(shù)中心性計(jì)算為

f

b

c

(

r

)

f_{bc}(r)

fbc?(r):

f

b

c

(

r

)

=

s

,

t

E

i

,

s

t

σ

(

s

,

t

r

)

σ

(

s

,

t

)

(

2

)

f_{bc}(r)=\sum_{s,t\in\mathcal{E}_{i},s\neq t}\frac{\sigma(s,t|r)}{\sigma(s,t)}\quad\quad\quad(2)

fbc?(r)=s,t∈Ei?,s=t∑?σ(s,t)σ(s,t∣r)?(2)

其中

σ

(

s

,

t

)

\sigma(s, t)

σ(s,t) 是新三元組

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi? 中

s

s

s 和

t

t

t 之間的最短路徑的數(shù)量,

σ

(

s

,

t

r

)

\sigma(s,t|r)

σ(s,t∣r) 是經(jīng)過關(guān)系

r

r

r 的

σ

(

s

,

t

)

\sigma(s, t)

σ(s,t) 的數(shù)量。具體來說,我們只計(jì)算新興KG的

f

n

c

f_{nc}

fnc? 和

f

b

c

f_{bc}

fbc?,避免圖表過多。為了獲得三元組

(

h

,

r

,

t

)

(h,r,t)

(h,r,t)在每一層中的重要性,我們計(jì)算該三元組中頭實(shí)體

h

h

h 的節(jié)點(diǎn)中心性、尾實(shí)體

t

t

t 的節(jié)點(diǎn)中心性以及關(guān)系

r

r

r 的介數(shù)中心性??紤]到圖結(jié)構(gòu)中實(shí)體和關(guān)系的整體重要性,我們一起采用

f

n

c

f_{nc}

fnc? 和

f

b

c

f_{bc}

fbc?。 每個(gè)三元組的最終重要性可以計(jì)算為:

I

T

(

h

,

r

,

t

)

=

m

a

x

(

f

n

c

(

h

)

,

f

n

c

(

t

)

)

+

f

b

c

(

r

)

(

3

)

IT_{(h,r,t)}=max(f_{nc}(h),f_{nc}(t))+f_{bc}(r)\quad(3)

IT(h,r,t)?=max(fnc?(h),fnc?(t))+fbc?(r)(3)

我們根據(jù)

I

T

IT

IT 值對每一層的三元組進(jìn)行排序。分層內(nèi)排序的利用保證了對每層圖結(jié)構(gòu)重要的三元組的優(yōu)先級。反過來,這可以更有效地學(xué)習(xí)新圖的結(jié)構(gòu)。

此外,層次內(nèi)排序可以幫助進(jìn)一步拆分層內(nèi)三元組,如圖 2 (b) 所示。由于每層中的三元組數(shù)量由新圖的大小決定,因此它可能太大而無法學(xué)習(xí)。為了防止特定層中的三元組數(shù)量過多,我們將每層中的三元組的最大數(shù)量設(shè)置為

M

M

M。如果一層中的三元組數(shù)量超過

M

M

M,則可以分割成不超過

M

M

M個(gè)三元組的若干層 在層次結(jié)構(gòu)內(nèi)部的排序中。

Distillation and Training

分層排序后,我們在時(shí)間

i

i

i 逐層訓(xùn)練新的三元組

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi?。我們采用 TransE 作為基本 KGE 模型。當(dāng)訓(xùn)練第

j

j

j 層

(

j

>

0

)

(j > 0)

(j>0)時(shí),原始 TransE 模型的損失為:

L

c

k

g

e

=

(

h

,

r

,

t

)

l

j

m

a

x

(

0

,

f

(

h

,

r

,

t

)

?

f

(

h

,

r

,

t

)

+

γ

)

(

4

)

\mathcal{L}_{ckge}=\sum_{(h,r,t)\in l_j}max(0,f(h,r,t)-f(h',r,t')+\gamma) \quad(4)

Lckge?=(h,r,t)∈lj?∑?max(0,f(h,r,t)?f(h′,r,t′)+γ)(4)

其中

(

h

,

r

,

t

)

(h',r,t')

(h′,r,t′) 是

(

h

,

r

,

t

)

l

j

(h,r,t) \in l_j

(h,r,t)∈lj? 的負(fù)三元組,而

f

(

h

,

r

,

t

)

=

h

+

r

?

t

L

1

/

L

2

f(h,r,t)=|h+r-t|_{L1/L2}

f(h,r,t)=∣h+r?t∣L1/L2? 是 TransE的得分函數(shù)。我們在時(shí)間

i

?

1

i?1

i?1 時(shí)從 KGE 模型繼承舊實(shí)體

E

i

?

1

\mathcal{E}_{i-1}

Ei?1? 和關(guān)系

R

i

?

1

\mathcal{R}_{i-1}

Ri?1? 的嵌入,并隨機(jī)初始化新實(shí)體

Δ

E

i

\Delta\mathcal{E}_{i}

ΔEi? 和關(guān)系

Δ

R

i

\Delta\mathcal{R}_{i}

ΔRi? 的嵌入。

在訓(xùn)練過程中,我們使用增量蒸餾來保留舊知識。此外,我們提出了一種兩階段訓(xùn)練策略,以防止舊實(shí)體和關(guān)系的嵌入在訓(xùn)練開始時(shí)被過度破壞。

增量蒸餾 為了減輕在先前層中學(xué)習(xí)的實(shí)體的災(zāi)難性遺忘,受到 KGE 模型知識蒸餾的啟發(fā),我們蒸餾了以下實(shí)體表示: 當(dāng)前層與先前層中出現(xiàn)的實(shí)體如圖 2 所示。具體來說,如果第 j (j > 0) 層中的實(shí)體

e

e

e 已出現(xiàn)在先前層中,我們將其與

e

e

e 的表示形式進(jìn)行提取 最近的層。 實(shí)體

e

k

(

k

[

1

,

E

i

]

)

e_k(k\in[1,|\mathcal{E}_i|])

ek?(k∈[1,∣Ei?∣]) 的蒸餾損失為:

L

d

i

s

t

i

l

l

k

=

{

1

2

(

e

k

?

e

k

)

2

,

e

k

?

e

k

1

e

k

?

e

k

?

1

2

,

e

k

?

e

k

>

1

(

5

)

\left.\mathcal{L}_{distill}^k=\left\{\begin{array}{ll}\frac{1}{2}(\mathbf{e'}_k-\mathbf{e}_k)^2,&|\mathbf{e'}_k-\mathbf{e}_k|\leq1\\|\mathbf{e'}_k-\mathbf{e}_k|-\frac{1}{2},&|\mathbf{e'}_k-\mathbf{e}_k|>1\end{array}\right.\right.\quad\quad(5)

Ldistillk?={21?(e′k??ek?)2,∣e′k??ek?∣?21?,?∣e′k??ek?∣≤1∣e′k??ek?∣>1?(5)

其中

e

k

e_k

ek? 表示第

j

j

j 層中實(shí)體

e

k

e_k

ek? 的表示,

e

k

e^\prime_k

ek′? 表示最近一層的實(shí)體

e

k

e_k

ek? 的表示。通過提煉先前層中出現(xiàn)的實(shí)體,我們可以有效地記住舊知識。然而,不同的實(shí)體對于過去的表征應(yīng)該有不同程度的記憶。圖結(jié)構(gòu)中重要性較高的實(shí)體應(yīng)在蒸餾過程中優(yōu)先考慮并更大程度地保留。除了實(shí)體

f

n

c

f_{nc}

fnc? 的節(jié)點(diǎn)中心性之外,與關(guān)系的介數(shù)中心性類似,我們將實(shí)體

e

e

e 在時(shí)間

i

i

i 的介數(shù)中心性

f

b

c

(

e

)

f_{bc}(e)

fbc?(e) 定義為:

f

b

c

(

e

)

=

s

,

t

E

i

,

s

t

σ

(

s

,

t

e

)

σ

(

s

,

t

)

(

6

)

f_{bc}(e)=\sum_{s,t\in\mathcal{E}_i,s\neq t}\frac{\sigma(s,t|e)}{\sigma(s,t)}\quad\quad(6)

fbc?(e)=s,t∈Ei?,s=t∑?σ(s,t)σ(s,t∣e)?(6)

我們結(jié)合

f

b

c

(

e

)

f_{bc}(e)

fbc?(e) 和

f

n

c

(

e

)

f_{nc}(e)

fnc?(e) 來評估實(shí)體

e

e

e 的重要性。具體來說,在訓(xùn)練第

j

j

j 層時(shí),對于在時(shí)間

i

i

i 出現(xiàn)的每個(gè)新實(shí)體

e

k

e_k

ek?,我們計(jì)算

f

b

c

(

e

k

)

f_{bc}(e_k)

fbc?(ek?)和

f

n

c

(

e

k

)

f_{nc}(e_k)

fnc?(ek?)以獲得初步權(quán)重

λ

k

\lambda_k

λk?為:

λ

k

=

λ

0

?

(

f

b

c

(

e

k

)

+

f

n

c

(

e

k

)

)

(

7

)

\lambda_k=\lambda_0\cdot(f_{bc}(e_k)+f_{nc}(e_k))\quad\quad(7)

λk?=λ0??(fbc?(ek?)+fnc?(ek?))(7)

其中,對于先前層中已出現(xiàn)的新實(shí)體

λ

0

\lambda_0

λ0? 為 1;對于尚未出現(xiàn)的新實(shí)體

λ

0

\lambda_0

λ0? 為 0。同時(shí),我們學(xué)習(xí)一個(gè)矩陣

W

R

1

×

E

i

\mathbf{W}\in\mathbb{R}^{1\times|\mathcal{E}_{i}|}

W∈R1×∣Ei?∣ 動(dòng)態(tài)改變不同實(shí)體的蒸餾損失權(quán)重。 動(dòng)態(tài)蒸餾重量為:

[

λ

1

,

λ

2

,

.

.

.

,

λ

E

i

]

=

[

λ

1

,

λ

2

,

.

.

.

,

λ

E

i

]

°

W

(

8

)

[\lambda_1^{\prime},\lambda_2^{\prime},...,\lambda_{|\mathcal{E}_i|}^{\prime}]=[\lambda_1,\lambda_2,...,\lambda_{|\mathcal{E}_i|}]\circ\mathbf{W}\quad\quad(8)

[λ1′?,λ2′?,...,λ∣Ei?∣′?]=[λ1?,λ2?,...,λ∣Ei?∣?]°W(8)

其中

°

\circ

° 表示 Hadamard 產(chǎn)品。每層

j

j

j 在時(shí)間

i

i

i 的最終蒸餾損失為:

L

d

i

s

t

i

l

l

=

k

=

1

E

i

λ

k

?

L

d

i

s

t

i

l

l

k

(

9

)

\mathcal{L}_{distill}=\sum_{k=1}^{|\mathcal{E}_i|}\lambda_k^{^{\prime}}\cdot\mathcal{L}_{distill}^k\quad\quad(9)

Ldistill?=k=1∑∣Ei?∣?λk′??Ldistillk?(9)

當(dāng)訓(xùn)練第

j

j

j層時(shí),最終的損失函數(shù)可以計(jì)算為:

L

f

i

n

a

l

=

L

c

k

g

e

+

L

d

i

s

t

i

l

l

(

10

)

\mathcal{L}_{final}=\mathcal{L}_{ckge}+\mathcal{L}_{distill}\quad\quad(10)

Lfinal?=Lckge?+Ldistill?(10)

經(jīng)過對新三元組

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi?的逐層訓(xùn)練,得到實(shí)體

E

i

\mathcal{E}_{i}

Ei?和關(guān)系

R

i

\mathcal{R}_{i}

Ri?的所有表示。

兩階段訓(xùn)練 在訓(xùn)練過程中,當(dāng)在時(shí)間

i

i

i 將新三元組

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi? 合并到現(xiàn)有圖

G

i

?

1

\mathcal G_{i?1}

Gi?1? 中時(shí),新三元組

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi? 中不存在的舊實(shí)體和關(guān)系的嵌入保持不變。然而,新三元組

Δ

T

i

\Delta\mathcal{T}_{i}

ΔTi? 中包含的舊實(shí)體和關(guān)系的嵌入會被更新。因此,在每個(gè)時(shí)間i的初始階段,舊圖

G

i

?

1

\mathcal G_{i?1}

Gi?1?中實(shí)體

E

i

?

1

\mathcal E_{i?1}

Ei?1?和關(guān)系

R

i

?

1

\mathcal R_{i?1}

Ri?1?的部分表示將被未完全訓(xùn)練的新實(shí)體

Δ

E

i

\Delta\mathcal{E}_{i}

ΔEi?和關(guān)系

Δ

R

i

\Delta\mathcal{R}_{i}

ΔRi?破壞。為了解決這個(gè)問題,IncDE 使用兩階段訓(xùn)練策略來更好地保留舊圖中的知識,如圖 2 所示。在第一個(gè)訓(xùn)練階段,IncDE 凍結(jié)所有舊實(shí)體

E

i

?

1

\mathcal E_{i?1}

Ei?1? 和關(guān)系

R

i

?

1

\mathcal R_{i?1}

Ri?1? 的嵌入并僅訓(xùn)練新實(shí)體

Δ

E

i

\Delta\mathcal{E}_{i}

ΔEi? 和關(guān)系

Δ

R

i

\Delta\mathcal{R}_{i}

ΔRi? 的嵌入。 然后,IncDE 在第二個(gè)訓(xùn)練階段訓(xùn)練新圖中所有實(shí)體

E

i

\mathcal E_{i}

Ei? 和關(guān)系

R

i

\mathcal R_{i}

Ri? 的嵌入。通過兩階段訓(xùn)練策略,IncDE 可以防止舊圖的結(jié)構(gòu)在早期訓(xùn)練階段被新三元組破壞。 同時(shí),舊圖中和新圖中實(shí)體和關(guān)系的表示可以在訓(xùn)練過程中更好地相互適應(yīng)。

Experiments

Experimental Setup

數(shù)據(jù)集 我們使用 CKGE 的七個(gè)數(shù)據(jù)集,包括四個(gè)公共數(shù)據(jù)集:ENTITY、RELATION、FACT、HYBRID,以及我們構(gòu)建的三個(gè)新數(shù)據(jù)集:GraphEqual、GraphHigher 和 GraphLower。在 ENTITY、RELATION 和 FACT 中,實(shí)體、關(guān)系和三元組的數(shù)量在每個(gè)時(shí)間步均勻增加。在 HYBRID 中,實(shí)體、關(guān)系和三元組的總和隨著時(shí)間的推移均勻增加。然而,這些數(shù)據(jù)集限制了知識的增長,要求新的三元組至少包含一個(gè)現(xiàn)有實(shí)體。為了解決這個(gè)限制,我們放寬了這些約束并構(gòu)建了三個(gè)新的數(shù)據(jù)集:GraphEqual、GraphHigher 和 GraphLower。在 GraphEqual 中,三元組的數(shù)量在每個(gè)時(shí)間步始終以相同的增量增加。在 GraphHigher 和 GraphLower 中,三元組的增量分別變得更高和更低。所有數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)數(shù)據(jù)如表 1 所示。時(shí)間步長設(shè)置為 5。每個(gè)時(shí)間步長的訓(xùn)練集、有效集和測試集按 3:1:1 的比例分配。 數(shù)據(jù)集可在 https://github.com/seukgcode/IncDE 獲取。

基線 我們選擇兩種基線模型:非持續(xù)學(xué)習(xí)方法和基于持續(xù)學(xué)習(xí)的方法。首先,我們選擇一種非連續(xù)學(xué)習(xí)方法 Fine-tune,每次都會使用新的三元組進(jìn)行微調(diào)。然后,我們選擇三種基于持續(xù)學(xué)習(xí)的方法:基于動(dòng)態(tài)架構(gòu)、基于記憶重放的基線和基于正則化。具體來說,基于動(dòng)態(tài)架構(gòu)的方法是 PNN 和 CWR?;谟洃浿胤诺姆椒ㄓ?GEM 、EMR 和 DiCGRL?;谡齽t化的方法有 SI、EWC和 LKGE。

指標(biāo) 我們評估我們的模型在鏈接預(yù)測任務(wù)上的性能。特別是,我們用所有其他實(shí)體替換測試集中三元組的頭或尾實(shí)體,然后計(jì)算每個(gè)三元組的分?jǐn)?shù)并對其進(jìn)行排名。然后,我們計(jì)算 MRR、Hits@1 和 Hits@10 作為指標(biāo)。MRR、Hits@1、Hits@3 和 Hits@10 越高,模型效果越好。在時(shí)間

i

i

i,我們使用時(shí)間

[

1

,

i

]

[1, i]

[1,i] 在所有測試集上測試的指標(biāo)的平均值作為最終指標(biāo)。主要結(jié)果是從上次生成的模型中得到的。

設(shè)置 所有實(shí)驗(yàn)均在 NVIDIA RTX 3090Ti GPU 上使用 PyTorch 實(shí)施。在所有實(shí)驗(yàn)中,我們將 TransE 設(shè)置為基本 KGE 模型,時(shí)間

i

i

i 的最大大小為 5。實(shí)體和關(guān)系的嵌入大小為 200。我們在

[

512

,

1024

,

2048

]

[512, 1024, 2048]

[512,1024,2048] 中調(diào)整批處理大小。我們選擇 Adam 作為優(yōu)化器,并從

[

1

e

?

5

,

1

e

?

4

,

1

e

3

]

[1e^{-5}, 1e^{-4}, 1e^3]

[1e?5,1e?4,1e3] 中設(shè)置學(xué)習(xí)率。在我們的實(shí)驗(yàn)中,我們在

[

512

,

1024

,

2048

]

[512,1024,2048]

[512,1024,2048]中設(shè)置每層

M

M

M中三元組的最大數(shù)量。為了保證公平性,所有實(shí)驗(yàn)結(jié)果均為5次運(yùn)行的平均值。

Results

主要結(jié)果 表 2 和表 3 報(bào)告了七個(gè)數(shù)據(jù)集的主要實(shí)驗(yàn)結(jié)果。

首先,值得注意的是,與 Fine-tune 相比,IncDE 表現(xiàn)出了相當(dāng)大的改進(jìn)。具體來說,與 Fine-tune 相比,IncDE 的 MRR 提高了 2.9% - 10.6%,Hits@1 提高了 2.4% - 7.2%,Hits@10 提高了 3.7% - 17.5%。結(jié)果表明,直接微調(diào)會導(dǎo)致災(zāi)難性遺忘。

其次,IncDE 優(yōu)于所有 CKGE 基線。值得注意的是,與基于動(dòng)態(tài)架構(gòu)的方法(PNN 和 CWR)相比,IncDE 在 MRR、Hits@1 和 Hits@10 方面分別實(shí)現(xiàn)了1.5% - 19.6%、1.0% - 12.4% 和 1.9% - 34.6% 的改進(jìn)。與基于重放的基線(GEM、EMR 和 DiCGRL)相比,IncDE 在 MRR、Hits@1 和 Hits@10 方面分別提高了2.5% - 14.6%、1.9% - 9.4% 和 3.3% - 23.7%。此外,與基于正則化的方法(SI、EWC 和 LKGE)相比,IncDE 在 MRR、Hits@1 和 Hits@10 方面獲得了 0.6% - 11.3%、0.5% - 8.2% 和 0.4%-17.2% 的改進(jìn)。這些結(jié)果證明了 IncDE 在增長 KG 方面的卓越性能。

第三,與強(qiáng)基線相比,IncDE 在不同類型的數(shù)據(jù)集上表現(xiàn)出明顯的改進(jìn)。在知識增長相同的數(shù)據(jù)集中(ENTITY、FACT、RELATION、HYBRID 和 GraphEqual),IncDE 的 MRR 比最先進(jìn)的方法平均提高了 1.4%。在知識增長不均的數(shù)據(jù)集中(GraphHigher 和 GraphLower),IncDE 的 MRR 比最優(yōu)方法提高了1.8% - 2.0%。這意味著IncDE特別適合涉及知識增長不平等的場景。值得注意的是,在處理更真實(shí)的場景感知數(shù)據(jù)集 GraphHigher 時(shí),其中出現(xiàn)了大量新知識,與其他最強(qiáng)基線相比,IncDE 在 MRR 方面表現(xiàn)出最明顯的優(yōu)勢,提高了2.0%。這表明當(dāng)大量新知識出現(xiàn)時(shí),IncDE 表現(xiàn)良好。因此,我們在不同大小的數(shù)據(jù)集(GraphHigher、GraphLower 和 GraphEqual)(從 10K 到 160K、從 160K 到 10K 以及剩余的 62K)中驗(yàn)證 IncDE 的可擴(kuò)展性。特別是,我們觀察到,與所有基線中的最佳結(jié)果相比,IncDE 在 RELATION 和 FACT 上的 MRR 僅提高了 0.6% - 0.7%,其中的改進(jìn)與其他數(shù)據(jù)集相比并不顯著。這可以歸因于這兩個(gè)數(shù)據(jù)集中新實(shí)體的增長有限,這表明 IncDE 對于實(shí)體數(shù)量變化較大的情況具有很強(qiáng)的適應(yīng)性?,F(xiàn)實(shí)生活中,實(shí)體之間的關(guān)系數(shù)量保持相對穩(wěn)定,而大量出現(xiàn)的卻是實(shí)體本身。這就是 IncDE 適應(yīng)性強(qiáng)的地方。憑借其強(qiáng)大的能力,IncDE可以有效處理眾多實(shí)體及其對應(yīng)關(guān)系,確保無縫集成和高效處理。

消融實(shí)驗(yàn) 我們研究了分層排序、增量蒸餾和兩階段訓(xùn)練策略的影響,如表 4 和表 5 所示。首先,當(dāng)我們刪除增量蒸餾時(shí),模型性能顯著下降。具體來說,MRR 指標(biāo)下降了 0.2% - 6.5%,Hits@1 指標(biāo)下降了 0.1% - 5.2%,Hits@10 指標(biāo)下降了0.2% - 11.6%。這些發(fā)現(xiàn)強(qiáng)調(diào)了增量蒸餾在有效保留舊圖的結(jié)構(gòu)同時(shí)學(xué)習(xí)新圖的表示方面的關(guān)鍵作用。其次,當(dāng)我們消除分層排序和兩階段訓(xùn)練策略時(shí),模型性能略有下降。具體來說,MRR指標(biāo)下降了0.2% - 1.8%,Hits@1下降了0.1% - 1.8%,Hits@10下降了0.2% - 4.4%。結(jié)果表明,分層排序和兩階段訓(xùn)練提高了 IncDE 的性能。

IncDE 每次的表現(xiàn) 圖3顯示了 IncDE 在不同時(shí)間記住舊知識的程度。首先,我們觀察到在幾個(gè)測試數(shù)據(jù)上(ENTITY 中的 D1、D2、D3、D4;HYBRID 中的 D3、D4),IncDE 的性能隨著時(shí)間的增加略有下降 0.2% - 3.1%。 特別是,IncDE 的性能在多個(gè)數(shù)據(jù)集上沒有出現(xiàn)明顯下降,例如 HYBRID 的 D1(時(shí)間 2 到時(shí)間 4)和 GraphLower 的 D2(時(shí)間 2 到時(shí)間 5)。這意味著 IncDE 可以很好地記住大多數(shù)數(shù)據(jù)集上的舊知識。 其次,在一些數(shù)據(jù)集上,隨著繼續(xù)訓(xùn)練,IncDE 的性能意外提高。 具體來說,IncDE的性能在MRR中GraphLower的D3上逐漸提高了0.6%。 這表明 IncDE 很好地學(xué)習(xí)了新興知識,并用新興知識增強(qiáng)了舊知識。

圖 3:IncDE 每次在 ENTITY、HYBRID 和 GraphLower 上的有效性。不同的顏色代表不同時(shí)間生成的模型的性能。

D

i

Di

Di 表示時(shí)間

i

i

i 的測試集。

學(xué)習(xí)和記憶的效果 為了驗(yàn)證IncDE能夠很好地學(xué)習(xí)新興知識并有效地記住舊知識,我們分別研究了IncDE和Fine-tune每次對新KG和舊KG的影響,如圖4所示 為了評估舊 KG 的性能,我們計(jì)算了所有過去時(shí)間步長的 MRR 平均值。首先,我們觀察到 IncDE 在新 KG 上的表現(xiàn)優(yōu)于 Fine-tune,MRR 更高,范圍為 0.5% 到 5.5%。這表明 IncDE 能夠有效地學(xué)習(xí)新興知識。其次,IncDE 在 MRR 上比舊 KG 上的 Fine-tune 高出 3.8%-11.2%。這些發(fā)現(xiàn)表明,IncDE 減輕了災(zāi)難性遺忘的問題,并實(shí)現(xiàn)了更有效地保留舊知識。

最大層尺寸的影響 為了研究增量蒸餾中每層最大尺寸M對模型性能的影響,我們研究了最后一次具有不同M的IncDE模型的性能,如圖5所示。首先,我們發(fā)現(xiàn)隨著

M

M

M 在 [128, 1024] 范圍內(nèi),所有數(shù)據(jù)集上的模型性能都會提高。這表明,一般來說,

M

M

M 越高,增量蒸餾的影響就越大。其次,當(dāng)

M

M

M 達(dá)到 2048 時(shí),我們觀察到一些數(shù)據(jù)集的性能顯著下降。這意味著太大的 M 可能導(dǎo)致層數(shù)太少并限制增量蒸餾的性能。根據(jù)經(jīng)驗(yàn),

M

=

1024

M=1024

M=1024 是大多數(shù)數(shù)據(jù)集中的最佳大小。這進(jìn)一步證明有必要限制每層學(xué)習(xí)的三元組數(shù)量。

案例研究 為了進(jìn)一步探討 IncDE 保存舊知識的能力,我們進(jìn)行了全面的案例研究,如表 6 所示。在預(yù)測亞利桑那州立大學(xué)的主要研究領(lǐng)域的情況下,IncDE 將正確答案計(jì)算機(jī)科學(xué)排在 排名第一,優(yōu)于排名第二或第三的其他強(qiáng)基線,例如 EWC、PNN 和 LKGE。 這表明雖然其他方法在一定程度上忘記了過去時(shí)間的知識,但 IncDE 可以準(zhǔn)確地記住每個(gè)時(shí)間的舊知識。 此外,當(dāng)刪除增量蒸餾(ID)時(shí),IncDE 無法預(yù)測前三個(gè)位置中的正確答案。 這表明,在不進(jìn)行增量蒸餾的情況下預(yù)測舊知識時(shí),IncDE 的性能顯著下降。 相反,在去除層次排序(HO)和兩階段訓(xùn)練策略(TS)后,IncDE仍然準(zhǔn)確地預(yù)測出第一個(gè)位置的正確答案。 這一觀察有力地支持了這樣一個(gè)事實(shí):增量蒸餾為 IncDE 在保存舊知識方面提供了相對于其他強(qiáng)基線的關(guān)鍵優(yōu)勢。

表 6:案例研究的結(jié)果。我們使用時(shí)間 5 生成的模型,并隨機(jī)選擇時(shí)間 1 出現(xiàn)在 ENTITY 中的查詢進(jìn)行預(yù)測。 斜體是查詢結(jié)果,粗體是真實(shí)的預(yù)測結(jié)果。

Discussion

IncDE的新穎性 IncDE的新穎性可以概括為以下兩個(gè)方面。(1)高效的知識保存蒸餾。雖然 IncDE 采用蒸餾方法,但它與之前的 KGE 蒸餾方法不同。一方面,與其他主要提取最終分布的 KGE 蒸餾方法相比,增量蒸餾(ID)提取了中間隱藏狀態(tài)。這種方式巧妙地保留了舊知識的基本特征,使其能夠適應(yīng)各種下游任務(wù)。另一方面,只有 ID 才能從模型本身傳輸知識,因此與從其他模型傳輸知識相比可以減少錯(cuò)誤傳播。(2)顯式的圖感知機(jī)制。 與其他 CKGE 基線相比,IncDE 通過將圖結(jié)構(gòu)融入持續(xù)學(xué)習(xí)而脫穎而出。 這種顯式的圖感知機(jī)制使 IncDE 能夠利用圖內(nèi)編碼的固有語義,使其能夠智能地確定最佳學(xué)習(xí)順序并有效平衡舊知識的保存。

IncDE 中的三個(gè)組件 IncDE 的三個(gè)組件:分層排序 (HO)、增量蒸餾 (ID) 和兩階段訓(xùn)練 (TS) 本質(zhì)上相互依賴,并且需要一起使用。我們從以下兩個(gè)方面來解釋。 (一)設(shè)計(jì)原則。IncDE 的根本動(dòng)機(jī)在于有效學(xué)習(xí)新興知識,同時(shí)保留舊知識。此目標(biāo)由所有三個(gè)組件實(shí)現(xiàn):HO、ID 和 TS。一方面,HO起到將新三元組分層的作用,優(yōu)化新知識的學(xué)習(xí)過程。另一方面,ID和TS試圖提取和保存實(shí)體的表示,確保舊知識的有效保存。(2)相互依存。 這三個(gè)組成部分本質(zhì)上是相互關(guān)聯(lián)的,應(yīng)該一起使用。一方面,HO 在生成新三元組的分區(qū)方面發(fā)揮著至關(guān)重要的作用,這些新三元組隨后被輸入到 ID 中。另一方面,通過使用 TS,ID 可以防止舊實(shí)體在早期訓(xùn)練階段被破壞。

增量蒸餾的意義 盡管 IncDE 提出的三個(gè)組件:增量蒸餾(ID)、分層排序(HO)和兩階段訓(xùn)練(TS)對于 CKGE 任務(wù)都有效,但 ID 是其中的中心模塊。理論上,持續(xù)學(xué)習(xí)任務(wù)的主要挑戰(zhàn)是逐步學(xué)習(xí)時(shí)發(fā)生的災(zāi)難性遺忘,這也適合CKGE任務(wù)。為了應(yīng)對這一挑戰(zhàn),ID 引入了顯式圖結(jié)構(gòu)來提取實(shí)體表示,在整個(gè)訓(xùn)練期間有效地逐層保留舊知識。然而,HO專注于很好地學(xué)習(xí)新知識,而TS只能緩解訓(xùn)練初期的災(zāi)難性遺忘。因此,ID在CKGE任務(wù)的所有組件中起著最重要的作用。在實(shí)驗(yàn)中,我們從表4和表5觀察到,與HO(MRR平均0.9%)和TS(MRR平均0.5%)相比,ID表現(xiàn)出顯著的改善(MRR平均4.1%)。這樣的結(jié)果進(jìn)一步驗(yàn)證 與 HO 和 TS 相比,ID 是關(guān)鍵組件。 這三個(gè)組件相互作用,共同完成CKGE任務(wù)。

Conclusion

本文提出了一種新穎的連續(xù)知識圖嵌入方法 IncDE,該方法結(jié)合知識圖譜的圖結(jié)構(gòu)來學(xué)習(xí)新知識和記住舊知識。首先,我們對新知識圖譜中的三元組進(jìn)行層次排序,以獲得最優(yōu)的學(xué)習(xí)序列。其次,我們提出增量蒸餾,以在逐層訓(xùn)練新三元組時(shí)保留舊知識。此外,我們通過兩階段訓(xùn)練策略優(yōu)化訓(xùn)練過程。 未來我們會考慮如何處理隨著知識圖的演化舊知識被刪除的情況。 此外,必須解決跨領(lǐng)域和異構(gòu)數(shù)據(jù)集成到擴(kuò)展知識圖譜中的問題。

論文鏈接:

https://arxiv.org/pdf/2405.04453

GitHub:

https://github.com/seukgcode/IncDE

柚子快報(bào)激活碼778899分享:InCDE論文翻譯

http://yzkb.51969.com/

好文閱讀

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://m.gantiao.com.cn/post/19571868.html

發(fā)布評論

您暫未設(shè)置收款碼

請?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄