透明奶罩和丁字裤凸点h,国产v视频在线亚洲视频,一区二区三区在线观看亚洲电影,老人船上弄雨荷1一5节

演講實錄丨劉新旺教授:基于大模型的圖學習

來源:世展網 分類:AI人工智能行業資訊 2025-02-27 17:17 閱讀:*****
分享:

2025年鄭州世界數字產業博覽會WDIE

2025-03-21-03-23

展會結束

2024年9月21日,2024第二屆人工智能大模型技術高峰論壇在江蘇南京舉辦,論壇同期舉辦的《可信安全高效大模型技術專題論壇》上,國防科技大學計算機學院劉新旺教授分享了《基于大模型的圖學習》精彩演講。

以下為演講內容:

1 圖學習研究背景

圖通常可以定義為節點集合和邊集合,其中,節點表示圖中的實體;邊表示節點之間的關系。圖數據與圖像和自然語言最大的區別,它是非歐幾里得數據,即不能用固定的卷積或算子對它進行操作,因為它的鄰居或者結構是非固定的,一個節點可能有非常多的邊,所以處理過程相對來說比較困難。

由于圖天然具備建模多樣化關系的能力,所以在具有復雜關系的任務上應用十分廣泛。比如,典型的結構化場景中的社交網絡、知識圖譜、推薦系統等任務離不開圖的建模,非結構化場景中的目標檢測、問答、關系抽取等任務中也經常利用圖的特性。如目標檢測任務中有很多工作是通過場景圖來建模圖片中的上下文關系,從而實現更好的識別性能。

圖學習傳統的研究方向主要集中在聚類分析的理論、方法及應用。針對多元數據的多樣性、非全性、可學性,主要研究里面的多視圖聚類的融合機理、有效填補缺失方法和自動學習聚類特征。

多視圖聚類的融合機理

多視圖聚類的融合機理方面我們提出了由對抗學習所引導產生的極大 - 極小優化,實現多視圖聚類的新范式。通過對抗學習的機制,改變傳統的 min-min 或者 max-max 的學習機制,使所提出的學習算法能夠有理論化的全局最優性。此外,基于采樣和錨點選取,以及逼近的方式,實現了高效率多核聚類算法,提升了聚類算法處理缺失數據的計算效率,將復雜度從 (N 3 )降為 O(N) 的線性復雜度,通過這種方式實現更緊的額外風險理論上界。比如,在醫療體檢過程中很難保證數據完備的情況下怎么快速實現數據填充,以及在缺失情況下的特征學習和表示學習,我們提出了一系列工作,提升了聚類算法處理缺失數據的計算效率,實現了填充和聚類的復雜度是 O(N) 的精度;同時分析了算法的泛化誤差界,從理論上保證了有效性。

在深度聚類方面,我們首次從理論和實驗上證明了深度判別式無監督學習中的在群點優勢,并提出了首個深度離群點檢測的自監督學習框架,實現了有效的深度離群點檢測。以往研究主要針對鄰接矩陣和核矩陣這兩個相對核心觀點,它們與圖數據之間有很多相同地方,比如給定任何一個鄰接矩陣或者核矩陣可以和一個無向圖相對應,而圖數據由于其關系的引入,尤其在語義信息引入的情況下,它的信息量相比于傳統的鄰接矩陣和核矩陣又有質的飛躍。因為語義信息的引入在原來核矩陣和鄰接矩陣只能表示數據結構和數據特征的條件下引入了更加豐富的語義信息,而隨著大語言模型 (LLMs) 的提出,尤其模型在語言能力、推理能力方面展現較以往的方法非常大的性能提升情況下,我們也積極將研究范圍從傳統的機器學習向基于 LLMs 的圖學習進行拓展。

3 知識圖譜學習

目前,人工智能發展慢慢從感知時代向認知時代邁進,而在認知時代如何度量知識和應用知識,以及提升系統的智能性、泛化性成為重要的研究問題。

知識圖譜推理旨在基于已知邏輯規則推導出新的事實。如圖 1 所示,我們第一個在不同圖類型上,針對知識圖譜推理模型進行了整理工作,其中整理了 221 個前沿 KGR 模型及 69 個數據集,發現靜態圖譜推理、時序圖譜推理、多模態圖譜推理有較多的研究,且這三個方向結合知識圖譜和知識推理進行相應推理的趨勢非常明顯。此研究成果,題為 A Survey of Knowledge Graph Reasoning on Graph Types: Static, Dynamic, and Multi-Modal 的文章已在 TPAMI’24 上發表。

圖 1 知識圖譜推理

大模型是一種知識參數化的存儲形式,即知識以參數的形式存儲在 Transformer 模型中;而圖譜是一種知識的結構化存儲形式,它通過節點和邊的形式把知識進行存儲。這兩種知識存儲的優缺點非常明顯,LLMs 很靈活,具有很強的語義理解能力和交互能力;而知識圖譜相對而言雖然難以構建,處理比較固定,但是穩定性、推理能力等方面具有很大優勢。

3.1 關系關聯錨點增強的知識圖譜補全方法

我們嘗試將大語言模式與知識圖譜這兩種結構化和參數化的知識存儲形式進行融合,提升各自的性能。其中,關系關聯錨點增強的知識圖譜補全(RAA-KGC)方法中,試圖將 LLMs 作為上下文的一種存儲形式,通過大語言模式提升上下文信息,輔助知識圖譜推理任務。在知識圖譜推理任務中,圖譜主要提供上下文信息,與以往的自然語言問答較顯著的區別就是它沒有對于答案的顯示描述,只能通過提供頭實體的關系預測尾實體。例如歐洲具有哪些部分?當遇到這個問題時很難有一個直觀的概念,到底指的是歐洲有哪些國家還是地理位置等信息,沒有明確方向。要使鏈接預測任務具有更好的下游節點預測效果。因此,我們提出將目標實體作為錨定的形式,指引增強方法對尾節點的表達能力。比如給出一些范例,如歐洲的組成部分有葡萄牙國家,接下來做類似任務時就容易構建,只要找到歐洲的其他國家即實現了更好的鏈接預測。

基于上述思想,提出了錨點的構建方法、錨點的聚類方法,以及網絡的設計方法,實現所提算法,并在多個數據集上證明了RAA-KGC性能的有效性。

此外應用中,針對知識圖譜問答的任務,因為LLMs 具有任務編排器的作用,所以希望能將輸入的自然語言變成知識圖譜的一種查詢語句,且具有一定的泛化性能;也就是輸入任何自然語言都能很快實現知識圖譜信息查詢。由此,通過從知識庫中檢索具體的語義信息可以很好地緩解事實性的幻覺。

如何實現上述所述結果?例如,如果檢索“巴塞羅那球隊比賽過的場地有哪些可以參觀”,要把這句話轉成知識圖譜的檢索語句,首先要定位到“巴塞羅那”這支球隊;再定位到它在哪些地方打過比賽,這些地方又有哪些位于巴塞羅那;最后通過一系列程序化的檢索語句,即實現最終信息的提取。這是復雜知識庫知識圖譜的檢索方法,但是,它與以往的數據相比有較明顯的問題。比如,我們可以獲取的數據量較小,如何在少量數據的情況下通過數據增強的方式實現更大規模的數據集的構建。

3.2 主動數據增強的復雜知識庫問答方法

“自然語言和程序對”是相對來說比較“冷門”的研究方向,難點為在實現“自然語言和程序對”匹配機制的同時,還要在一定程度保證正確率。然而,這些高質量的標注數據通常難以自動化生成,需要專業人員的手動標注,導致真實場景下的標注數據往往是有限的。

為了在此場景下進一步提升問答模型的總體性能,我們通過采用主動學習策略選擇性生成類似于驗證集中代表性錯誤樣本的合成對,提出一種難度感知主動數據增強的復雜問答方法(DADA-CQA),總體框架主要由兩個處理階段組成。如圖 2(a)所示,在迭代訓練階段,使用預處理的原始訓練集和合成數據集來訓練語義解析器;在訓練過程中,利用基于難度感知主動數據增強的合成對生成模塊,有選擇地生成大量有價值的合成對,用于下一個回合的模型訓練。如圖 2(b)所示,在模型推理階段,首先使用核采樣為每個測試問題生成多個候選程序;然后,對其進行參數對齊和程序過濾處理后,將保留下來的有效候選程序提交給基于加權投票機制的投票排序器 Voting Ranker 進行答案一致性評估,以進一步提高答案準確率。

圖 2 DADA-CQA 的總體框架

采用主動學習的方法時,首先在訓練過程中找到分類容易錯誤的樣本,基于它們生成問題模板,在模板基礎上結合知識圖譜庫中的已有知識替換其中一部分;然后提取代碼的核心結構,構建部分可換的基于圖譜的新的訓練數據生成模式和生成范式。通過聚類學習錯誤樣本的典型數據,同時通過圖譜加強的典型代表程序的生成范式來生成語義一致的訓練數據。

我們在大規模復雜問答數據集 KQA Pro 上開展了廣泛實驗,并在全監督 (full training set) 和低資源(10 K training set) 設置下驗證了方法的有效性,證明所提方法能夠給很多算法帶來性能提升,以及泛化性能。

3.3 基于大模型的測試時訓練框架

目前,圖神經網絡(GNNs)面臨著一些挑戰,如特征表達能力有限,GNNs 通常使用較低質量的嵌入作為節點初始特征,限制了它們表達復雜節點信息的能力;此外,在結構信息與文本信息的整合中,對于包含豐富文本信息的圖,如何有效地結合結構信息和文本信息仍是一個挑戰。

LLMs與GNNs的結合可以產生強大的協同效應,如增強了節點特征,提供更高質量的節點特征,有效捕捉文本和上下文信息;結構信息與文本理解的融合,GNNs 擅長捕捉結構關系,而 LLMs 擅長處理文本,兩者結合可以實現更全面和強大的圖學習。

具體地,不管是傳統的 GNNs 處理方法還是Tanrsformer 都要解決的是對未知數據甚至其他領域數據的遷移問題。應對遷移數據時,因為 LLMs在很多數據集上都有過訓練,所以在各類型的數據集上都有訓練經驗,針對圖模型和傳統模型很好的信息補充。我們利用 LLMs 作為節點注釋器,整合 LLMs 和 GNNs 的優勢,利用極小的成本實現對于預訓練模型的測試時訓練微調。將 LLMs 作為圖數據、GNNs 學習標簽的生成方式,通過這種方式驗證語言模型生成標簽的準確率。這里 GNNs 主要有兩個作用,一是如果要對數據進行標注進行引導,它具有更好的多樣性;二是將把握不好的數據進行數據標注和數據增強,提升其他領域數據的泛化性能。

我們在 4 種不同偏移類型的 5 個不同規模的節點分類數據集上驗證了方法的有效性。

近年來,以 Transformer、BERT 和 GPT 為代表的 LLMs 取得了顯著進展。這些模型不僅在各種自然語言處理任務(如情感分析、機器翻譯和文本分類)中表現出色,還展現出了強大的遷移學習能力。隨著研究的深入,越來越多的學者開始探索 LLMs 的多模態能力,嘗試將其應用于處理圖像、視頻和圖數據等多種類型的數據,為圖大模型的誕生奠定了基礎。

3.4 聚類算法與基于大模型的推薦系統

推薦系統則是另外一種圖數據常見的場景,通過分析用戶的行為和偏好,為用戶提供個性化內容或產品技術,廣泛應用于電商、社交媒體、影視音樂等領域。以 GPT 為代表的 LLMs 展現了強智能性,具有強大的理解能力和語義知識。傳統的推薦系統多依賴于協同過濾等方法,處理數據稀疏性、冷啟動問題存在局限。LLMs 的引入為解決這些問題提供了新思路。

例如,如果把 LLMs 中關于用戶的商品知識嵌套正在使用的圖模型中,如圖 3 所示,LLMs 所學到的特征分布和圖模型所學到的特征分布有較明顯的分布差異,因為圖數據是通過三元組至少是二元組的方式,而自然語言沒有結構性的概念。

圖 3 特征分布

為了更好地實現在 LLMs 和圖模型進行知識蒸餾,把 LLMs 的知識嵌入到用于推薦的圖模型中,我們設計了在兩個模型中信息對齊的方式,同時在 LLMs 和圖模型中設計公有信息和私有信息,通過在公有信息隊做到信息對齊,實現 LLMs 只將圖模型的遷移。針對 LLMs 和推薦模型在訓練輸入、訓練過程、語義表示等方面存在顯著差異,直接對齊二者存在的弊端,首先通過設計正交損失和均勻性損失來保證解耦合之后獨有特征和共享特征的有效性,避免其退化為噪聲特征;其次基于共享特征,分別構建 LLMs 和推薦模型特征的相似度矩陣作為全局相似度圖,從全局角度遷移共享的大模型知識;此外,通過聚類分別獲取 LLM 和推薦模型特征空間下的 user-item 的興趣中心,將這些興趣中心視為局部信息,在局部進行對齊策略,實現了這兩個模型的對齊,保證信息提取的有效性,以及模型信息遷移的流暢性。

從實驗結果看,所設計的解耦對齊框架可以提升 baseline 的推薦水平;此外作為一種插入式的方法,在多個方法和數據集上體現出了一定的泛化能力;同時消融實驗和敏感性分析實驗也說明了策略的有效性。

3.5 圖聚類增強的聯邦學習后門防御算法

在圖聚類增強的聯邦學習后門防御算法中,我們主要針對聯邦學習這種大模型常用的訓練方法。在該場景下,去中心化和數據不可控性加劇了安全威脅,其中一種重要的威脅形式就是后門攻擊。尤其大模型時代,模型規模相比之前的體量大很多,如果直接針對數據模型計算它們之間的相似度,判斷某個模態是否為后門攻擊難度會大很多,也就是所謂的維度詛咒問題。

為了更好實現后門的檢索,提出將多視圖聚類的方法和后門攻擊進行組合,即通過多視圖聚類將不同部分的代碼進行聚類,學習得到它的數據低維表示,構建多個對于同一代碼的不同描述,豐富更新的參數,更加準確地描述對應的代碼,用更小的時間開銷取得更好的效果。從與其他防御算法的對比可以看出,本算法具備客戶端篩選機制,利用了歷史信息,無需客戶端保存輔助數據,也不需要添加噪聲,并能夠有效消除后門影響。

鑒于大模型的參數量較大,我們采用分層提取參數特征的方式來描述客戶端屬性,并通過屬性圖畫客戶端之間的關系;然后利用圖聚類算法學習客戶端的低維嵌入表示,識別出惡意客戶端。

實驗結果表明,此算法能在保證時間開銷一定的情況下取得比以往算法更好的效果,同時空間開銷上也會有更好的表現。

3.6 聚類引導的高效圖表示學習

傳統的知識圖譜表示學習模型通常對圖中的實體、關系和事實三元組進行淺層編碼。具體來說,傳統方法將知識圖譜中的實體映射到 N×d 的向量空間中,其中 N 是實體的數量、d 為特征維度。然而,模型在索引實體時,其淺查找方式導致存儲嵌入矩陣的內存消耗隨實體數量線性增長,導致計算成本很高。針對這個問題,我們利用聚類質心的代表性和知識圖譜中關系類型的描述能力,設計了一種新型基于錨點的知識圖譜表示學習模型,采用了基于關系聚類的錨點選擇策略。

在聚類引導的高效圖表示學習任務中,將聚類方法同樣引入到圖學習任務中。具體地,對關系事實的特征而不是實體進行聚類,其中簇數自然設置為關系類型的數量,這是因為每個事實都可以通過知識圖譜中的關系來表征;隨后,在聚類中心周圍選擇代表性三元組,進一步將其映射到相應的錨實體中完成錨點選擇;最后,只有錨點參與 GNNs 的特征傳播和聚合,因此能夠提高訓練效率。這是我們首次在知識圖譜映射任務中應用這個錨點構建的方式提升訓練和測試效率,也是第一個在本領域中使用三元組的形式構建錨點。

我們在 4 個鏈路預測數據集和 2 個實體分類數據集上,分別驗證了方法的有效性和高效性。

4 大模型小型化——思維鏈蒸餾

思維鏈是一種激發大模型產生中間思考過程,從而增強大模型對復雜問題拆解能力的提示詞(prompt)設計方式。根據以往研究表明,思維鏈是參數量超過 100 B 才會出現的涌現能力。而參數超過 100 B,意味著很多資源受限場景都無法受益于思維鏈帶來的解決復雜問題的優勢。因此,一些研究人員提出了思維鏈蒸餾,并認為,在特定的任務上思維方式往往固定,小模型經過大模型的指導能一定程度上掌握對復雜問題拆解的能力。

現有的思維鏈蒸餾方法主要分為預思考和前綴機制兩類。二者本質相同,即先通過 prompt 設計,獲取大模型對于問題的思考過程;然后,利用這一思考方式作為除了標簽 / 答案之外額外的監督信息,訓練小模型對于問題也產生對應的思考。不同之處在于,預思考在蒸餾時將思考過程與答案放在同一生成序列中,而前綴機制則通過不同的前綴來提示模型生成答案還是思考過程,因此思考過程與答案不在同一生成序列。

對于預思考,由于它將思考過程放在答案前進行生成,善于將復雜問題拆解為簡單子問題,如圖 4 所示的第二個問題。但是圖 4 所示的第一個問題,當思考過程中出現微小的錯誤(見圖中下劃線部分)時會顯著影響答案的生成。而對于前綴機制而言,由于思考過程與答案不在同一生成序列,因此思考過程與答案間不具備上下文約束,所以常常出現思考過程和答案相悖的情況。

圖 4 預思考

基于以上分析,我們提出了一種自適應學習機制。首先提出了一種與后預思考相對的后思考蒸餾方式,它將思考過程放在答案的后面進行生成,即思考過程將充當對答案的解釋作用。這種思考過程和答案順序的調整,可以帶來兩個好處。

(1)增加對難例樣本的學習能力。這是因為當模型在訓練過程中輸出錯誤答案時,其輸出的思考過程作為解釋會企圖從一些奇怪的角度來解釋這個錯誤答案的合理性,從而相比于在正確答案上的解釋,小模型在錯誤答案上的解釋與大模型提供的正確思考之間分布差距更大,最終造成在錯誤樣本上的損失函數要遠大于正確樣本。因此,這種錯誤放大功能使得小模型在學習時可以增加對難例樣本的學習注意力。

(2)由于思考過程在答案后生成,因此,思考過程中的微小錯誤也不會影響答案的正確性。

后思考雖然具備以上優勢,但是它可能丟失了預思考對復雜問題拆解為簡單子問題的天然能力。因此,受人類思考方式的啟發(簡單問題答案脫口而出,復雜問題先思考再回答),我們通過在感知模塊中對問題復雜度進行感知,然后根據感知生成 soft prompt token 來提示模型進行預思考和后思考,從而實現了預思考和后思考的優勢結合。

此機制在 12 個推理任務(數學計算、常識推理等)、2 個不同結構的語言模型上,驗證了方法的有效性。

5 未來挑戰

目前受 LLMs 的啟發,已經有少量工作開始探索圖基座模型在涌現能力上的可能性,具體圍繞與預訓練等在 LLMs 中實現涌現能力的關鍵步驟展開。但是,基礎模型的涌現能力通常僅存在于具有海量參數的的骨干網絡中,如文章 Towards Graph Foundation Models: A Survey and Beyon; Scaling Laws for Neural Language Models 顯示,OpenAI 的性能隨模型參數、數據量增加而增加的現象(見圖5)。然而,GNNs 往往參數較少,意味著在未來圖基座模型的骨干網絡可能需要重新設計。

圖 5 模型性能隨參數、數據量增加而升高

由于圖數據通常包含豐富的文本信息,所以,目前主流的方法還是將LLMs作為圖基座模型使用。這些方法主要采用兩種形式:①在 LLM 中編碼通過 GNN 作為結構編碼器將圖編碼為 LLM 的輸入token;②在 transformer 骨干網絡中,引入圖的結構編碼信息。但是,這些方法仍然不是用 LLM 直接處理圖結構信息,會造成一定的信息損失,無法有效地建模圖結構。例如,我們采用任務、語義驅動的圖聚類算法針對圖 6 所示的四幅圖像,通過語義描述或任務理解動態選擇適合的特征可能每個人都會有不同的結果,如根據背景對這些數據進行聚類,第一幅和第二幅屬于一類,因為它們都在草地上;而根據動物種類進行聚類,可能第一幅和第三幅是一類。即每次聚類過程中任務和導向都不同,如何通過任務自適應訓練與當前任務最為匹配的特征進行聚類?因此,探索在 LLM 中更好地建模圖結構是未來研究的重要挑戰。

圖 6 圖聚類

(參考文獻略)

劉新旺

國防科技大學計算機學院教授、國家杰青 / 優青獲得者。主要研究興趣包括機器學習、數據挖掘等。發表 CCF A 類及 IEEE Trans. 論文 200 余篇,谷歌學術引用近 2 萬次,入選2022—2023 年度全球 2% 頂尖科學家榜單。曾 2 次獲得湖南省自然科學一等獎。IEEE TNNLS 等期刊 AE,多次擔任 ICML、NeurIPS 等頂會資深程序委員 / 領域主席。

選自《中國人工智能學會通訊》

2024年第14卷第12期

大模型技術專欄

掃碼加入學會獲取更多學會資源

閱讀原文

會務組聯系方式  

展會咨詢

相關AI人工智能行業展會

2026年深圳國際元宇宙及電競娛樂展MES

2026-03-01~03-03 距離242
75071展會熱度 評論(0)

2025年上海世界人工智能大會WAIC

2025-07-26~07-29 距離24
199493展會熱度 評論(0)

2025年鄭州世界數字產業博覽會WDIE

2025-03-21~03-23 展會結束
57606展會熱度 評論(0)

2025年北京全球數字經濟大會Global Digital Economy Conference

2025-07-01~07-01 展會結束
57317展會熱度 評論(0)

2024年蘇州人工智能展AIExpo

2024-12-10~12-11 展會結束
80360展會熱度 評論(0)

2025年深圳高交會人工智能與大數據展CHTF

2025-11-14~11-16 距離135
50981展會熱度 評論(0)

2025年中國國際供應鏈促進博覽會-北京鏈博會CISCE

2025-07-16~07-20 距離14
163690展會熱度 評論(0)

2025年第6屆深圳國際人工智能展GAIE

2025-05-22~05-24 展會結束
83370展會熱度 評論(0)
X
客服
電話
13924230066

服務熱線

掃一掃

世展網公眾號

微信小程序

銷售客服

門票客服

TOP
X
主站蜘蛛池模板: 江山市| 道孚县| 云浮市| 吐鲁番市| 祁连县| 化隆| 临江市| 合阳县| 黎平县| 兴宁市| 全南县| 襄城县| 贡觉县| 德兴市| 游戏| 琼海市| 荆州市| 福建省| 清原| 六枝特区| 大厂| 饶阳县| 郁南县| 金川县| 兴山县| 肃北| 千阳县| 商河县| 中宁县| 黔南| 营山县| 河南省| 元朗区| 海宁市| 鄱阳县| 吉林市| 玉龙| 景谷| 新沂市| 淳化县| 内江市|