當前位置: 首頁 > 學術 > 正文

博士生姜藝JASIST發(fā)文探討關鍵詞的可控生成問題

發(fā)布時間:2023-09-22瀏覽次數(shù):

通訊員黃永)我院2021級博士研究生姜藝以第一作者身份撰寫的論文被信息科學領域頂級期刊國際信息科學與技術學會會刊(Journal of the Association for Information Science and Technology,JASIST)錄用。論文題目為“Generating Keyphrases for Readers: A Controllable Keyphrase Generation Framework”,指導教師和通訊作者為我院院長、信息檢索與知識挖掘研究所所長陸偉教授。

隨著關鍵詞在信息檢索與自然語言處理任務中的廣泛應用,關鍵詞抽取逐漸興起。然而,由于深度學習的端到端學習機制,使模型能夠直接學習文本的重要語義信息,在統(tǒng)計層面上重要的關鍵詞對相關任務的貢獻越來越小。同樣,由于大多數(shù)論文的關鍵詞幾乎都沒有明確標注其與論文內容的對應關系,這使得讀者無法像作者一樣清晰地知道各個關鍵詞在特定上下文中的語義角色,即關鍵詞功能。相對作者而言,讀者所見的關鍵詞語義并不完整(如下圖所示),僅根據(jù)關鍵詞文本本身難以快速理解文章的主要內容。在某種程度上,關鍵詞似乎不夠重要,關鍵詞抽取的必要性也有待商榷。

不同于關鍵詞,實體的類別明確界定了其所屬的知識范疇,極大地規(guī)避了語義缺失問題。同時,有研究指出,明確論文中特定類別的重要概念,將有助于快速回答研究工作的主要內容,比如“本文提出或改進了某方法,解決了某問題”。受此啟發(fā),該研究嘗試為關鍵詞標注功能類別,以完善關鍵詞的語義信息,使其在輔助讀者快速了解論文核心內容方面充分發(fā)揮作用。通過用戶實驗,驗證了關鍵詞功能對輔助讀者快速理解論文主要內容的有效性。在此基礎上,該研究重新審視了關鍵詞自動抽取任務,提出生成特定語義功能的關鍵詞,以彌合讀者與論文作者在關鍵詞理解層面的語義鴻溝,進而構建并實現(xiàn)了一個可控的關鍵詞生成框架——CKPG (Controllable Keyphrase Generation framework)。

該研究分別基于Transformer、BART和T5實現(xiàn)了CKPG模型并取得了較好的實驗效果,P@5、R@5和F1@5的宏平均值分別高達0.680、0.535和0.558。相關實驗結果表明,CKPG模型能夠生成語義邊界清晰、功能類別分明的論文關鍵詞。另外,論文對比了先抽取再分類的兩階段方法。假設第一階段的關鍵詞抽取準確率為100%,在第二階段,基于詞頻、位置信息、文本相似度等5個特征訓練了多個分類模型,對在文中出現(xiàn)的全部關鍵詞進行功能分類。實驗結果表明,在最大化兩階段方法抽取準確率的前提下,端到端的CKPG模型也更具優(yōu)勢,充分證明了該模型對于所提關鍵詞生成任務的有效性。

論文鏈接:https://doi.org/10.1002/asi.24749

乌拉特前旗| 古交市| 阳江市| 龙门县| 绥中县| 星子县| 南郑县| 乌兰察布市| 邯郸市| 江西省| 淮滨县| 文水县| 宿迁市| 德清县| 昌乐县| 鹿邑县| 大英县| 德保县| 富平县| 康马县| 新疆| 南澳县| 左贡县| 盐津县| 乃东县| 茌平县| 河南省| 土默特右旗| 龙江县| 定南县| 浦东新区| 汤原县| 阿图什市| 石景山区| 林芝县| 双峰县| 郓城县| 肃南| 北流市| 阳信县| 天水市|