(通訊員程齊凱)信息科學(xué)領(lǐng)域頂級期刊國際信息科學(xué)與技術(shù)學(xué)會會刊Journal of the Association for Information Science and Technology (JASIST)發(fā)表了我院博士生張力(現(xiàn)已畢業(yè))作為第一作者的研究成果“LAGOS-AND: A Large Gold Standard Dataset for Scholarly Author Name Disambiguation”。該文指導(dǎo)老師和通訊作者為我院院長、信息檢索與知識挖掘研究所所長陸偉教授。

論文探索了學(xué)術(shù)界的人名消歧問題,提出了一種利用開放學(xué)術(shù)信息資源ORCID和DOI自動構(gòu)建大規(guī)模有標(biāo)簽數(shù)據(jù)集的方法,并使用該方法構(gòu)建了一個(gè)大規(guī)模黃金標(biāo)準(zhǔn)作者消歧數(shù)據(jù)集(Large Gold Standard Dataset for Author Name Disambiguation, LAGOS-AND)。該數(shù)據(jù)集包含兩個(gè)子數(shù)據(jù)集LAGOS-AND-BLOCK和LAGOS-AND-PAIRWISE,前者主要服務(wù)面向聚類的作者消歧研究,后者主要服務(wù)面向分類的作者消歧研究。與現(xiàn)有的數(shù)據(jù)集相比,LAGOS-AND數(shù)據(jù)集呈現(xiàn)多個(gè)優(yōu)勢:數(shù)據(jù)集的初始版本包含約80萬作者和750萬條文獻(xiàn)(LAGOS-AND-BLOCK)以及接近100萬個(gè)作者實(shí)例對(LAGOS-AND-PAIRWISE),且這兩個(gè)子數(shù)據(jù)集在作者位置分布、出版年分布、性別分布、族裔分布、姓名流行度分布、研究領(lǐng)域分布等6個(gè)維度上均與整個(gè)微軟學(xué)術(shù)圖譜(Microsoft Academic Graph, MAG)較為接近。
在構(gòu)建數(shù)據(jù)集的過程中,該文還探討了一種之前少收關(guān)注的作者歧義類型——同人異名現(xiàn)象。通過將三個(gè)大型文獻(xiàn)數(shù)據(jù)庫PubMed、MAG和Semantic Scholar中的作者姓名與該作者在ORCID頁面上呈現(xiàn)的官方姓名比較,揭示了這三個(gè)文獻(xiàn)數(shù)據(jù)庫中的作者姓氏變異程度,約在5.80%~9.59%之間,并且如果考慮帶有音調(diào)的字母(如á)帶來的姓氏變異或使用主流的姓名解析工具從全名中抽取姓氏進(jìn)行姓氏比較,得到的姓氏變異程度會更高,約為8.04%~12.55%。這一發(fā)現(xiàn)表明,除同名異人外,作者姓氏變異或同人異名問題也是一種重要的作者歧義類型。
最后,基于LAGOS-AND數(shù)據(jù)集,論文還構(gòu)建了一個(gè)消歧方法評測組件。評測結(jié)果發(fā)現(xiàn),融合文獻(xiàn)的深度語義信息能夠顯著提高消歧性能;還發(fā)現(xiàn)MAG數(shù)據(jù)庫中的作者ID的準(zhǔn)確性較低,這一點(diǎn)在召回率上尤甚。基于該發(fā)現(xiàn),文章建議后續(xù)的研究應(yīng)謹(jǐn)慎地使用MAG作者ID。

LAGOS-AND的獲取鏈接為 https://zenodo.org/record/7313380。目前,LAGOS-AND已經(jīng)擁有2個(gè)正式版本(Version 1.0和Version 2.0),其中Version 1.0版是依托2019年的MAG文獻(xiàn)數(shù)據(jù)庫創(chuàng)建的,Version 2.0版是依托2022年的OpenAlex文獻(xiàn)數(shù)據(jù)庫創(chuàng)建的。自發(fā)布后,LAGOS-AND數(shù)據(jù)集在學(xué)術(shù)界產(chǎn)生了一定的影響力。截至2023年9月,該數(shù)據(jù)集已被瀏覽超過1000次,被下載超過180次。(責(zé)編范秋硯)
論文鏈接:https://doi.org/10.1002/asi.24720