期刊文献+

基于论文题录的数据线索识别与知识图谱构建 被引量:2

Data Clue Recognition and Knowledge Graph Construction Based on Paper Bibliography
下载PDF
导出
摘要 [目的/意义]从研究成果中抽取数据线索,进而构建针对特定主题的数据索引,有助于提升研究者查找数据的全面性。[方法/过程]以社会科学领域所有学科中文核心期刊中关于“COVID-19”论文的题录信息为例,分三步进行了探索。(1)随机抽取1000篇摘要进行人工标注,然后以此为基础使用自适应增强等模型训练分类器,进而使用分类器识别出使用了数据的论文。(2)从使用数据的论文摘要中标注出数据线索实体,进而使用隐马尔可夫、长短期记忆网络等模型进行实体识别。(3)使用Neo4j数据库,基于抽取出的数据线索与题录中的其他信息构建知识图谱。[结果/结论]在判断论文是否使用了数据的任务中,自适应增强模型的F1值最高,达到0.869。在数据线索实体识别任务中,隐马尔可夫模型的F1值最高,达到0.805。由抽取出的数据线索与论文关键词、作者、期刊等信息融合构建的知识图谱能够实现基于主题词查找数据线索、基于数据线索查找其他信息等应用。 [Purpose/significance]Extracting data clues from research papers and then building data indexes for specific topics will help improve the comprehensiveness of researchers’data search.[Method/process]Based on the bibliographic information of papers on“COVID-19”in Chinese core journals of all disciplines in the social sciences,this study explored in three steps.①Randomly select 1000 abstracts for manual annotation,and then use Adaboost and other models to train the classifier.②Use the classifier trained in the first step to classify all abstracts,and then mark the data clue entities in the abstracts of the papers classified as using data,and then use models such as HMM,LSTM for data-clue entity recognition.③Use the Neo4j database to construct a knowledge graph based on the extracted data clues and other information in the bibliography.[Result/conclusion]In the task of judging whether the paper uses data,the F1 value of Adaboost model is the highest,reaching 0.869.In the data-clue entity recognition task,the HMM has the highest F1 value,reaching 0.805.The knowledge graph constructed by the fusion of extracted data clues and paper keywords,authors,journals and other information can realize applications such as searching for data clues based on keywords,and searching for other information based on data clues.
出处 《情报理论与实践》 北大核心 2023年第6期161-167,154,共8页 Information Studies:Theory & Application
基金 国家社会科学基金青年项目“面向多语种社会科学数据的线索发现方法研究”的成果,项目编号:22CTQ025。
关键词 数据线索 机器学习 题录 实体识别 知识图谱 data clues machine learning bibliography entity recognition knowledge graph
  • 相关文献

参考文献11

二级参考文献263

共引文献1086

同被引文献50

引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部