基于字角色标注的中文书目关键词标引研究被引量：10

Research on Keywords Indexing for Chinese Bibliography Based on Word Roles Annotation

下载PDF

导出

摘要中文书目机器自动标引是数字图书馆建设中亟待解决的关键问题之一。本文试图将条件随机场(CRFs)序列标注机器学习算法引入到关键词抽取中,建立面向图书内容、基于字角色标注的中文书目关键词标引模型。将图书内容转化为字序列,进而提出构建关键词角色空间模型和综合利用字序列上下文特征的设计思路。通过实验,从题名和内容提要中分别自动抽取关键词,论证该模型的合理性和实用性。 Automatic indexing by computers for Chinese bibliography has become one of the most critical problems which should be solved immediately in digital library construction. This paper tries to introduce Conditional Random Fields （CFRs） algorithm into the keyword extraction of Chinese bibliography, and builds the model which faces book contents based on the word roles annotation. The model turns the book contents into sequences of words. Based on that, an idea which combines word roles space model building with context features of word sequence comprehensive u- tilization has been proposed. Moreover, the paper also verifies the rationality and practicality of the model by showing the experiment of automatically extracting keywords from titles and abstracts. 6 figs. 3 tabs. 23 refs.

作者邓三鸿王昊秦嘉杭苏新宁

机构地区南京大学信息管理系

出处《中国图书馆学报》 CSSCI 北大核心 2012年第2期38-49,共12页 Journal of Library Science in China

基金国家社科基金项目“面向语义网本体的知识管理研究”(编号:09CTQ010)的研究成果之一

关键词中文书目关键词标引字角色序列标注自动标引 Chinese bibliography. Keywords indexing. Word roles. Sequence annotation. Automatic indexing

分类号 G25 [文化科学—图书馆学] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1王昊,苏新宁.基于CRFs的角色标注人名识别模型在网络舆情分析中的应用[J].情报学报,2009,28(1):88-96. 被引量：13
2杨洁,季铎,蔡东风,林晓庆,白宇.基于联合权重的多文档关键词抽取技术[J].中文信息学报,2008,22(6):75-79. 被引量：15
3章成志,苏新宁.基于条件随机场的自动标引模型研究[J].中国图书馆学报,2008,34(5):89-94. 被引量：23
4章成志.基于集成学习的自动标引方法研究[J].情报学报,2010,29(1):3-8. 被引量：10
5李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
6徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65
7赵健,王晓龙,关毅,徐志明.中文名实体识别：基于词触发对的条件随机域方法[J].高技术通讯,2006,16(8):795-801. 被引量：3
8张雪英,Jǔrgen Krause.中文文本关键词自动抽取方法研究[J].情报学报,2008,27(4):512-520. 被引量：13
9张庆国,薛德军,张振海,张君玉.海量数据集上基于特征组合的关键词自动抽取[J].情报学报,2006,25(5):587-593. 被引量：17
10王昊,邓三鸿.HMM和CRFs在信息抽取应用中的比较研究[J].现代图书情报技术,2007(12):57-63. 被引量：12

二级参考文献125

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
2储荷婷.索引工作自动化:自动标引的主要方法[J].情报学报,1993,12(3):218-229. 被引量：10
3刘剑兰,朱东华.信息抽取技术在情报监测中的应用[J].情报学报,2004,23(6):661-666. 被引量：6
4侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
5王晔,黄上腾.Apriori and N-gram Based Chinese Text Feature Extraction Method[J].Journal of Shanghai Jiaotong university(Science),2004,9(4):11-14. 被引量：4
6王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
7以科技手段辅助网络舆情突发事件的监测分析——方正智思舆情辅助决策支持系统[J].信息化建设,2005(10):50-52. 被引量：16
8周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
9姜维,关毅,王晓龙.基于条件随机域的词性标注模型[J].计算机工程与应用,2006,42(21):13-16. 被引量：12
10钱晶,张杰,张涛.基于最大熵的汉语人名地名识别方法研究[J].小型微型计算机系统,2006,27(9):1761-1765. 被引量：26

共引文献264

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
3曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：7
4张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：11
5孙劲光,赵文霞.条件随机场下的人脸图像融合方法[J].辽宁工程技术大学学报（自然科学版）,2020(5):428-433.
6索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
7张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,28(1):189-192. 被引量：19
8马芳,王炳锡,李弼程.英语从句识别中的特征表示[J].计算机应用研究,2007,24(2):89-91. 被引量：2
9刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
10王灿辉,张敏,马少平,黄宇.基于相邻词的中文关键词自动抽取[J].广西师范大学学报（自然科学版）,2007,25(2):161-164. 被引量：10

同被引文献160

1张影.图书馆采编工作革新探析[J].图书情报工作,2013,57(S1):108-110. 被引量：14
2邹凯,汪全莉.智能搜索引擎与数字图书馆个性化服务[J].情报科学,2004,22(7):874-877. 被引量：8
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4陈智,隋光远,皮秀云.论知识点是人的认知单位[J].心理科学,2002,25(3):369-370. 被引量：23
5李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
6储荷婷.索引工作自动化:自动标引的主要方法[J].情报学报,1993,12(3):218-229. 被引量：10
7葛煦,卢宝华,杨湘华.谈高校科技发展中专利文献的利用[J].技术与创新管理,2005,26(1):68-70. 被引量：6
8王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
9李志明,宋春玲.基于读者服务的图书馆业务流程重组[J].图书馆学刊,2005,27(6):99-100. 被引量：15
10杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006,17(9):1837-1847. 被引量：242

引证文献10

1魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：8
2王昊,邹杰利,邓三鸿.面向中文图书的自动标引模型构建及实验分析[J].现代图书情报技术,2013(7):55-62. 被引量：2
3唐晓波,肖璐.融合关键词增补与领域本体的共词分析方法研究[J].现代图书情报技术,2013(11):60-67. 被引量：23
4王密平,王昊,邓三鸿,吴志祥.基于CRFs的冶金领域中文专利术语抽取研究[J].现代图书情报技术,2016(6):28-36. 被引量：13
5李千驹,李思达,刘建毅.一种基于知识组织的关键词自动标引方法[J].情报科学,2016,34(11):107-110. 被引量：8
6李树青,曹杰,庄光光,陈俊鹏.基于二分网络分析方法的学术文献关键词自动抽取方法研究[J].情报学报,2016,35(12):1305-1312. 被引量：7
7张坤,王文韬,谢阳群.机器学习在图书情报领域的应用研究[J].图书馆学研究,2018(1):47-52. 被引量：29
8王国玺,李兵,张华敏,李鸿涛,王蕊,包蕾,卢鹤,张伟娜.基于知识组织的医案古籍知识库的构建与思考[J].西部中医药,2019,32(9):49-52. 被引量：12
9储节旺,陈梦蕾.人工智能驱动图书馆变革[J].大学图书馆学报,2019,37(4):5-13. 被引量：48
10张海潮,王昊,唐慧慧,薛蔚.CRFs字角色标注方法在中文附加关键词抽取中的应用研究[J].情报理论与实践,2019,42(2):169-176. 被引量：5

二级引证文献154

1熊欣,王昊,张海潮,张宝隆.中文术语粒度对其区分能力测度的影响分析[J].数据分析与知识发现,2020,4(2):143-152. 被引量：2
2安娜.元宇宙视域下图书馆发展路径研究[J].传媒论坛,2023,6(14):111-114.
3许鑫,郭金龙.基于领域本体的专题库构建——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):2-9. 被引量：18
4郭金龙,洪韵佳,许鑫.中华烹饪文化领域本体构建及其应用[J].现代图书情报技术,2013(12):10-18. 被引量：7
5洪韵佳,许鑫.基于领域本体的知识库多层次文本聚类研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):19-26. 被引量：9
6金碧漪,郭金龙,许鑫.利用领域本体优化文档检索的研究——基于KIM平台的设计与实现[J].现代图书情报技术,2013(12):27-33. 被引量：3
7王星,刘伟.基于引文的中文学术文献自动标引方法研究[J].图书情报工作,2014,58(3):106-110. 被引量：9
8陈果,胡昌平.科研领域关键词网络的结构特征与启示——基于图情学科的实证研究[J].现代图书情报技术,2014(7):84-91. 被引量：10
9陈果,肖璐,赵雪芹.领域知识分析中的关键词选择方法研究——一种以学科为背景的全局视角[J].情报学报,2014,33(9):959-968. 被引量：20
10关鹏,王曰芬.基于LDA主题模型和生命周期理论的科学文献主题挖掘[J].情报学报,2015,34(3):286-299. 被引量：47

1张建东.有关“高校中文书目合作回溯建库”的几个问题[J].图书情报工作动态,1993(3):24-26. 被引量：1
2熊光莹,董成泰.高校“中文书目合作回溯建库研究”项目的回顾[J].北京高校图书馆,1993(1):87-92.
3庄蕾波.略谈中文书目数据库建设[J].图书馆工作,1997(3):13-14. 被引量：2
4富平.北京图书馆中文书目数据库建设的回顾与展望[J].北京图书馆馆刊,1996,5(2):8-12. 被引量：7
5李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
6阿龙.无纸阅读时代——电子书阅读器导购[J].电脑知识与技术（经验技巧）,2010(8):68-72.
7王昊,邹杰利,邓三鸿.面向中文图书的自动标引模型构建及实验分析[J].现代图书情报技术,2013(7):55-62. 被引量：2
8李军锋,吕学强,周绍钧.带权复杂图模型的专利关键词标引研究[J].现代图书情报技术,2015(3):26-32. 被引量：6
9武学良,于菲菲.浅谈中文书目信息搜集与利用[J].中国出版,2014(3):64-66. 被引量：5
10王密平,王昊,邓三鸿,吴志祥.基于CRFs的冶金领域中文专利术语抽取研究[J].现代图书情报技术,2016(6):28-36. 被引量：13

中国图书馆学报

2012年第2期

浏览历史

内容加载中请稍等...

基于字角色标注的中文书目关键词标引研究被引量：10

参考文献12

二级参考文献125

共引文献264

同被引文献160

引证文献10

二级引证文献154

相关作者

相关机构

相关主题

浏览历史

基于字角色标注的中文书目关键词标引研究 被引量：10

参考文献12

二级参考文献125

共引文献264

同被引文献160

引证文献10

二级引证文献154

相关作者

相关机构

相关主题

浏览历史

基于字角色标注的中文书目关键词标引研究被引量：10