基于语义联系的新闻网页关键词抽取被引量：10

Keyphrase Extraction from News Web Pages Based on Semantic Relations

下载PDF

导出

摘要提出一种基于语义联系的新闻网页关键词抽取方法,不仅考虑了词语在知识库《知网》中的语义相似度,还考虑词语在具体上下文中的相关性,用词汇链将词语语义联系表示成图形式,在此基础上抽取出新闻网页关键词。对从网易网站选取120篇有核心提示的新闻网页进行测试,实验结果表明,所提出的方法比基于词频的关键词抽取方法和基于《知网》语义相似度构建词汇链的关键词抽取方法,在准确率和召回率上有很大的提高,当抽取关键词个数为3时,比基于词频方法的准确率和召回率分别提高了27.77%和21.38%。 A new keyphrase extraction method based on semantic relations is proposed in this paper. Two kinds of relations are considered one is the semantic similarity between words in HowNet and the other is the word correlation in context. The lexical chains representing the relation graph between phrases are constructed to extract keyphrases. The experimental results show that the proposed method substantially outperforms the method based on term frequency and the method based on lexical chains that are constructed by the semantic similarity based on HowNet,in terms of recall and precision,especially when the number of keyphrases extracted is 3-the accurate rate is increased by 27.77 percent,and the recall rate is increased by 21.38 percent compared with the method based on term frequency.

作者谢飞吴信东胡学钢李星华江兆中

机构地区合肥工业大学计算机与信息学院佛蒙特大学计算机系合肥师范学院计算机科学与技术系

出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2009年第1期145-148,共4页 Journal of Guangxi Normal University:Natural Science Edition

基金国家自然科学基金资助项目(60573174) 中国科学院自动化研究所开放课题“HTML新闻网页过滤与总结系统”资助

关键词关键词抽取词汇链语义联系 keyphrase extraction lexical chain semantic relation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1TURNEY P D. Learning to extract keyphrases from text [R/OL]. Ottawa: National Research Council of Canada, (1999-02-17)[2008-11-10]. http ://iit-iti. nrc. gc. ca/iit-publications-iti/docs/NRC-41622, pdf.
2WITTEN I H.PAYNTER G W,FRANK E,et al. KEA :Practical automatic keyphrase extraction[C]//Proceedings of the 4th ACM Conference on Digital Libraries. New York : ACM Press, 1999 : 254-255.
3SILBER H G ,McCOY K F. Efficient text summarization using lexical chains[C]//Proceedings of the 5th International Conference on Intelligent User Interfaces. New York:ACM Press,2000:252-255.
4MORRIS J,HIRST G. Lexical cohesion computed by thesaural relations as an indicator of the structure of text[J]. Computational Linguistics, 1991,17 (1) : 21-48.
5李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
6刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
7索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
8刘群李素建.基于《知网》的词汇语义相似度计算.中文计算语言学,2002,7(2):59-76.
9PEAT H J ,WILLET P. The limitations of term co-occurrence data for query expansion in document retrieval systems [J]. Journal of American Society for Information Science, 1991,42 (5):378-383.
10董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：56

二级参考文献26

1徐通锵.“字”和汉语语义句法的生成机制[J].语言文字应用,1999(1):24-34. 被引量：52
2董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：58
3陈群秀.一个在线义类词库:词网 WordNet[J].语言文字应用,1998(2):95-101. 被引量：31
4李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
5张普.中文信息处理专题研究主持人的话[J].语言文字应用,2000(2):40-41. 被引量：5
6郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
7王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
8卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：27
9刘群李素建.基于《知网》的词汇语义相似度的计算[A]..第三届汉语词汇语义学研讨会[C].台北,2002..
10Turney P.D.Learning to extract keyphrases from text[R].National Research Council,Canada,NRC Technical Report ERB-1057,1999.

共引文献355

1张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：9
2罗益超,李争彦,张奇.基于句子选择的关键短语生成[J].中文信息学报,2021,35(8):64-72.
3吴婷,李明扬,孔芳.基于同义推理的篇章级实体上下位关系语料库构建[J].中文信息学报,2020(4):38-46. 被引量：1
4冉丽,何毅舟,许龙飞.基于Web结构挖掘的搜索引擎作弊检测方法[J].计算机应用,2004,24(10):158-160. 被引量：4
5李明琴,李涓子,王作英,陆大.中文语义依存关系分析的统计模型(英文)[J].计算机学报,2004,27(12):1679-1687. 被引量：9
6陈科,贾焰,杨树强,王永恒.汉语短文话题提取系统中SDTF*PDF算法的研究[J].计算机应用,2005,25(1):14-16. 被引量：1
7傅爱平.黏合式名词短语结构关系的考察和分析[J].中国语文,2004(6):508-520. 被引量：8
8孙宝军,王新军.P2P中基于本体论的知识管理框架模型及实现[J].计算机科学,2005,32(2):31-32. 被引量：1
9张涛,杨尔弘.基于上下文词语同现向量的词语相似度计算[J].电脑开发与应用,2005,18(3):41-43. 被引量：7
10安华林.现代汉语释义基元词探索[J].甘肃高师学报,2004,9(6):38-41.

同被引文献91

1钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
3谭胜,马静,吴一占.基于主题描述模型的相关性判断在网页信息抽取中的应用[J].情报学报,2011,30(2):155-159. 被引量：6
4唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报（信息科学版）,2005,23(5):535-540. 被引量：16
5朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
6耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
7娄德成,姚天昉.汉语句子语义极性分析和观点抽取方法的研究[J].计算机应用,2006,26(11):2622-2625. 被引量：64
8索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
9刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15
10程涛,施水才,王霞,吕学强.基于同义词词林的中文文本主题词提取[J].广西师范大学学报（自然科学版）,2007,25(2):145-148. 被引量：11

引证文献10

1何佳,周长胜,石显锋.网络舆情监控系统的实现方法[J].郑州大学学报（理学版）,2010,42(1):82-85. 被引量：27
2李芳芳,葛斌,毛星亮,汤大权.基于语义关联的中文网页主题词提取方法研究[J].计算机应用研究,2011,28(1):105-107. 被引量：5
3张瑞.SMS网络舆情信息监控系统的设计与实现[J].现代情报,2012,32(3):68-71. 被引量：2
4何晓阳,张精理,丁婷.医学新闻关键词自动提取策略[J].中华医学图书情报杂志,2014,23(4):13-17. 被引量：2
5袁津生,毛新武.基于组合特征的中文新闻网页关键词提取方法[J].计算机工程与应用,2014,50(19):222-226. 被引量：8
6郭建波,谢飞.基于多特征的关键词抽取算法[J].合肥工业大学学报（自然科学版）,2015,38(9):1215-1219. 被引量：6
7刘啸剑,谢飞,吴信东.基于图和LDA主题模型的关键词抽取算法[J].情报学报,2016,35(6):664-672. 被引量：36
8刘啸剑,谢飞.结合主题分布与统计特征的关键词抽取方法[J].计算机工程,2017,34(7):217-222. 被引量：7
9李月超,李芸洁,李勤,袁信,杨进,张欣.网络舆情监控系统中主题网络爬虫的研究[J].电脑知识与技术（过刊）,2015,21(1X):46-47. 被引量：2
10王里达.舆情监控系统软件开发与应用[J].电子制作,2013,21(9X):70-70.

二级引证文献91

1吴方余,蒋崯崯.网络舆情巡查系统的设计与实现[J].计算机时代,2011(8):56-58.
2曲德祥.基于WebBrowser的网络热点信息获取技术研究[J].信息技术与信息化,2011(4):42-44. 被引量：5
3舒刚.社会转型背景的网络舆情监管及其路径优化[J].重庆社会科学,2011(12):25-30. 被引量：4
4黄美璇.基于聚类分析的网络舆情监控系统的设计[J].宝鸡文理学院学报（自然科学版）,2011,31(4):40-44. 被引量：5
5袁键,田宏林,张涛.互联网舆情搜索分析系统的设计与实现[J].计算机与数字工程,2012,40(1):93-96. 被引量：2
6李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
7王星.基于地铁运营服务行业的网络舆情监控系统研究[J].软件导刊,2012,11(9):129-131.
8蔡洪民,陈铿.校园网舆情监控系统的设计与实现[J].计算机安全,2013(2):51-54. 被引量：3
9梁敏,任卓然,解萍,马宏伟.面向舆情采集的分布式缓存系统设计[J].信息工程大学学报,2013,14(1):118-123. 被引量：2
10刘兴林.改进的增量词集频率主题词提取算法[J].计算机应用,2013,33(9):2546-2549. 被引量：2

1陈林.常用的中文搜索引擎[J].广东电脑与电讯,2003(09M):66-67.
2刘峰,吴瑞红,徐川,吕学强.专利文献中关键词抽取方法的改进[J].情报杂志,2014,33(12):36-40. 被引量：5
3唐俊.复杂网络在新闻网页关键词提取中的应用[J].云南民族大学学报（自然科学版）,2012,21(4):305-308. 被引量：4
4徐慧,冯雪晴,施磊磊,朱玉婷.基于影响力扩散内容模型的舆论领袖识别方法[J].软件导刊,2016,15(3):9-11. 被引量：2
5袁津生,毛新武.基于组合特征的中文新闻网页关键词提取方法[J].计算机工程与应用,2014,50(19):222-226. 被引量：8
6臧淼,徐惠民,张永梅.基于距离约束稀疏/组稀疏编码的自动图像标注[J].四川大学学报（工程科学版）,2016,48(5):78-83. 被引量：4
7周翔,金远平.用于关系数据库关键词查询的基于划分的候选网络生成算法[J].东南大学学报（自然科学版）,2012,42(4):609-613. 被引量：1
8廖仲毛.把最适合的"解决方案"卖给顾客[J].中外企业家,2004(8):85-85.
9惠普电子化服务高峰论坛倡议:.com向.services转变[J].互联网周刊,2000(16):5-5.

广西师范大学学报（自然科学版）

2009年第1期

浏览历史

内容加载中请稍等...

基于语义联系的新闻网页关键词抽取被引量：10

参考文献10

二级参考文献26

共引文献355

同被引文献91

引证文献10

二级引证文献91

相关作者

相关机构

相关主题

浏览历史

基于语义联系的新闻网页关键词抽取 被引量：10

参考文献10

二级参考文献26

共引文献355

同被引文献91

引证文献10

二级引证文献91

相关作者

相关机构

相关主题

浏览历史

基于语义联系的新闻网页关键词抽取被引量：10