利用整数线性规划自动抽取多样性关键短语被引量：2

Automatic Extraction of Diversity Keyphrase by Utilizing Integer Liner Programming

下载PDF

导出

摘要关键短语是文本信息的精简概括,能够代表文本的主题和核心观点。而关键短语的自动抽取更是自然语言处理和信息检索的重要任务之一。针对目前无监督方法自动抽取关键短语存在过度生成候选短语语义的问题,提出了一种将整数线性规划和短语语义相似度相结合的自动抽取算法。通过惩罚语义相似度高的候选短语实现目标函数的最大化,以此形成多样性的关键短语。实验利用TextRank和TFIDF算法在两种不同的语料集中分别产生候选短语,并利用提出的优化算法对候选短语的权值得分进行优化。最后将所提算法产生的优化结果与现有多个算法的结果进行了比较。实验结果表明,通过加入相似性度量的惩罚能够有效解决语义过度问题,并获取更多样的关键短语,其优化结果的P,R和F值均高于其他算法。 Keyphrases are the concise summary of text information,which can represent the main topics and the core ideas of texts.And the automatic extraction of key phrases is one of the important tasks for natural language processing and information retrieval.Aiming at the existing problem caused by semantic over-generation on candidate phrases with unsupervised method,this paper proposed an algorithm for automatic extraction of keyphrase by using integer linear programming(ILP)and similarity of candidate phrases,in which candidate phrases with high sematic similarity are punished for maximizing the object function to obtain diversified keyphrases.TextRand and TFIDF algorithms are applied in the proposed method to create candidate phrases based on two different corpus sets and the proposed optimization algorithm is utilized to optimize the weight scores of candidate phrases.Finally,the results of the proposed optimization algorithm is compared with the ones of baseline methods,and the experimental results show that the proposed method can solve the semantic over-generation problem effectively by punishing candidate phrases with high semantic similarity.Moreover,the optimization algorithm can obtain more diverse keyphrases and the optimized results of P,R and F value outperform the ones of baseline methods.

作者李珊珊陈黎唐裕婷王艺霖于中华 LI Shan-shan;CHEN Li;TANG Yu-ting;WANG Yi-lin;YU Zhong-hua(College of Computer Science,Sichuan University,Chengdu 610065,China)

机构地区四川大学计算机学院

出处《计算机科学》 CSCD 北大核心 2019年第B06期56-59,70,共5页 Computer Science

基金四川省科技支撑项目(2014GZ0063) 四川省重点研发项目(2018GZ0182)资助

关键词关键短语自动抽取整数线性规划语义过度生成多样性 Automatic keyphrase extraction Integer liner programming Semantic over-generation Diversity

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

同被引文献16

1徐鹏,王克宏.基于Browser/WebServer模式的电子表单系统[J].计算机科学,2001,28(1):106-110. 被引量：3
2苏帅,袁雪,张立平,李寒松.基于图论的复杂交通环境下车辆检测方法[J].北京交通大学学报,2017,41(5):66-72. 被引量：1
3嵇桃瑛.基于浏览器/服务器架构的医用计量设备信息系统[J].自动化与仪器仪表,2018,0(5):198-201. 被引量：1
4柴登峰,张登荣.前N条最短路径问题的算法及应用[J].浙江大学学报（工学版）,2002,36(5):531-534. 被引量：89
5董延华,刘靓葳,宋和烨,董旭.基于正则筛选的OCR手机号码自动识别的研究[J].吉林师范大学学报（自然科学版）,2019,40(1):115-120. 被引量：3
6谭振江,刘佳琳,张耀允.大数运算的算法描述[J].吉林师范大学学报（自然科学版）,2019,40(3):102-108. 被引量：2
7陈骥,吴登定,雷涯邻,张万益,马芬,方圆,赵晶晶.全球天然气资源现状与利用趋势[J].矿产保护与利用,2019,39(5):118-125. 被引量：7
8王大东,王鹏,孙明辰,刘倩,王晓宇.NAO机器人共享实验平台设计与实现[J].吉林师范大学学报（自然科学版）,2020,41(2):128-133. 被引量：3
9刘梅,戴涛涛.我国天然气资源现状与发展前景初探[J].石化技术,2020,27(9):52-53. 被引量：7
10徐鹤,吴昊,李鹏.面向物联网的时空数据处理算法设计[J].计算机科学,2020,47(11):310-315. 被引量：7

引证文献2

1英昌盛,李紫薇,尹继一,孙浩然,李享.一种基于格雷码与one-hot混合编码思想的组合数生成算法[J].吉林师范大学学报（自然科学版）,2021,42(3):105-109. 被引量：2
2邓盛男,罗太宇,黄静才,任玉清,宋伟,苏畅,雷立黎,胡光辉,徐红.天然气智能调度计算机平台系统的设计与实现[J].计算机科学,2023,50(S01):912-918.

二级引证文献2

1李堃,王传安.“教学做”一体化模式下的教学效果预测研究[J].安徽电子信息职业技术学院学报,2023,22(2):40-46.
2郭东亮,卓颖,傅鑫博.基于Kirkman三元系的LDPC码的性能限研究[J].吉林师范大学学报（自然科学版）,2023,44(3):124-129. 被引量：1

1江卓军,陈璇,苏晓兰,宋春鹏,陈晓杰.一种复杂约束下的采购评审专家自动抽取算法[J].现代电子技术,2018,41(3):75-79. 被引量：2
2何春辉,王孟然.改进的中文静态网页新闻正文自动抽取算法[J].东莞理工学院学报,2018,25(5):46-50. 被引量：2
3刘展.TFIDF算法在文章推荐系统的应用[J].电脑知识与技术,2019,15(3):17-20. 被引量：7
4朱爱军,赵春霞,胡聪,许川佩,李智.基于细粒度的光片上网络MRR制程漂移容错研究[J].仪器仪表学报,2019,40(2):249-256. 被引量：4
5何春辉.一种基于文本相似度的网页新闻标题自动抽取算法[J].湖南城市学院学报（自然科学版）,2019,28(1):58-61. 被引量：2
6刘娟,黄细霞,刘晓丽.基于栈式自编码网络的风机叶片结冰预测[J].计算机应用,2019,39(5):1547-1550. 被引量：15
7刘鹏远,刘玉洁.中文基本复合名词短语语义关系体系及知识库构建[J].中文信息学报,2019,33(4):20-28. 被引量：5
8杨海舟,刘妹琴.基于目标战略优先级与精度自适应的效能函数的机载多传感器管理[J].航空科学技术,2019,30(4):61-68. 被引量：1
9段国仑,谢钧,郭蕾蕾,王晓莹.Web文档分类中TFIDF特征选择算法的改进[J].计算机技术与发展,2019,29(5):49-53. 被引量：4
10杨勇,严道波,徐敏,万磊,李强,邱丹.基于改进TFIDF特征加权算法的95598投诉工单分类实现[J].电力与能源,2019,40(2):205-207. 被引量：4

计算机科学

2019年第B06期

浏览历史

内容加载中请稍等...

利用整数线性规划自动抽取多样性关键短语被引量：2

同被引文献16

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

利用整数线性规划自动抽取多样性关键短语 被引量：2

同被引文献16

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

利用整数线性规划自动抽取多样性关键短语被引量：2