快速的领域文档关键词自动提取算法被引量：12

Fast algorithm of keywords automatic extraction in field

下载PDF

导出

摘要针对现有关键词提取算法需要大量训练数据及时间、常用词分词困难、互联网文档噪音等问题,提出了一种基于TF-IWF的领域文档关键词快速提取算法。该算法使用简单统计并考虑词长、位置、词性等启发性知识计算词权重,并通过文档净化、领域词典分词等方法提高了关键词提取的速度及准确度。对523篇学生心理健康领域文档的实验结果表明,该算法提取的文档关键词质量优于TF-IDF方法,且能在时间内完成。 Aimed at the problems of existing keywords extraction algorithm needs a lot of training data and time, the difficult to segmentation of common words and the noise to internet documents, a fast algorithm ofkeywords extraction in the field base on TF-IWF is proposed. This algorithm uses simple statistics, considering heuristic knowledge of the word length, position and part of speech to calculate the term weight, and improves the speed and accuracy ofkeywords extraction by methods of documentation purification, domain dictionary segmentation. 523 articles on students＇ mental health of experiment shows that keywords obtained from this algorithm is better than the quality of based on TF-IDF, and time complexity is O（n）.

作者杨春明韩永国

机构地区西南科技大学计算机科学与技术学院

出处《计算机工程与设计》 CSCD 北大核心 2011年第6期2142-2145,共4页 Computer Engineering and Design

关键词关键词提取中文分词领域词典启发式知识时间复杂度 keywords extraction Chinese word segmentation domain dictionary heuristic knowledge time complexity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1Xie F, Wu X,Hu X G,et al.Keyphrase extraction from Chinese news web pages based on semantic relations[J].Intelligence and Security Informatics,LNCS 5075,2008:490-495.
2Li X,Wu X,Hu X,et al. Keyword extraction based on lexical chains and word co-occurrence for chinese news web pages[C].IEEE International Conference on Data Mining Workshops. Pisa, ltaly: IEEE Computer Society Press,2008:744-751.
3胡学钢,李星华,谢飞,吴信东.基于词汇链的中文新闻网页关键词抽取方法[J].模式识别与人工智能,2010,23(1):45-51. 被引量：22
4施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
5李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
6Zhang K,Xu H,Tang J,et al.Keyword extraction using support vector machine [C]. Proceedings of the Seventh International Conference on Web-Age Information Management,2006:85-96.
7Ercan G,Cicekli I.Using lexical chains for keyword extraction [J]. Information Processing & Management, 2007,43 (6): 1705- 1714.
8刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15
9张庆国,薛德军,张振海,张君玉.海量数据集上基于特征组合的关键词自动抽取[J].情报学报,2006,25(5):587-593. 被引量：17
10Xiao J,He L.Keyword weight adjusting schema based on domain repository[C].Chengdu, China:3rd IEEE International Conference on Computer Science and Information Technology, 2010: 221-225.

二级参考文献83

1钟敏娟,林亚平,陈治平.基于分类和关键词组抽取的信息检索算法[J].系统仿真学报,2004,16(5):1009-1012. 被引量：10
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
3吴春玉.中文全文检索系统中实现主题词标引思路[J].情报杂志,2005,24(1):115-116. 被引量：4
4侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
5谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
6章成志.基于多层特征的字符串相似度计算模型[J].情报学报,2005,24(6):696-701. 被引量：40
7刘华.关键词自动标引系统实现[J].现代图书情报技术,2006(2):88-90. 被引量：3
8许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
9刘华.网页信息抽取及建库系统C#实现[J].计算机工程,2006,32(16):49-51. 被引量：5
10柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量：32

共引文献475

1王琳,姜立新,杨天青,张维佳.地震应急信息自动分类方法研究[J].震灾防御技术,2019,14(4):907-916. 被引量：8
2席志武,范龙燕,于瑞.县级融媒体中心招聘需求对新闻教育改革的启示——基于2022年240则县级融媒体中心招聘信息文本的词频考察[J].中国新闻传播研究,2023(2):17-30. 被引量：1
3田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
4吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：3
5张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：11
6王胜源,谭棋,何江林.物流服务质量对生鲜电商顾客购买意愿的影响研究——基于京东生鲜商品在线评论的用户情感分析[J].辽宁工程技术大学学报（社会科学版）,2023(3):174-181. 被引量：3
7陈小妹,赵华,武浩.基于证据理论的多特征融合Web API推荐[J].计算机应用研究,2020,37(S01):221-223. 被引量：2
8李秀茹,王晓,李朋朋,李绪红,罗安.Word2vec和支持向量机的POI自动分类方法[J].测绘科学,2022,47(6):195-203. 被引量：4
9杨海晨,康益豪.基于网络议程设置理论的体育争议性事件研究——以“飞盘争议”为例[J].北京体育大学学报,2023,46(3):73-87. 被引量：3
10任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1

同被引文献166

1都云程,王海洋,王洪俊.TRS网络舆情监控解决方案[J].信息网络安全,2008(6):69-70. 被引量：9
2唐晓波,全莉莉.基于分众分类的本体构建分析[J].情报理论与实践,2008,31(6):931-936. 被引量：17
3钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
4魏勇刚,张国春,常勇,袁方.基于词性分析和领域知识的Deep Web语义标注[J].郑州大学学报（理学版）,2009,41(1):52-55. 被引量：7
5安兴茹.欧美国家图书馆网络信息保存的收集策略研究及启示[J].图书馆杂志,2007,26(9):52-55. 被引量：14
6李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
7曾新红.《中国分类主题词表》的OWL表示及其语义深层揭示研究[J].情报学报,2005,24(2):151-160. 被引量：29
8谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
9陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005,23(2):149-154. 被引量：820
10周荣庭,郑彬.分众分类:网络时代的新型信息分类法[J].现代图书情报技术,2006(3):72-75. 被引量：57

引证文献12

1杨春明,韩永国.地方政府网络舆情监测系统研究[J].西南科技大学学报,2012,27(3):92-96. 被引量：1
2冯秀珍,郝鹏.基于词性分析的产品评价信息挖掘[J].计算机工程与设计,2013,34(1):283-288. 被引量：4
3陈开慧.本体与分众分类的融合模型研究[J].图书馆学研究,2013(5):73-77. 被引量：8
4何晓阳,张精理,丁婷.医学新闻关键词自动提取策略[J].中华医学图书情报杂志,2014,23(4):13-17. 被引量：2
5陈金梁,李青.基于本体的领域文档主题抽取方法研究[J].电脑开发与应用,2014,27(9):44-47.
6王庆,陈泽亚,郭静,陈晰,王晶华.基于词共现矩阵的项目关键词词库和关键词语义网络[J].计算机应用,2015,35(6):1649-1653. 被引量：11
7宇文姝丽.基于词性分析的数据流程图快速绘制方法[J].电子商务,2016,17(1):64-65. 被引量：2
8张杨,张精理,何晓阳.互联网军事医学信息资源采集与鉴选策略研究[J].中华医学图书情报杂志,2018,27(4):62-66.
9马晓丽,刘杰,周建设,骆力明,史金生.一种中小学汉语作文表现手法分类方法[J].计算机应用与软件,2018,35(10):49-54. 被引量：1
10徐涛,蓝传锜.基于卡方统计量的藏文新闻网页关键词提取方法[J].电脑知识与技术（过刊）,2017,23(9X):171-173. 被引量：3

二级引证文献46

1杨思洛,陈志灵.全文计量视角下知识交流体系研究的模式探析[J].知识管理论坛,2024(4):380-393.
2李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
3张精理,何晓阳,丁婷.基于词频统计法的医学新闻自动受控标引[J].中华医学图书情报杂志,2014,23(8):7-10. 被引量：1
4游贵荣,吴为,钱沄涛.电子商务中垃圾评论检测的特征提取方法[J].现代图书情报技术,2014(10):93-100. 被引量：14
5李艳,王重英,屈正庚.基于主题词表的旅游政务系统本体构建研究[J].信息技术,2015,39(3):53-56. 被引量：2
6马鸿佳,李洁,沈涌.数字资源聚合方法融合趋势研究[J].情报资料工作,2015,36(5):24-29. 被引量：17
7李金海,何有世,马云蕾,李烁朋.基于领域本体的网络口碑传播动机识别[J].情报学报,2015,34(9):922-929. 被引量：2
8尹倩.基于语义扩展度的中文分词交叉歧义处理方法[J].南昌工程学院学报,2016,35(1):56-60. 被引量：1
9刘庆旭,毕强.国内外Folksonomy研究综述[J].情报杂志,2016,35(4):164-170. 被引量：3
10刘锦文,邢凯,芮伟康,张利萍,周慧.基于信息关联拓扑的互联网社交关系挖掘[J].计算机应用,2016,36(7):1875-1880. 被引量：3

1严彩梅.Web用户模式[J].扬州大学学报（自然科学版）,2002,5(3):53-56. 被引量：3
2姜芳,李国和,岳翔.基于语义的文档关键词提取方法[J].计算机应用研究,2015,32(1):142-145. 被引量：10
3刘辉,邵良杉.Web文本分类中特征项权重的研究[J].科技和产业,2010,10(2):122-124. 被引量：3
4王灿辉,张敏,马少平,黄宇.基于相邻词的中文关键词自动抽取[J].广西师范大学学报（自然科学版）,2007,25(2):161-164. 被引量：10
5王燕.基于相邻词的中文关键词自动抽取研究[J].科技致富向导,2012(26):84-84.
6郑诚,吴文岫,代宁.融合BTM主题特征的短文本分类方法[J].计算机工程与应用,2016,52(13):95-100. 被引量：11
7鲍立威,黄小强,钱积新.智能控制的知识计算理论研究[J].计算机科学,1996,23(3):67-69.
8孙晓平.大数据知识计算的挑战[J].情报工程,2015,1(6):43-50. 被引量：9
9驳色.心跳，不止是活着而已[J].计算机应用文摘,2014,0(22):73-73.
10王金水,薛醒思,唐郑熠.一种基于命名实体识别的需求跟踪方法[J].计算机应用研究,2016,33(1):132-135. 被引量：1

计算机工程与设计

2011年第6期

浏览历史

内容加载中请稍等...

快速的领域文档关键词自动提取算法被引量：12

参考文献16

二级参考文献83

共引文献475

同被引文献166

引证文献12

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

快速的领域文档关键词自动提取算法 被引量：12

参考文献16

二级参考文献83

共引文献475

同被引文献166

引证文献12

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

快速的领域文档关键词自动提取算法被引量：12