无词典中文高频词快速抽取算法被引量：3

Chinese High-frequency Words Extraction Algorithm Without Thesaurus

导出

摘要在PAT数组的基础上,引入LCP数组记录文本后缀串的相同前缀长度,通过扫描LCP数组快速抽取文本高频词。该算法不依赖于分词词典,通过探测重复出现串来提取高频词,并能够抽取任意重复字符串,对新词、组合词抽取特别有效。实验结果表明,该算法抽取的高频词可以达到较高的可接受率,在与ICTCLAS系统关键词抽取的比较中也有较高的相同率,且在发现组合词方面更具优势。 Based on PAT array,introducing LCP array to count the length of the common prefixes of text suffixes, a new algorithm without thesaurus is presented for extracting high - frequency words of Chinese text by scanning LCP arrary. The algorithm does not depend on segmentation dictionary and can extract any repeated string, especially the new words and combined words. Experimental results show that high - frequency words extracted by the algorithm achieve a high accept- ance rate and this algorithm is more effective in extracting combined words than ICTCLAS.

作者江华苏晓光

机构地区海军工程大学装备经济管理系

出处《现代图书情报技术》 CSSCI 北大核心 2012年第6期50-53,共4页 New Technology of Library and Information Service

关键词中文信息处理高频词抽取 PAT数组中文分词关键词分析 Chinese information processing High - frequency word extraction PAT array Chinese word segmentation Keyword detection

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
2Zhou G D, Su J, Tey T G. Hybrid Text Chunking [ C ]. In : Proceed- ings of CoNLL - 2000 and LLL -2000, Lisbon, Portugal. Strouds- burg, PA, USA : Association for Computational Linguistics, 2000 : 163 - 165.
3Zhou G D, Su J. Named Entity Recognition Using an HMM -based Chunk Tagger [ C ]. In : Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL). Philadelphia, USA. Stroudsburg, PA, USA:Association for Computational Lin- guistics,2002:473 - 480.
4沈勤中,周国栋,朱巧明,孔芳,丁金涛.基于字位置概率特征的条件随机场中文分词方法[J].苏州大学学报（自然科学版）,2008,24(3):49-54. 被引量：5
5金翔宇,孙正兴,张福炎.一种中文文档的非受限无词典抽词方法[J].中文信息学报,2001,15(6):33-39. 被引量：28
6韩客松,王永成,陈桂林.无词典高频字串快速提取和统计算法研究[J].中文信息学报,2001,15(2):23-30. 被引量：36
7任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
8Manber U, Myers G. Suffix Arrays : A New Method for On - line String Searches[ J ]. SIAM Journal on Computing, 1993,22 ( 5 ) : 935 - 948.
9Bentley J L,Sedgewick R. Fast Algorithms for Sorting and Search- ing Strings[ C ]. In: Proceedings of the 8th Annual ACM - SIAM Symposium on Discrete Algorithms, New Orleans, USA. Philadel- phia, PA, USA:Society for Industrial and Applied Mathematics, 1997:319 -327.
10江华,赵建新,王海岚.PAT数组全文检索技术的研究与改进[J].现代图书情报技术,2005(8):37-41. 被引量：2

二级参考文献48

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
7邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
8孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
9杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
10黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24

共引文献316

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
5于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
6黎铭,薛晓冰,周志华.基于多示例学习的中文Web目录页面推荐[J].软件学报,2004,15(9):1328-1335. 被引量：17
7吕学强,张乐,黄志丹,胡俊峰.基于散列技术的快速子串归并算法[J].复旦学报（自然科学版）,2004,43(5):948-951. 被引量：4
8张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
9陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
10邱立新.试析《鲁府禁方》中童便的应用[J].中国科技信息,2005(12):168-169.

同被引文献34

1吕筱芬.档案自动标引的理论与实践[J].档案学研究,1988(4):36-40. 被引量：1
2张桂刚,李超,张勇,邢春晓.一种基于海量信息处理的云存储模型研究[J].计算机研究与发展,2012,49(S1):32-36. 被引量：23
3任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
4梅家驹竺一鸣等.同义词词林[M].上海:上海辞书出版社,1993..
5管鹏玲,刘贵全.基于词汇链分析的英文自动文摘[J].计算机系统应用,2007,16(9):68-72. 被引量：3
6高济.支持创新型组织学习:基于任务情景的知识适用性管理[J].计算机学报,2007,30(9):1533-1543. 被引量：7
7Liu I). lVng Z, Liu H, et al. Terhnology effect phrase extraction inChinese patent ahslrarl/Alhen 1“ Jia Y, Sellis T. et al. Web technologiesand applications, (lhangsha, China: Springer international publishing,2014:141 -152.
8Zhang (: L, /eng D, Li J X, et al. Senlimenl analysis of (ChinesedocumentsrFrom sentence to document level. J Am Soc Inf Sci Tec,2009,60(12):2474-2487.
9Salton G, Buckley C. Term-weighting approaches in automatic textretrieval. Inform Process Manag, 1988, 24(5):513-523.
10Bentley J L, Sedgewick R. Fast algorithms for sorting and searchingstrings//Proceedings of the eighth annual ACM-SIAM symposium ondiscrete algorithms. Philadelphia, PA, USA:Society for Industrial andApplied Mathematics, 1997:60-369.

引证文献3

1马运运,孙志一,刘海波,彭勇.中文专利文档关键词自动提取方法研究进展[J].世界科学技术-中医药现代化,2015,17(1):29-34. 被引量：1
2曲朝阳,杨帆,王蕾,张雅超,陈志强,宋文国.面向电力虚拟社区的隐性知识云处理模型[J].数学的实践与认识,2016,46(18):129-135.
3王耀辉,杨帆,陈帅.面向电力虚拟社区的隐性知识收集方法[J].东北电力大学学报,2014,34(4):69-74. 被引量：1

二级引证文献2

1关浩华.基于语音分析的智能质检关键词提取方法设计[J].自动化与仪器仪表,2017(7):106-108. 被引量：5
2张琦,张硕宣.农业经验知识收集方法研究[J].科学大众（科技创新）,2018,0(5):42-42.

1任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
2鲁丹.OPAC搜索日志可视化系统的设计与实现[J].现代计算机,2016,22(8):67-70. 被引量：2
3聂文琪.面向中文的全文索引模型的比较[J].武汉交通职业学院学报,2007,9(3):76-80.
4王龙,刘衍珩,李晓光,官健.基于树型结构和加权熵的中文高频词提取算法[J].吉林大学学报（工学版）,2011,41(1):188-192. 被引量：1
5徐小刚,王俊杰,于玉.全文索引的研究[J].计算机工程,2002,28(2):101-103. 被引量：10
6李巩.Google:软件装在网页里[J].互联网天地,2006(8):69-69.
7肖歌春.ICTC2013:请有线大胆拥抱互联网[J].广播电视信息,2013,20(11):27-27.
8本刊编辑x026.细数SEO 优化你必须注意的七大要素[J].计算机与网络,2013(24):41-41.
9崔尚森,冯博琴,张白一.一种前缀长度二分查找的改进算法[J].计算机工程,2007,33(15):70-71. 被引量：4
102006年度大华机顶盒新产品发布会暨ICTC展会成功举办[J].有线电视技术,2006,13(11):128-128.

现代图书情报技术

2012年第6期

浏览历史

内容加载中请稍等...

无词典中文高频词快速抽取算法被引量：3

参考文献11

二级参考文献48

共引文献316

同被引文献34

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

无词典中文高频词快速抽取算法 被引量：3

参考文献11

二级参考文献48

共引文献316

同被引文献34

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

无词典中文高频词快速抽取算法被引量：3