基于多层特征的字符串相似度计算模型被引量：40

A Model for Chinese String Similarity Based on Multi-Level Features

下载PDF

导出

摘要针对计算字符串相似度传统方法的不足之处,提出以相似元作为字符串的基本处理单元,综合考虑相似元的字面、语义及统计关联等多层特征的字符串相似度计算方法.对常规计算方法中存在的,由相似元排序引起的相似元位置信息丢失问题进行了修正.实验结果表明该算法的有效性,并且对句子间、段落间的相似度计算有启发意义. String similarity computation has been widely used in the field of Chinese information processing. In this paper, a unifying model for string similarity computation is presented based on multi-level features. The novel approach of similarity computation uses the literal, semantic and statistical relative features of strings. The method can take advantage of the normal approaches to improve the computation accuracy. Experiments show that the proposed method is an effective solution to the Chines string similarity computation problem, and it can be generalized to measure the similarity of other components of Chinese text, such as sentence, paragraph etc.

作者章成志

机构地区南京大学信息管理系

出处《情报学报》 CSSCI 北大核心 2005年第6期696-701,共6页 Journal of the China Society for Scientific and Technical Information

关键词字符串相似度相似元字面相似度语相似度多特征度量 Chinese string similarity, similarity unit, multiple-features measuring, literal similarity, semantic similarity.

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1ZHOU MeiliDepartment of Mechanical Engineering, Anhui Institute of Technology 111 Lu An Road, Hefei 230069, the People’s Republic of China.Some Concepts and Mathematical Consideration of Similarity System Theory[J].Systems Science and Systems Engineering,1992,2(1):84-92. 被引量：17

共引文献16

1章成敏,鞠海燕.基于混合策略的中文查询串相似度计算[J].情报杂志,2005,24(11):101-103. 被引量：3
2刘滨,蒋祖华.船舶装配作业工时智能估算技术[J].上海交通大学学报,2005,39(12):1979-1983. 被引量：24
3钱爱兵,江岚.基于后缀树的中文新闻重复网页识别算法[J].现代图书情报技术,2008(3):55-61. 被引量：6
4赵珊,汤永利.基于文本检索技术的CBIR算法研究[J].光学学报,2009,29(10):2721-2725. 被引量：1
5赵珊,郑清洁.基于字符串匹配技术的图像检索算法[J].高技术通讯,2010,20(2):117-121. 被引量：1
6姚占雷,许鑫.互联网新闻报道中的突发事件识别研究[J].现代图书情报技术,2011(4):52-57. 被引量：14
7彭小智,马凌,周美立.随机系统的相似性及其度量[J].四川理工学院学报（自然科学版）,2011,24(3):261-263.
8沈玲,张志英.船舶铁舾件工时定额估算方法研究[J].工业工程与管理,2011,16(4):96-102. 被引量：13
9姚占雷,郭金龙,许鑫.联合虚拟参考咨询中的自动问答系统设计与实现[J].现代图书情报技术,2012(9):15-22. 被引量：7
10张其林,王先培,赵宇,屈萌,杜双育.基于相似系统理论的红外光谱谱图比对方法[J].光谱实验室,2013,30(6):2742-2746. 被引量：1

同被引文献449

1彭莲香,王龙秀,郭星涛,肖雄.基于ArcPy的地名地址和POI数据判重实现[J].西部资源,2023(5):103-106. 被引量：1
2朱礼军,陶兰,刘慧.领域本体中的概念相似度计算[J].华南理工大学学报（自然科学版）,2004,32(z1):147-150. 被引量：48
3陈鑫,常致全.智能化搜索引擎原理及实现[J].计算机应用,2003,23(z2):191-193. 被引量：9
4钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
5赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
6芦明,李冠宇,史一民.一种面向语义网服务的本体映射框架[J].计算机应用研究,2009,26(2):620-622. 被引量：3
7刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：44
8徐祖友.王云五与四角号码检字法[J].辞书研究,1990(6):128-134. 被引量：10
9车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
10晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：27

引证文献40

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2李彬.计算字符串相似度的矩阵算法[J].现代电子技术,2007,30(24):106-108. 被引量：7
3沙莎,胡发连.基于概念结构的科技论文知识管理[J].情报学报,2007,26(6):858-862.
4杨思春,陈家骏.中文自动问答中句子相似度计算研究[J].情报学报,2008,27(1):35-41. 被引量：5
5章成志,周冬敏.自动标引通用评价模型研究[J].情报学报,2009,28(1):40-47. 被引量：6
6赵欢,李仁发,王家琴,张在美.综合多层信息的本体概念相似度计算方法的研究[J].通信学报,2009,30(6):135-141. 被引量：2
7赵珊,汤永利.基于文本检索技术的CBIR算法研究[J].光学学报,2009,29(10):2721-2725. 被引量：1
8陆勇,章成志,侯汉清.基于百科资源的多策略中文同义词自动抽取研究[J].中国图书馆学报,2010,36(1):56-62. 被引量：26
9王莉,高仲利.基于分面导航理论的RDF数据的持久化研究[J].计算机工程与应用,2010,46(9):130-133. 被引量：6
10贺超波,陈启买.基于本体的Web服务发现方法研究[J].计算机工程与设计,2010,31(7):1421-1423. 被引量：4

二级引证文献226

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2焦利敏,刘泽超,顾子谦,金轮,胡亚欣,王生泽,刘冬阳.智能家电语音交互能力测试语料库建设的研究[J].家电科技,2022(S01):130-134. 被引量：1
3刘荣辉,郑建国,王翔.采用最小DFS的Deep Web结构化数据抽取[J].图书情报工作,2010,54(14):126-130.
4肖磊,陈小荷.古籍版本异文的自动发现[J].中文信息学报,2010,24(5):50-55. 被引量：11
5王玉新,毛晓辉,李添益.功能-结构双向创新商空间模型关键技术研究[J].浙江大学学报（工学版）,2010,44(9):1643-1653. 被引量：6
6徐静,陈夏露,何忠秀.本体领域内产品层次结构的相似度计算[J].计算机与现代化,2010(11):53-55. 被引量：1
7李林,王红,付宇,杨璇,王静.民航突发事件应急案例语义检索方法研究[J].计算机工程与设计,2011,32(3):1130-1133. 被引量：7
8杜利峰,牛永洁.字符串相似度在自动评分系统中的应用[J].电子设计工程,2011,19(7):42-44. 被引量：11
9王健,哈力木拉提.买买提.印刷体维吾尔文识别后处理[J].新疆大学学报（自然科学版）,2011,28(2):248-252. 被引量：3
10杨春明,韩永国.快速的领域文档关键词自动提取算法[J].计算机工程与设计,2011,32(6):2142-2145. 被引量：12

1肖雨,崔荣一,怀丽波.一种融合位置信息的字符串相似度度量方法[J].计算机应用研究,2015,32(11):3287-3290. 被引量：3
2李彬.计算字符串相似度的矩阵算法[J].现代电子技术,2007,30(24):106-108. 被引量：7
3杜利峰,牛永洁.字符串相似度在自动评分系统中的应用[J].电子设计工程,2011,19(7):42-44. 被引量：11
4郭巍,李云芝,姜振东.用相似理论讨论仿真的可信度[J].系统仿真学报,1999,11(2):113-115. 被引量：19
5刁兴春,谭明超,曹建军.一种融合多种编辑距离的字符串相似度计算方法[J].计算机应用研究,2010,27(12):4523-4525. 被引量：41
6刘辉平,金澈清,周傲英.一种基于模式的实体解析算法[J].计算机学报,2015,38(9):1796-1808. 被引量：6
7韩雪婷,李炜,沈奇威.用户评论中产品特征的抽取及聚类[J].计算机系统应用,2013,22(5):188-192. 被引量：7
8郭宗仁,李琰,王志凯,郑应文.一种基于系统相似性的智能设计的新方法[J].计算机仿真,2002,19(2):52-57. 被引量：4
9柳世考,刘兴堂,李军.利用相似理论进行仿真系统模型验证[J].计算机仿真,2001,18(6):1-3. 被引量：13
10胡伟文,薛蒙.一种基于相似性度量的仿真系统置信度评估方法[J].系统仿真学报,2010,22(1):9-11. 被引量：3

情报学报

2005年第6期

浏览历史

内容加载中请稍等...

基于多层特征的字符串相似度计算模型被引量：40

参考文献1

共引文献16

同被引文献449

引证文献40

二级引证文献226

相关作者

相关机构

相关主题

浏览历史

基于多层特征的字符串相似度计算模型 被引量：40

参考文献1

共引文献16

同被引文献449

引证文献40

二级引证文献226

相关作者

相关机构

相关主题

浏览历史

基于多层特征的字符串相似度计算模型被引量：40