基于向量距离的词序相似度算法被引量：10

Word Order Similarity Algorithm Based on Vector Distance

下载PDF

导出

摘要手机POI搜索已经成为手机搜索的主要应用之一。该文结合手机搜索的特点以及POI数据的结构性特征采用简拼进行POI搜索。由于词序相似度是影响简拼搜索排序结果的主要因素,该文提出了基于向量距离计算词序相似度的算法。该算法采用空间向量模型作为简拼的表示方法,将提取的公共简拼映射为位置向量,进而利用位置向量间的距离计算词序相似度。通过理论分析,该算法相比基于逆序数的词序相似度算法,将时间复杂度由O(nlogn)降为O(n),空间复杂度由O(n)降为O(1)。实验结果表明,基于向量距离的词序相似度算法有效地保证了准确性,可以满足手机POI简拼搜索的应用需求,并在性能上将词序相似度的计算效率提高16.88%。 Mobile POI Search has become one of the main applications in Mobile Search. With the characters input for Mobile Search and the structural feature of POI data, Jianpin was used in the Mobile POI Search to improve the user experience. Since word order similarity is the main factor to the ranking results, an algorithm based on vector distance is devised to compute word order similarity in this paper. The algorithm first establishes the Jianpin vector space model, extracts the common part from the two Jianpin vectors and maps it into position vectors. Then it fig- ures out the similarity based on the distance between the position vectors. Theoretical analysis shows that, com- pared with the method based on reverted ordinal number, the proposed algorithm decreases the time complexity from O（nlogn） to O（n） and the space complexity from O（n） to O（1）. Experimental results confirm that the proposed algorithm can ensure the precision and improve the efficiency by 16.88%.

作者董刊生方金云

机构地区中国科学院计算技术研究所空间信息处理技术实验室

出处《中文信息学报》 CSCD 北大核心 2009年第3期45-50,共6页 Journal of Chinese Information Processing

关键词计算机应用中文信息处理手机POI搜索简拼搜索词序相似度向量距离 computer applications Chinese information processing mobile POI search jianpin search word order similarity vector distance

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1南铉国,崔荣一.基于多层次融合的语句相似度计算模型[J].延边大学学报（自然科学版）,2007,33(3):191-194. 被引量：14
2周法国,杨炳儒.句子相似度计算新方法及在问答系统中的应用[J].计算机工程与应用,2008,44(1):165-167. 被引量：45
3吕学强,任飞亮,黄志丹,姚天顺.句子相似模型和最相似句子查找算法[J].东北大学学报（自然科学版）,2003,24(6):531-534. 被引量：68
4Possas B, Ziviani N, Meira W, Ribeiro-Neto B. Set- based vector model: An efficient approach for correlation based ranking [J]. ACM Transactions on Information Systems, 2005, 23(4) : 397-429.
5Hammouda K M, KamelMS. Efficient phras-based document indexing for Web document clustering [J]. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(10):1279-1296.
6同济大学数学教研室.线性代数[M].第3版.北京:高等教育出版社,1999..14-15.
7Saraiva, P. C., Moura, E. S., Ziviani, N. Rank-Preserving two-level caching for scalable search engines [C]//Proceedings of the 24th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (New Orleans, Louisiana, United States). SIGIR'01. ACM Press, New York, NY, 2008, 51-58.
8Jansen B. J., Spink, A., Bateman, J., and Saracevic, T. Real life information retrieval: A study of user queries on the web[C]//ACM SIGIR Forum. SIGIR'98. New York, NY, 1998, 32(1): 5-17.

二级参考文献23

1高思丹,袁春风.语句相似度计算在主观题自动批改技术中的初步应用[J].计算机工程与应用,2004,40(14):132-135. 被引量：47
2李良富,樊孝忠,李宏乔,顾益军.知识是如何驱动Q/A系统的[J].计算机工程与应用,2004,40(20):70-73. 被引量：8
3张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
4胡国全,陈家骏,戴新宇,尹存燕.一种基于实例的汉英机器翻译策略[J].计算机工程与设计,2005,26(4):900-903. 被引量：5
5骆正华,樊孝忠,刘林.本体论在自动问答系统中的应用[J].计算机工程与应用,2005,41(32):229-232. 被引量：5
6张亮,冯冲,陈肇雄,黄河燕.基于语句相似度计算的FAQ自动回复系统设计与实现[J].小型微型计算机系统,2006,27(4):720-723. 被引量：19
7唐歆瑜,乐文忠,李志成,李军义.基于知网语义相似度计算的特征降维方法研究[J].科学技术与工程,2006,6(21):3442-3446. 被引量：16
8朱靖波,王宝库,姚天顺.一种规则描述语言NPRDL语言[J].东北大学学报（自然科学版）,1996,17(6):651-655. 被引量：1
9杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956-959. 被引量：34
10蔡刚山,叶俊,周曼丽.基于多级检索的自动问答系统研究[J].科学技术与工程,2007,7(4):501-506. 被引量：3

共引文献111

1柴晓丽,张丽伟,管玉玲.基于HowNet自动文摘的研究[J].电脑编程技巧与维护,2009(S1):164-165. 被引量：1
2王萌,何婷婷,张伟.基于概念向量空间模型的中文自动文摘系统[J].计算机工程与应用,2005,41(1):107-110. 被引量：5
3王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
4林鸿飞,丁洪文,杨志豪,赵晶.基于概念和统计的问答系统实现机制[J].大连理工大学学报,2006,46(2):280-285. 被引量：4
5廖剑,李玉鑑.基于句子比较的英汉翻译模板自动提取算法[J].计算机工程与应用,2006,42(25):176-179.
6杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956-959. 被引量：34
7余少勇,李绍滋.协同环境下的对外汉语编著系统[J].计算机应用研究,2007,24(3):177-180.
8南铉国,崔荣一.基于多层次融合的语句相似度计算模型[J].延边大学学报（自然科学版）,2007,33(3):191-194. 被引量：14
9化柏林.基于句子匹配的文章自写度测评系统[J].现代图书情报技术,2007(11):40-44. 被引量：2
10陈康,樊孝忠,刘杰,贾可亮.基于问句语义表征的中文问句相似度计算方法[J].北京理工大学学报,2007,27(12):1073-1076. 被引量：5

同被引文献75

1周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
2张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
3邹旭楷.一种有效的编辑距离和编辑路径求解技术[J].小型微型计算机系统,1996,17(7):72-76. 被引量：3
4章成志.基于多层特征的字符串相似度计算模型[J].情报学报,2005,24(6):696-701. 被引量：40
5宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：42
6南铉国,崔荣一.基于多层次融合的语句相似度计算模型[J].延边大学学报（自然科学版）,2007,33(3):191-194. 被引量：14
7Apache Lucene.Lucene java 3.5.0[EB/OL].[2011-11-18]. http ://lucene.apache.org/.
8Cohen D,Arnitay E, Carmel D.Lucene and juru at trec 2007: l-million queries track[C]//Proceedings of the 16th Text REtrieval Conference (TREC 2007) , Gaithersburg, Washington, USA, 2007 : 321-327.
9Salton G,Yang C S.On the specification of term values in automatic indexing[J].Journal of Documentation, 1973, 29(4) :351-372.
10Salton G,Buckley C.Term-weighting approaches in auto- matic text retrieval[J].Information Processing & Manage- ment, 1988,24(5) :513-523.

引证文献10

1焦自程,赵旭章,史珂轩.双语问答小程序的设计与实现[J].新一代信息技术,2022,5(5):18-20.
2沈学利,程宇伟.基于竞争学习网络的中文关键字提取算法[J].计算机工程,2013,39(2):207-210.
3白培发,王成良,徐玲.一种融合词语位置特征的Lucene相似度评分算法[J].计算机工程与应用,2014,50(2):129-132. 被引量：8
4方延风,陈健.基于词向量距离的相关词变迁研究——以《情报探索》杂志摘要为例[J].情报探索,2015(4):5-7. 被引量：3
5肖雨,崔荣一,怀丽波.一种融合位置信息的字符串相似度度量方法[J].计算机应用研究,2015,32(11):3287-3290. 被引量：3
6赵雪,崔荣一.基于N层向量空间模型的文本相似度计算方法[J].延边大学学报（自然科学版）,2016,42(3):231-234. 被引量：3
7邓兆熙.主观题自动评卷准确程度的关键技术研究——基于单向贴近度与词序相似度相结合的视角[J].岭南师范学院学报,2016,37(6):93-96.
8王嘉旸,杨丽萍,闫天伟.基于向量空间模型的文本相似度计算方法[J].科技广场,2017(2):9-13. 被引量：6
9徐建民,许彩云.基于文本和公式的科技文档相似度计算[J].数据分析与知识发现,2018,2(10):103-109. 被引量：8
10周艳平,李金鹏,蔡素.基于同义词词林的句子语义相似度方法及其在问答系统中的应用[J].计算机应用与软件,2019,36(8):65-68. 被引量：12

二级引证文献42

1李春霞,许键,彭艳兵.基于语义关联融合的案件识别[J].数字技术与应用,2024,42(3):155-160.
2刘菲.基于加权层次子树模型的XML文档相似度的计算[J].中国科技纵横,2019,0(14):39-40.
3王安平,姚杰,曹林,苏维娜.石英位错的TEM衍衬象及其在地学中的应用[J].长春科技大学学报,2000,30(2):131-133.
4任树怀.LUCENE搜索算法剖析及优化研究[J].图书馆杂志,2014,33(12):17-23. 被引量：12
5吴新强,周娅,王如意,张敬伟,林煜明.基于Lucene的XML文件相似度检索系统[J].计算机系统应用,2015,24(2):134-139.
6李小涛,胡晓惠,李斌全.基于两层元数据与本体的异构数据共享技术[J].北京航空航天大学学报,2015,41(8):1476-1484. 被引量：4
7徐茂军,王红.一种基于分词距离改进的 Lucene 排序算法[J].山东师范大学学报（自然科学版）,2016,31(1):66-72.
8裴飞龙,闵华松.基于修正偏移量的句子相似度算法[J].计算机工程,2017,43(9):234-239.
9白菊,何聚厚.应用于问答系统的Lucene相似度检索算法改进[J].计算机技术与发展,2017,27(11):79-82.
10翟东升,蔡文浩,张杰,李振飞.改进的中文商标语义相似度计算方法研究[J].数据分析与知识发现,2017,1(11):19-28.

1程志强,闵华松.一种基于向量词序的句子相似度算法研究[J].计算机仿真,2014,31(7):419-424. 被引量：15
2李秋明,张卫山,张培颖.基于句子多种特征的相似度计算模型[J].软件导刊,2016,15(9):4-6. 被引量：2
3苟刚,黄伶俐.基于GIS的放射源管理系统中POI准确定位的研究与实现[J].计算机科学,2012,39(S3):223-225. 被引量：1
4王秀娟,郑康锋.基于文档空间向量距离的查询扩展[J].计算机工程,2009,35(18):54-56. 被引量：5
5王鹏,史辰方.一种基于赋权向量距离的检索技术[J].中国电子商情（通信市场）,2012(5):26-30. 被引量：1
6乔春明,朱冰莲.快速傅里叶变换中逆序数计算的一种快速算法[J].信息技术,2011,35(8):164-165. 被引量：1
7邓兆熙.主观题自动评卷准确程度的关键技术研究——基于单向贴近度与词序相似度相结合的视角[J].岭南师范学院学报,2016,37(6):93-96.
8谷歌布局移动搜索李开复诠释技术战略[J].中国传媒科技,2009(7):10-10.
9刘武忠,李顶占.探究基于Android的手机搜索定位应用开发[J].通讯世界（下半月）,2016(5):59-59.
10微软将出手机搜索新技术[J].中国传媒科技,2010(3):8-8.

中文信息学报

2009年第3期

浏览历史

内容加载中请稍等...

基于向量距离的词序相似度算法被引量：10

参考文献8

二级参考文献23

共引文献111

同被引文献75

引证文献10

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于向量距离的词序相似度算法 被引量：10

参考文献8

二级参考文献23

共引文献111

同被引文献75

引证文献10

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于向量距离的词序相似度算法被引量：10