藏语句子相似度算法的研究被引量：14

Research on Similarity Algorithm Tibetan Sentences

下载PDF

导出

摘要该文提出了一种藏语句子相似度的计算方法,即采用散列单词倒排索引和基于句长相似度粗选的算法,快速从语料库中筛选出候选句子的集合,散列单词倒排索引能够有效提高算法的查找速度;再采用基于词形和连续单词序列相似度的多策略精选算法,可以有效衡量两个藏语句子的相似程度。实验结果证明算法是有效的。 A method to compute the similarity of Tibetan sentences is proposed in this paper.This method takes advantage of the reverse index of a hashed vocabulary and the sentence length based coarse-selection algorithm toextract candidate sentences from the corpus rapidly.The reverse index of the hashed vocabulary promotes the searching speed effectively.The multi-strategy delicate selection algorithm adopting word shape based similarity and the continuous word sequence based similarity,which could effectively assess the similarity extent of two Tibetan sentences.The method is validated by the experiments.

作者安见才让

机构地区青海民族大学计算机学院

出处《中文信息学报》 CSCD 北大核心 2011年第4期110-114,121,共6页 Journal of Chinese Information Processing

基金国家社会科学基金项目资助(08xyy006)

关键词自然语言处理语料库连续单词序列藏语句子相似度 natural language processing corpus continuous word series Tibetan language sentence similarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1冯志伟.基于语料库的机器翻译系统[J].术语标准化与信息技术,2010(1):28-35. 被引量：32
2张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
3Federica Mandreoli, Riccardo Martoglia, and Paolo Tiberio. Searching Similar(Sub) Sentences for Exampie-Based Machine Translation [C]//Atti del Decimo ConvegnoNazionale su Sistemi Evoluti per Basi di Dati (SEBD 2002),Isolad Elba,Italy,2002.
4周法国,杨炳儒.句子相似度计算新方法及在问答系统中的应用[J].计算机工程与应用,2008,44(1):165-167. 被引量：45
5侯宏旭,刘群,那顺乌日图.基于实例的汉蒙机器翻译[J].中文信息学报,2007,21(4):65-72. 被引量：16
6张亮,冯冲,陈肇雄,黄河燕.基于语句相似度计算的FAQ自动回复系统设计与实现[J].小型微型计算机系统,2006,27(4):720-723. 被引量：19
7蔡东风,白宇,于水,叶娜,任晓娜.一种基于语境的词语相似度计算方法[J].中文信息学报,2010,24(3):24-28. 被引量：12
8王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
9郭锐,宋继华,廖敏.基于自动句对齐的相似古文句子检索[J].中文信息学报,2008,22(2):87-91. 被引量：15
10吕学强,任飞亮,黄志丹,姚天顺.句子相似模型和最相似句子查找算法[J].东北大学学报（自然科学版）,2003,24(6):531-534. 被引量：68

二级参考文献81

1那顺乌日图.计算机处理现代蒙古语TAI、TEI形式的尝试[J].民族语文,1991(3):74-79. 被引量：2
2李良富,樊孝忠,李宏乔,顾益军.知识是如何驱动Q/A系统的[J].计算机工程与应用,2004,40(20):70-73. 被引量：8
3张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
4刘洋,刘群,林守勋.机器翻译评测中的模糊匹配[J].中文信息学报,2005,19(3):45-53. 被引量：8
5胡国全,陈家骏,戴新宇,尹存燕.一种基于实例的汉英机器翻译策略[J].计算机工程与设计,2005,26(4):900-903. 被引量：5
6张孝飞,陈肇雄,黄河燕,胡春玲.多策略机器翻译系统IHSMTS中实例模式泛化匹配算法[J].中文信息学报,2005,19(4):1-9. 被引量：1
7张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,19(5):31-36. 被引量：24
8骆正华,樊孝忠,刘林.本体论在自动问答系统中的应用[J].计算机工程与应用,2005,41(32):229-232. 被引量：5
9章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
10黄河燕,陈肇雄,张孝飞,张克亮.大规模句子相似度计算方法[J].中文信息学报,2006,20(B03):47-52. 被引量：6

共引文献219

1韦汇余,庞欣,张新.人机英译《镜花缘》质量评测研究——以林太乙译本与腾讯翻译君译文为语料[J].现代英语,2020(22):47-51. 被引量：2
2刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
3覃其文.汉壮机器翻译初探[J].民族翻译,2011(1):58-62.
4柴晓丽,张丽伟,管玉玲.基于HowNet自动文摘的研究[J].电脑编程技巧与维护,2009(S1):164-165. 被引量：1
5王萌,何婷婷,张伟.基于概念向量空间模型的中文自动文摘系统[J].计算机工程与应用,2005,41(1):107-110. 被引量：5
6王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
7王常亮,滕至阳.语句相似度计算在FAQ中的应用[J].计算机时代,2006(2):24-26. 被引量：10
8林鸿飞,丁洪文,杨志豪,赵晶.基于概念和统计的问答系统实现机制[J].大连理工大学学报,2006,46(2):280-285. 被引量：4
9廖剑,李玉鑑.基于句子比较的英汉翻译模板自动提取算法[J].计算机工程与应用,2006,42(25):176-179.
10杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956-959. 被引量：34

同被引文献75

1余正涛,邓锦辉,韩露,毛存礼,郑志蕴,郭剑毅.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(z2):388-393. 被引量：6
2扎西加.上下文无关文法与藏语句法分析[J].西藏大学学报（社会科学版）,2013,28(5):37-42. 被引量：7
3李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：4
4吕学强,李清隐,黄志丹,沈嫣娜,姚天顺.基于统计的汉英句子对齐研究[J].小型微型计算机系统,2004,25(6):990-992. 被引量：15
5王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
6余正涛,樊孝忠,郭剑毅.基于支持向量机的汉语问句分类[J].华南理工大学学报（自然科学版）,2005,33(9):25-29. 被引量：20
7余正涛,樊孝忠,宋丽哲,高盛祥.汉语问答系统答案提取方法研究[J].计算机工程,2006,32(3):183-185. 被引量：8
8祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
9杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956-959. 被引量：34
10郑亚斌,刘知远,孙茂松.中文歌词的统计特征及其检索应用[J].中文信息学报,2007,21(5):61-67. 被引量：8

引证文献14

1才藏太,赵海兴,才让加.汉藏句子自动对齐技术研究[J].青海师范大学学报（自然科学版）,2022,38(1):1-3.
2于洪志,夏建华,万福成,陈新一.基于藏语句多特征融合的主观题自动评分算法[J].计算机工程与应用,2014,50(5):216-220. 被引量：1
3群毛措,安见才让.藏文问答系统中答案抽取方法的研究[J].中国科技博览,2016,0(3):249-249.
4群毛措,安见才让.藏文问答系统中答案抽取算法的研究[J].电子技术与软件工程,2016(4):158-158. 被引量：1
5李成龙,多拉.藏语单句相似度计算模型研究[J].中国科技纵横,2016,0(6):220-221. 被引量：1
6群毛措,安见才让.中小学藏语文问答系统中答案抽取算法的研究[J].电脑知识与技术,2016,0(2):101-101.
7洛松求培,安见才让.基于文本密度的藏文网页正文提取方法[J].计算机时代,2017(8):46-47. 被引量：3
8尕藏扎西,安见才让.基于CYK的藏语句法分析器研究与实现[J].计算机时代,2018(6):53-56. 被引量：2
9仁青东主,安见才让.藏文期刊论文检索系统研究[J].电脑与电信,2018(4):62-65. 被引量：1
10多杰措,安见才让.藏文应用文文本自动分类研究[J].信息技术与信息化,2019(5):225-227. 被引量：1

二级引证文献15

1李成龙,多拉.藏语单句相似度计算模型研究[J].中国科技纵横,2016,0(6):220-221. 被引量：1
2高定国.藏文信息处理研究进展[J].广西科学院学报,2018,34(1):1-11. 被引量：6
3凌霞.存储高可用性的技术标准与实现方法[J].电子技术与软件工程,2018(10):163-165.
4平措.基于Web环境下藏文信息的处理技术[J].神州,2017,0(33):210-210.
5德格加,安见才让.藏文试题知识点抽取方法[J].计算机时代,2019(1):79-82.
6黄成龙.2018年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2019,40(4):61-69. 被引量：1
7韦韧.中国少数民族语文百科知识问答系统设计[J].软件导刊,2020,19(1):200-202. 被引量：1
8柔特,才让加.基于循环卷积神经网络的藏文句类识别[J].中文信息学报,2019,33(12):76-82. 被引量：3
9德格加.藏文自动组卷系统中试题消重方法研究[J].计算机时代,2020,0(5):59-61.
10仁青东主,头旦才让,尼玛扎西.基于改进的VSM的藏文期刊论文检索研究[J].计算机仿真,2020,37(12):400-403.

1田生伟,吐尔根.依布拉音,禹龙,买合木提.木合买提,艾山.吾买尔.一种维吾尔语句子相似度算法的研究[J].计算机工程与应用,2009,45(26):144-146. 被引量：10

中文信息学报

2011年第4期

浏览历史

内容加载中请稍等...

藏语句子相似度算法的研究被引量：14

参考文献10

二级参考文献81

共引文献219

同被引文献75

引证文献14

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

藏语句子相似度算法的研究 被引量：14

参考文献10

二级参考文献81

共引文献219

同被引文献75

引证文献14

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

藏语句子相似度算法的研究被引量：14