期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
一种改进逐字二分中文分词词典设计 被引量:5
1
作者 杨毅 王禹桥 《湘潭大学自然科学学报》 CAS CSCD 北大核心 2009年第4期124-128,共5页
在研究了多种分词词典机制的基础上,提出一种改进的词典机制.在传统的首字哈希表中增加拼音首字母和次字哈希标志项,在首字哈希表中查询次字的拼音首字母,根据双字以上词的数量决定是否按次字拼音首字母散列到次字首字母哈希表中,以此... 在研究了多种分词词典机制的基础上,提出一种改进的词典机制.在传统的首字哈希表中增加拼音首字母和次字哈希标志项,在首字哈希表中查询次字的拼音首字母,根据双字以上词的数量决定是否按次字拼音首字母散列到次字首字母哈希表中,以此决定次字的查询方式.在兼顾空间复杂度的同时,缩小次字查询范围能较大幅度地提升高频词的次字的整体查询效率.第3字及其后的字串的匹配仍然采用目前成熟的词典机制.通过实验测试,该机制在增加少量的存储空间情况下,时间效率可提升26%. 展开更多
关键词 中文分词 哈希 最大匹配 逐字二分
下载PDF
一种基于全Hash的整词二分词典机制 被引量:2
2
作者 彭焕峰 丁宋涛 《计算机工程》 CAS CSCD 北大核心 2011年第21期40-42,共3页
为提高整词二分词典机制的分词效率,分析现有分词词典机制,提出一种基于全Hash的整词二分词典机制。该机制将首字相同的词条按字数分组,并进行全词Hash,对Hash值相同的词条进行二分查找,从而减少词条匹配的次数。理论分析和实验结果表明... 为提高整词二分词典机制的分词效率,分析现有分词词典机制,提出一种基于全Hash的整词二分词典机制。该机制将首字相同的词条按字数分组,并进行全词Hash,对Hash值相同的词条进行二分查找,从而减少词条匹配的次数。理论分析和实验结果表明,该机制的分词效率较高。 展开更多
关键词 中文分词 HASH函数 整词二分 逐字二分 最大匹配
下载PDF
Unicode藏文分词系统的设计 被引量:2
3
作者 才华 普布卓玛 《西藏科技》 2012年第7期77-80,共4页
微软公司以叠置引擎和OpenType字库技术为基础,于2007年推出了基于藏文国际标准编码Unicode字符动态组合的藏文系统。该系统支持与藏文书写方式相一致的输入法,并能解决国内其他藏文系统普遍存在的缺字问题,其发展趋势很强,已成为藏文... 微软公司以叠置引擎和OpenType字库技术为基础,于2007年推出了基于藏文国际标准编码Unicode字符动态组合的藏文系统。该系统支持与藏文书写方式相一致的输入法,并能解决国内其他藏文系统普遍存在的缺字问题,其发展趋势很强,已成为藏文资源及藏文应用软件开发的主流平台。藏文分词作为信息处理的基础性工作之一,在藏文信息检索、自动校对、机器翻译等领域有着广泛的应用,所以很有必要对Unicode藏文文本进行分词研究。 展开更多
关键词 藏文信息处理 分词 HASH表 逐字二分
下载PDF
面向世博语言信息处理的汉英机器词典
4
作者 张霄军 陈小荷 《辞书研究》 2007年第4期26-32,共7页
世博多语语言信息处理亟需一部信息全面、结构合理的多语机器词典。本文就面向世博语言信息处理的汉英机器词典编制展开讨论。分析了面向特定用途的机器词典在内客和组织结构上的要求,利用框架网络(FrameNet)语言资源和框架语义学思想,... 世博多语语言信息处理亟需一部信息全面、结构合理的多语机器词典。本文就面向世博语言信息处理的汉英机器词典编制展开讨论。分析了面向特定用途的机器词典在内客和组织结构上的要求,利用框架网络(FrameNet)语言资源和框架语义学思想,构想了该机器词典的主要内容——"基本词典+多部专业词典",确定了其组织结构——"基于逐字二分+基于二级Hash"。 展开更多
关键词 世博语言信息处理 机器词典 框架语义学 逐字二分 Hash方法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部