期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种改进逐字二分中文分词词典设计
被引量:
5
1
作者
杨毅
王禹桥
《湘潭大学自然科学学报》
CAS
CSCD
北大核心
2009年第4期124-128,共5页
在研究了多种分词词典机制的基础上,提出一种改进的词典机制.在传统的首字哈希表中增加拼音首字母和次字哈希标志项,在首字哈希表中查询次字的拼音首字母,根据双字以上词的数量决定是否按次字拼音首字母散列到次字首字母哈希表中,以此...
在研究了多种分词词典机制的基础上,提出一种改进的词典机制.在传统的首字哈希表中增加拼音首字母和次字哈希标志项,在首字哈希表中查询次字的拼音首字母,根据双字以上词的数量决定是否按次字拼音首字母散列到次字首字母哈希表中,以此决定次字的查询方式.在兼顾空间复杂度的同时,缩小次字查询范围能较大幅度地提升高频词的次字的整体查询效率.第3字及其后的字串的匹配仍然采用目前成熟的词典机制.通过实验测试,该机制在增加少量的存储空间情况下,时间效率可提升26%.
展开更多
关键词
中文分词
次
字
哈希
最大匹配
逐字二分
下载PDF
职称材料
一种基于全Hash的整词二分词典机制
被引量:
2
2
作者
彭焕峰
丁宋涛
《计算机工程》
CAS
CSCD
北大核心
2011年第21期40-42,共3页
为提高整词二分词典机制的分词效率,分析现有分词词典机制,提出一种基于全Hash的整词二分词典机制。该机制将首字相同的词条按字数分组,并进行全词Hash,对Hash值相同的词条进行二分查找,从而减少词条匹配的次数。理论分析和实验结果表明...
为提高整词二分词典机制的分词效率,分析现有分词词典机制,提出一种基于全Hash的整词二分词典机制。该机制将首字相同的词条按字数分组,并进行全词Hash,对Hash值相同的词条进行二分查找,从而减少词条匹配的次数。理论分析和实验结果表明,该机制的分词效率较高。
展开更多
关键词
中文分词
HASH函数
整词
二分
逐字二分
最大匹配
下载PDF
职称材料
Unicode藏文分词系统的设计
被引量:
2
3
作者
才华
普布卓玛
《西藏科技》
2012年第7期77-80,共4页
微软公司以叠置引擎和OpenType字库技术为基础,于2007年推出了基于藏文国际标准编码Unicode字符动态组合的藏文系统。该系统支持与藏文书写方式相一致的输入法,并能解决国内其他藏文系统普遍存在的缺字问题,其发展趋势很强,已成为藏文...
微软公司以叠置引擎和OpenType字库技术为基础,于2007年推出了基于藏文国际标准编码Unicode字符动态组合的藏文系统。该系统支持与藏文书写方式相一致的输入法,并能解决国内其他藏文系统普遍存在的缺字问题,其发展趋势很强,已成为藏文资源及藏文应用软件开发的主流平台。藏文分词作为信息处理的基础性工作之一,在藏文信息检索、自动校对、机器翻译等领域有着广泛的应用,所以很有必要对Unicode藏文文本进行分词研究。
展开更多
关键词
藏文信息处理
分词
HASH表
逐字二分
法
下载PDF
职称材料
面向世博语言信息处理的汉英机器词典
4
作者
张霄军
陈小荷
《辞书研究》
2007年第4期26-32,共7页
世博多语语言信息处理亟需一部信息全面、结构合理的多语机器词典。本文就面向世博语言信息处理的汉英机器词典编制展开讨论。分析了面向特定用途的机器词典在内客和组织结构上的要求,利用框架网络(FrameNet)语言资源和框架语义学思想,...
世博多语语言信息处理亟需一部信息全面、结构合理的多语机器词典。本文就面向世博语言信息处理的汉英机器词典编制展开讨论。分析了面向特定用途的机器词典在内客和组织结构上的要求,利用框架网络(FrameNet)语言资源和框架语义学思想,构想了该机器词典的主要内容——"基本词典+多部专业词典",确定了其组织结构——"基于逐字二分+基于二级Hash"。
展开更多
关键词
世博语言信息处理
机器词典
框架语义学
逐字二分
Hash方法
下载PDF
职称材料
题名
一种改进逐字二分中文分词词典设计
被引量:
5
1
作者
杨毅
王禹桥
机构
西华大学数学与计算机学院
中国矿业大学机电工程学院
出处
《湘潭大学自然科学学报》
CAS
CSCD
北大核心
2009年第4期124-128,共5页
基金
西华大学人才培养基金项目(R0723314)
文摘
在研究了多种分词词典机制的基础上,提出一种改进的词典机制.在传统的首字哈希表中增加拼音首字母和次字哈希标志项,在首字哈希表中查询次字的拼音首字母,根据双字以上词的数量决定是否按次字拼音首字母散列到次字首字母哈希表中,以此决定次字的查询方式.在兼顾空间复杂度的同时,缩小次字查询范围能较大幅度地提升高频词的次字的整体查询效率.第3字及其后的字串的匹配仍然采用目前成熟的词典机制.通过实验测试,该机制在增加少量的存储空间情况下,时间效率可提升26%.
关键词
中文分词
次
字
哈希
最大匹配
逐字二分
Keywords
chinese segmentation
second character
Hash
maximum matching
verbatim binary search
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于全Hash的整词二分词典机制
被引量:
2
2
作者
彭焕峰
丁宋涛
机构
南京工程学院计算机工程学院
南京大学软件学院
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第21期40-42,共3页
基金
南京工程学院科研基金资助项目"基于Lucene的全文搜索引擎研究"(QKJB2009026)
文摘
为提高整词二分词典机制的分词效率,分析现有分词词典机制,提出一种基于全Hash的整词二分词典机制。该机制将首字相同的词条按字数分组,并进行全词Hash,对Hash值相同的词条进行二分查找,从而减少词条匹配的次数。理论分析和实验结果表明,该机制的分词效率较高。
关键词
中文分词
HASH函数
整词
二分
逐字二分
最大匹配
Keywords
Chinese segmentation
Hash function
binary-seek-by-word
verbatim binary search
maximum match
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Unicode藏文分词系统的设计
被引量:
2
3
作者
才华
普布卓玛
机构
西藏大学图书馆
出处
《西藏科技》
2012年第7期77-80,共4页
文摘
微软公司以叠置引擎和OpenType字库技术为基础,于2007年推出了基于藏文国际标准编码Unicode字符动态组合的藏文系统。该系统支持与藏文书写方式相一致的输入法,并能解决国内其他藏文系统普遍存在的缺字问题,其发展趋势很强,已成为藏文资源及藏文应用软件开发的主流平台。藏文分词作为信息处理的基础性工作之一,在藏文信息检索、自动校对、机器翻译等领域有着广泛的应用,所以很有必要对Unicode藏文文本进行分词研究。
关键词
藏文信息处理
分词
HASH表
逐字二分
法
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向世博语言信息处理的汉英机器词典
4
作者
张霄军
陈小荷
机构
南京师范大学文学院
出处
《辞书研究》
2007年第4期26-32,共7页
基金
上海市教委一般项目"面向世博多语言处理的汉英对照词表编制"资助(项目编号05LS16)
文摘
世博多语语言信息处理亟需一部信息全面、结构合理的多语机器词典。本文就面向世博语言信息处理的汉英机器词典编制展开讨论。分析了面向特定用途的机器词典在内客和组织结构上的要求,利用框架网络(FrameNet)语言资源和框架语义学思想,构想了该机器词典的主要内容——"基本词典+多部专业词典",确定了其组织结构——"基于逐字二分+基于二级Hash"。
关键词
世博语言信息处理
机器词典
框架语义学
逐字二分
Hash方法
分类号
H16 [语言文字—汉语]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种改进逐字二分中文分词词典设计
杨毅
王禹桥
《湘潭大学自然科学学报》
CAS
CSCD
北大核心
2009
5
下载PDF
职称材料
2
一种基于全Hash的整词二分词典机制
彭焕峰
丁宋涛
《计算机工程》
CAS
CSCD
北大核心
2011
2
下载PDF
职称材料
3
Unicode藏文分词系统的设计
才华
普布卓玛
《西藏科技》
2012
2
下载PDF
职称材料
4
面向世博语言信息处理的汉英机器词典
张霄军
陈小荷
《辞书研究》
2007
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部