期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
汉字笔画若干数据的统计方法研究与应用 被引量:14
1
作者 吴建国 俞庆英 吴海辉 《安徽大学学报(自然科学版)》 CAS 北大核心 2005年第3期14-20,共7页
统计汉字笔画信息的各种数据,这些数据主要包括:每个汉字的平均笔画数及按使用频度加权的平均笔画数、以各种笔画起笔的汉字数目、各种笔画在汉字字库中的出现次数、汉字字库中笔画相同的汉字、能与其他字区分开的汉字前若干笔画数的平... 统计汉字笔画信息的各种数据,这些数据主要包括:每个汉字的平均笔画数及按使用频度加权的平均笔画数、以各种笔画起笔的汉字数目、各种笔画在汉字字库中的出现次数、汉字字库中笔画相同的汉字、能与其他字区分开的汉字前若干笔画数的平均数与加权平均数以及汉字字库中相邻笔画的频度等。统计的数据对于基于笔画的汉字输入法和汉字的联机手写识别等方面具有重要的指导意义,我们根据这些统计资料设计了标准键盘和数字键盘,并在Windows下实现了以上两种笔画输入法。 展开更多
关键词 笔画 数据 统计方法 Windows 应用 汉字字库 加权平均数 汉字输入法 出现次数 手写识别 数字键盘 标准键盘 统计资料 频度 联机
下载PDF
一种基于词共现的文本相似度计算 被引量:14
2
作者 曹恬 周丽 张国煊 《计算机工程与科学》 CSCD 2007年第3期52-53,73,共3页
在文本检索中,由于用户需求的表达方式不充分,常会得到大量无关信息,给用户检索带来诸多不便。本文提出的基于词共现的文本相似度计算,可以让用户选择去掉或保留和某一文本相似的文本集,提高用户检索效率。
关键词 文本相似度 中文信息处理 特征串 词共现
下载PDF
汉字编码输入法评测分析 被引量:2
3
作者 李小庆 马晶莹 林民 《内蒙古师范大学学报(自然科学汉文版)》 CAS 2009年第4期421-425,共5页
介绍了汉字编码输入法国家标准,分析了一种广泛使用的音码输入法的评测结果,并进行了对比验证实验.结果表明,音码输入法原评测结果中存在一些误差较大的数据,输入法的平均码长和重码字词键选率两个性能指标未能达到国家标准.对比验证实... 介绍了汉字编码输入法国家标准,分析了一种广泛使用的音码输入法的评测结果,并进行了对比验证实验.结果表明,音码输入法原评测结果中存在一些误差较大的数据,输入法的平均码长和重码字词键选率两个性能指标未能达到国家标准.对比验证实验为改进音码输入法的性能提供了参考资料. 展开更多
关键词 中文信息处理 汉字编码输入法 平均码长 重码字词键选率 评测分析
下载PDF
一个基于多代码页的中文屏幕实时解释引擎的设计 被引量:2
4
作者 李培峰 朱巧明 钱培德 《中文信息学报》 CSCD 北大核心 2005年第5期90-96,共7页
目前,在计算机中汉字有多种代码页,汉字的多代码页并存现象将长期存在。为了实现汉字多代码页并存,需要汉字代码页自动识别技术的支撑。屏幕实时解释引擎是目前各种在线字典、词典以及教学软件的核心技术,此技术目前存在不能跨代码页,... 目前,在计算机中汉字有多种代码页,汉字的多代码页并存现象将长期存在。为了实现汉字多代码页并存,需要汉字代码页自动识别技术的支撑。屏幕实时解释引擎是目前各种在线字典、词典以及教学软件的核心技术,此技术目前存在不能跨代码页,取词不全面、不正确等缺陷。本文主要针对以上情况,描述了采用汉字内码的代码页自动识别技术以及优化的自动屏幕取词技术的中文屏幕实时解释引擎的系统架构,并阐述了数据词典的设计以及在设计中采用的关键技术。对五百万汉字样本的测试中,应用此引擎的在线词典对有意义短字符串(不包括单字)代码页的识别率可以达到99%以上。 展开更多
关键词 计算机应用 中文信息处理 汉字代码页自动识别 屏幕取词 ISO10646
下载PDF
一种基于词编码的中文文档格式 被引量:1
5
作者 焦慧 刘迁 贾惠波 《计算机科学》 CSCD 北大核心 2008年第10期162-164,共3页
分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中... 分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中文词的编码方法,以每个词作为一个单位,对词进行编码。此方法避开了中文的自动分词问题,特别是解决了歧义切分的难题,并提出了一种利用文档格式解决未登录词问题的新思路。采用统计分析方法对词平台基础上的关键词自动抽取进行了实验研究,取得良好效果。 展开更多
关键词 中文信息处理 词典码 文档格式 自动分词
下载PDF
基于词平台的中文文档实验系统的构建 被引量:1
6
作者 焦慧 刘迁 贾惠波 《微计算机信息》 北大核心 2008年第18期171-172,104,共3页
文章提出一种新的中文文档实验系统,力求建立一个克服束缚中文信息处理发展的自动分词问题的实验研究平台。文章采用一种新的基于中文词的文本编码方法,对每个词进行编码,并使新编码与机内码联系起来。使用这种基于词的编码格式可以使... 文章提出一种新的中文文档实验系统,力求建立一个克服束缚中文信息处理发展的自动分词问题的实验研究平台。文章采用一种新的基于中文词的文本编码方法,对每个词进行编码,并使新编码与机内码联系起来。使用这种基于词的编码格式可以使词成为计算机中文处理中的最小信息载体,无须再进行中文分词。文章使用该方法进行了关键词自动抽取的实验研究。结果显示,基于词编码的中文文档实验系统能很好的解决中文分词问题,并给其它中文文本分析奠定良好基础。 展开更多
关键词 中文信息处理 汉字编码 词平台 自动分词
下载PDF
LCD显示点阵字库的提取 被引量:6
7
作者 汤荣生 《苏州大学学报(自然科学版)》 CAS 2002年第2期45-48,共4页
讨论了中文WINDOWS操作系统的汉字显示点阵字库和汉字内码之间的对应关系,给出了为单片微机系统中的LCD显示模块直接提取汉字库的方法,并给出了部分程序清单.
关键词 LCD显示 中文WINDOWS操作系统 汉字内码 汉字显示点阵字库 字库提取 字库扩展 映射关系
下载PDF
基于邻接矩阵全文索引模型的文本压缩技术 被引量:1
8
作者 陶晓鹏 胡运发 《中文信息学报》 CSCD 北大核心 2004年第1期33-41,共9页
基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型 ,但是它的最优符号集的寻找算法是NP完全问题 ,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法 ,发现一个局部最优的单词表。这种方法的关键是将文本的邻接矩阵索引... 基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型 ,但是它的最优符号集的寻找算法是NP完全问题 ,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法 ,发现一个局部最优的单词表。这种方法的关键是将文本的邻接矩阵索引作为统计基础 ,邻接矩阵全文索引是论文 [9]提出的一种新的全文索引模型 ,它忠实地反映了原始文本 ,很利于进行原始文本的初步统计 ,因此算法效率得以提高 ,其时间复杂度与文本的汉字种数成线性关系 ,能够适应在线需要。并且 ,算法生成的压缩模型的压缩比是 0 4 7,比基于字的压缩模型的压缩效率提高 2 5 %。 展开更多
关键词 计算机应用 中文信息处理 邻接矩阵 文本压缩 压缩模型 基于不定长单词的Huffman编码
下载PDF
俄文键盘的模拟
9
作者 饶增仁 《兰州大学学报(自然科学版)》 CAS CSCD 北大核心 1992年第S1期97-100,共4页
本文用汇编语言程序,在由北京大学与香港金山公司最新联合研制开发成功的 Super-CCDOS 版本5.10基础上,实现了将微机英文键盘向俄文键盘的动态转换,达到了击一键就可输入一俄文字母的快速输入,避免了当前仍流行的像 CCDOS 版本2.1,CCDOS... 本文用汇编语言程序,在由北京大学与香港金山公司最新联合研制开发成功的 Super-CCDOS 版本5.10基础上,实现了将微机英文键盘向俄文键盘的动态转换,达到了击一键就可输入一俄文字母的快速输入,避免了当前仍流行的像 CCDOS 版本2.1,CCDOS 版本2.13H 以及 Su-per-CCDOS 版本5.10等汉字操作系统中,只有用区位码才能输入俄文字母的难记慢速的输入方法. 展开更多
关键词 汉字操作系统 彩色图形适配器 增强的图形适配器 图像图形适配器 美国标准信息 交换码
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部