期刊文献+
共找到101篇文章
< 1 2 6 >
每页显示 20 50 100
Structural recognition of ancient Chinese ideographic characters
1
作者 Li Ning Chen Dan 《仪器仪表学报》 EI CAS CSCD 北大核心 2014年第S2期233-237,共5页
Ancient Chinese characters, typically the ideographic characters on bones and bronze before Shang Dynasty(16th—11th century B.C.), are valuable culture legacy of history. However the recognition of Ancient Chinese ch... Ancient Chinese characters, typically the ideographic characters on bones and bronze before Shang Dynasty(16th—11th century B.C.), are valuable culture legacy of history. However the recognition of Ancient Chinese characters has been the task of paleography experts for long. With the help of modern computer technique, everyone can expect to be able to recognize the characters and understand the ancient inscriptions. This research is aimed to help people recognize and understand those ancient Chinese characters by combining Chinese paleography theory and computer information processing technology. Based on the analysis of ancient character features, a method for structural character recognition is proposed. The important characteristics of strokes and basic components or radicals used in recognition are introduced in detail. A system was implemented based on above method to show the effectiveness of the method. 展开更多
关键词 IDEOGRAPHIC charactER RECOGNITION STRUCTURAL RECOGNITION chinese information processing
下载PDF
一种中文分词词典新机制——双字哈希机制 被引量:108
2
作者 李庆虎 陈玉健 孙家广 《中文信息学报》 CSCD 北大核心 2003年第4期13-18,共6页
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多... 汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。 展开更多
关键词 汉语自动分词 汉语信息处理 分词词典机制 双字哈希机制 分词速度 分词效率
下载PDF
印刷维吾尔文本切割 被引量:17
3
作者 靳简明 丁晓青 +1 位作者 彭良瑞 王华 《中文信息学报》 CSCD 北大核心 2005年第5期76-83,共8页
我国新疆地区使用的维吾尔文借用阿拉伯文字母书写。因为阿拉伯文字母自身书写的特点,造成维文文本的切割和识别极其困难。本文在连通体分类的基础上,结合水平投影和连通体分析的方法实现维文文本的文字行切分和单词切分。然后定位单词... 我国新疆地区使用的维吾尔文借用阿拉伯文字母书写。因为阿拉伯文字母自身书写的特点,造成维文文本的切割和识别极其困难。本文在连通体分类的基础上,结合水平投影和连通体分析的方法实现维文文本的文字行切分和单词切分。然后定位单词基线位置,计算单词轮廓和基线的距离,寻找所有可能的切点实现维文单词过切割,最后利用规则合并过切分字符。实验结果表明,字符切割准确率达到99%以上。 展开更多
关键词 计算机应用 中文信息处理 文本切割 字符切割 字符识别 维吾尔文
下载PDF
一种中文文档的非受限无词典抽词方法 被引量:28
4
作者 金翔宇 孙正兴 张福炎 《中文信息学报》 CSCD 北大核心 2001年第6期33-39,共7页
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、... 本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用 。 展开更多
关键词 中文信息处理 自动分词 非受限无词典抽词 汉字结构模式 中文文档 抽词速度
下载PDF
基于语料库的藏文字属性分析系统设计 被引量:10
5
作者 才智杰 才让卓玛 《计算机工程》 CAS CSCD 北大核心 2011年第22期270-272,共3页
通过对藏语语料库的统计和现代藏文字结构的分析,研究现代藏文字属性分析系统的模型,设计基本构件字表库、组合构件字表库、粗粒度结构字表库及细粒度结构字表库,并阐述各字表库的结构特征,介绍藏文字属性分析算法。运用该算法及藏文字... 通过对藏语语料库的统计和现代藏文字结构的分析,研究现代藏文字属性分析系统的模型,设计基本构件字表库、组合构件字表库、粗粒度结构字表库及细粒度结构字表库,并阐述各字表库的结构特征,介绍藏文字属性分析算法。运用该算法及藏文字属性分析系统模型,解析现代藏文字的使用频度、结构、字长、构件分解、各构件的位置及频度等属性,从而为藏文键盘布局、藏文输入法研究、藏文搜索引擎、机器翻译和网络信息安全等提供理论依据。 展开更多
关键词 中文信息处理 属性 构件 字结构
下载PDF
基于规则与统计相结合的中文文本自动查错模型与算法 被引量:33
6
作者 张仰森 曹元大 俞士汶 《中文信息学报》 CSCD 北大核心 2006年第4期1-7,55,共8页
中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字... 中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43%,误报率为30.57%。 展开更多
关键词 计算机应用 中文信息处理 中文文本自动查错 规则与统计相结合 非多字词错误 真多字词错误
下载PDF
多文种环境下汉字内码识别算法的研究 被引量:16
7
作者 李培峰 朱巧明 钱培德 《中文信息学报》 CSCD 北大核心 2004年第2期73-79,共7页
汉字内码向ISO/IEC 10 6 46过渡是实现计算机用文字编码统一的必然趋势 ,但目前在一段时间内仍将存在多种汉字内码并存的情况 ,所以实现汉字内码的自动识别是保证汉字多内码并存的关键。本文主要探讨了如何在多内码并存的多文种环境中... 汉字内码向ISO/IEC 10 6 46过渡是实现计算机用文字编码统一的必然趋势 ,但目前在一段时间内仍将存在多种汉字内码并存的情况 ,所以实现汉字内码的自动识别是保证汉字多内码并存的关键。本文主要探讨了如何在多内码并存的多文种环境中实现汉字内码自动识别的问题 ,并提供了多种汉字内码识别算法 ,包括基于内码分布、标点符号特征、字频特征和语义特征的识别算法等。在此基础上 ,本文对不同的识别算法进行分析和评估。在对目标样本的测试中 ,以上算法的识别率最高可以达到 99 9%以上。 展开更多
关键词 计算机应用 中文信息处理 多文种环境 汉字内码 识别算法
下载PDF
基于ISO/IEC10646标准的藏文操作系统若干问题研究 被引量:10
8
作者 芮建武 吴健 孙玉芳 《中文信息学报》 CSCD 北大核心 2005年第5期59-66,共8页
长期以来尚未有完整的藏文操作系统,原因是藏文文字的特性要求特定的文字处理。本文基于ISO/IEC10646的藏文字符集标准,结合藏文正字法要求,详细分析了藏文操作系统实现中的关键问题:(1)藏文字符集方案比较与藏文存储;(2)藏文输入;(3)... 长期以来尚未有完整的藏文操作系统,原因是藏文文字的特性要求特定的文字处理。本文基于ISO/IEC10646的藏文字符集标准,结合藏文正字法要求,详细分析了藏文操作系统实现中的关键问题:(1)藏文字符集方案比较与藏文存储;(2)藏文输入;(3)藏文显现。藏文显现是公认的“瓶颈”问题。对此,本文提出基于音节划分、使用OpenType字体及相应的文本引擎来解决藏文“叠加”字符的显现。此方案应用于Qt库的实验及相关测试证明基于ISO/IEC10646标准的藏文操作系统实现是较合理的方案。 展开更多
关键词 计算机应用 中文信息处理 藏文字符集 藏文叠加字符 OPENTYPE
下载PDF
现代藏字全集的属性统计研究 被引量:32
9
作者 高定国 龚育昌 《中文信息学报》 CSCD 北大核心 2005年第1期71-75,共5页
藏文基本属性的研究是藏文信息处理技术的基础 ,现代藏字的研究是藏文信息处理的重点。藏字全集是有限集 ,为了更好地研究现代藏字 ,本文以现代藏字为研究对象 ,按照现代藏文文法的规律 ,对全部现代藏字用计算机辅助统计了藏字全集的个... 藏文基本属性的研究是藏文信息处理技术的基础 ,现代藏字的研究是藏文信息处理的重点。藏字全集是有限集 ,为了更好地研究现代藏字 ,本文以现代藏字为研究对象 ,按照现代藏文文法的规律 ,对全部现代藏字用计算机辅助统计了藏字全集的个数、藏字的字长、藏字的结构方式、位置特征、字符频度以及所有现代藏字中的整基字丁 ,并且简要地分析了这些数据。这些数据可以较全面地反映现代藏字的本质特征 ,可为藏文研究和藏字信息处理提供基础数据。 展开更多
关键词 计算机应用 中文信息处理 藏字全集 藏字结构 藏字频度
下载PDF
一种基于ICA的汉字信息隐秘传输方法 被引量:8
10
作者 陆红琳 程义民 +1 位作者 王以孝 田源 《中文信息学报》 CSCD 北大核心 2003年第4期59-65,共7页
本文描述了一种基于独立成份分析 (ICA)的汉字信息隐密传输方法。该方法以彩色图像为寄主图像 ,对其进行ICA分解 ,求出其中的独立成分 ,再将汉字信息以编码形式 ,隐藏在对彩色图像质量影响最小的独立成分低位端 ,从而实现汉字信息的隐... 本文描述了一种基于独立成份分析 (ICA)的汉字信息隐密传输方法。该方法以彩色图像为寄主图像 ,对其进行ICA分解 ,求出其中的独立成分 ,再将汉字信息以编码形式 ,隐藏在对彩色图像质量影响最小的独立成分低位端 ,从而实现汉字信息的隐秘传输。该方法已经在PC机上进行了模拟 ,实验结果表明 ,该方法在保证图像质量条件下 ,有较高的嵌入率和较好的可靠性。 展开更多
关键词 汉字信息隐秘传输 ICA 独立成份分析 彩色图像 汉字编码 信息安全 图像传输
下载PDF
智能型汉字数码输入技术的研究 被引量:7
11
作者 顾平 朱巧明 +1 位作者 李培峰 钱培德 《中文信息学报》 CSCD 北大核心 2006年第4期100-105,共6页
针对数字编码的特点,本文提出了一种在不改变编码方案的情况下通过改进输入规则,结合语言模型,实现汉字数字编码的智能输入技术。文章首先讨论了怎样设计字词码本结构,使之能够满足灵活多样的输入方式,继而设计了一种动态自学习语言模型... 针对数字编码的特点,本文提出了一种在不改变编码方案的情况下通过改进输入规则,结合语言模型,实现汉字数字编码的智能输入技术。文章首先讨论了怎样设计字词码本结构,使之能够满足灵活多样的输入方式,继而设计了一种动态自学习语言模型,重点分析了数据平滑算法在语言模型中的应用与改进,最后通过一个输入法示例程序,对改进前后不同情况下的输入效果进行了测试。实验表明,这种输入技术不但降低了输入法的平均码长,而且显著地提高了首字命中率。 展开更多
关键词 计算机应用 中文信息处理 汉字输入 数字编码 智能输入 动态自学习语言模型
下载PDF
印刷体汉字识别后处理方法的研究 被引量:4
12
作者 张宏涛 龙翀 +1 位作者 朱小燕 孙俊 《中文信息学报》 CSCD 北大核心 2009年第6期67-71,共5页
高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题。该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法。通过采用字节作为语言模型的... 高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题。该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法。通过采用字节作为语言模型的基本表示单位,模型的复杂度大大降低,从而数据稀疏问题得到很大程度上缓解。实验证明,采用基于字节的语言模型的后处理系统能够以极少的时空开销获取很好的识别性能。在有部分分割错误的测试集上,正确率从88.67%提高到了98.32%,错误率下降了85.18%,运行速度较基于字以及基于词的系统有了大幅的提升,提高了后处理系统的综合性能;与目前常用的基于词的语言模型后处理系统相比,新系统能够节省95%的运行时间和98%的内存资源,但系统识别率仅降低了1.11%。 展开更多
关键词 计算机应用 中文信息处理 汉字识别 OCR 语言模型 后处理
下载PDF
中文分词十年回顾 被引量:249
13
作者 黄昌宁 赵海 《中文信息学报》 CSCD 北大核心 2007年第3期8-19,共12页
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可... 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。 展开更多
关键词 计算机应用 中文信息处理 中文分词 词语定义 未登录词识别 字标注分词方法
下载PDF
论汉字码本数据库管理技术 被引量:3
14
作者 吴娴 吕强 +2 位作者 杨涛 杨季文 钱培德 《中文信息学报》 CSCD 北大核心 2003年第2期48-53,共6页
任何一种中文输入法的研究中都会遇到码本的处理问题。在不同的时期 ,由于应用需求的不同 ,使得码本呈现出不同的表现形式。本文首先提出了汉字码本数据库的概念 ,它是指能够实现汉字字符信息到其相应属性的对应关系的数据结构。之后 ,... 任何一种中文输入法的研究中都会遇到码本的处理问题。在不同的时期 ,由于应用需求的不同 ,使得码本呈现出不同的表现形式。本文首先提出了汉字码本数据库的概念 ,它是指能够实现汉字字符信息到其相应属性的对应关系的数据结构。之后 ,本文讨论了不同层次上的两种码本 :数据库码本和二进制码本。根据实践的经验 ,文中将不同阶段的汉字码本数据库分成文本文件形式、数据库码本形式和二进制文件形式 。 展开更多
关键词 计算机应用 中文信息处理 码本 数据库 汉字码本数据库 管理技术
下载PDF
编码字符集标准及分类研究 被引量:5
15
作者 谢谦 芮建武 吴健 《中文信息学报》 CSCD 北大核心 2006年第5期83-90,共8页
编码字符集标准是计算机处理文字信息的基础,本文提出了编码字符集三元组抽象,对现有编码字符集标准进行了简单回顾和总结,深入剖析了影响巨大的ISO 2022标准及其派生标准,对ISO 2022编码机制应用于多语言环境的局限性进行了探讨,阐明... 编码字符集标准是计算机处理文字信息的基础,本文提出了编码字符集三元组抽象,对现有编码字符集标准进行了简单回顾和总结,深入剖析了影响巨大的ISO 2022标准及其派生标准,对ISO 2022编码机制应用于多语言环境的局限性进行了探讨,阐明了使用通用编码字符集UCS的必要性,并对其进行了分析。探讨了现有编码分类方法存在的问题,引入了一种对编码字符集以及实现方法进行分类的新方法,使用该方法对现有标准进行了归类;最后对汉字字符集相关的国家标准进行了分析评介。 展开更多
关键词 计算机应用 中文信息处理 编码字符集
下载PDF
一个基于ISO/IEC10646的汉字输入模型 被引量:4
16
作者 李培峰 朱巧明 钱培德 《中文信息学报》 CSCD 北大核心 2006年第5期91-96,共6页
计算机中各国文字编码的统一是必然趋势,而ISO/IEC 10646正是顺应这种趋势而诞生的一个国际标准。现有的输入法绝大多数是基于本地代码页(ANSI CODE),存在着移植困难、不能跨语言平台以及向国际化标准过渡困难等缺点。本文首先分析了现... 计算机中各国文字编码的统一是必然趋势,而ISO/IEC 10646正是顺应这种趋势而诞生的一个国际标准。现有的输入法绝大多数是基于本地代码页(ANSI CODE),存在着移植困难、不能跨语言平台以及向国际化标准过渡困难等缺点。本文首先分析了现有本地化输入法存在的问题,并在此基础上阐述了基于ISO10646的汉字输入法的实现方法,并给出了一个以ISO 10646为核心的通用汉字输入法模型和原理,该模型由输入法管理/服务器、ISO 10646输入码对照表、码本检索/过滤模块、输入法与OS接口模块、输入法内核和本地化接口六部分构成。最后,本文重点论述了输入法的核心—输入码对照表的设计和检索技术。 展开更多
关键词 算机应用 中文信息处理 输入法模型 ISO/IEC 10646 UNICODE 输入码对照表
下载PDF
基于双字耦合度的中文分词交叉歧义处理方法 被引量:17
17
作者 王思力 王斌 《中文信息学报》 CSCD 北大核心 2007年第5期14-17,30,共5页
本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息... 本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。 展开更多
关键词 计算机应用 中文信息处理 中文分词 双字耦合度 t-测试差
下载PDF
计算机汉字输入的数学模型及其应用 被引量:7
18
作者 吕强 钱培德 《微电子学与计算机》 CSCD 北大核心 1992年第6期40-43,共4页
计算机汉字输入是计算机汉字信息处理的基本问题。本文对计算机汉字输入给出了数学模型描述,该数学模型能够较好地解释目前的汉字输入问题,并且能为今后的开发提供参考的发展方向。
关键词 汉字输入 数学模型 计算机
下载PDF
藏文字形结构分布研究 被引量:6
19
作者 才智杰 才让卓玛 《中文信息学报》 CSCD 北大核心 2016年第4期98-105,共8页
字是语言文字的基本组成单位,字形结构统计研究是自然语言处理的基础,为字属性分析、输入法设计、排序、语音合成和字符信息熵研究等提供理论依据。该文通过分析藏文字形结构的特征,对藏文字的字形结构分成独体字和合体字,合体字按其构... 字是语言文字的基本组成单位,字形结构统计研究是自然语言处理的基础,为字属性分析、输入法设计、排序、语音合成和字符信息熵研究等提供理论依据。该文通过分析藏文字形结构的特征,对藏文字的字形结构分成独体字和合体字,合体字按其构件的结构位和所含构件数进行分类。设计了藏文字形结构统计系统模型和算法,从约含8 500万藏文字的450M语料中对藏文字形结构进行统计,建立了藏文字形结构分布统计表,并对统计结果进行了分析。 展开更多
关键词 中文信息处理 字形结构 独体字 合体字 频度统计
下载PDF
汉字模糊有穷自动机的研究 被引量:4
20
作者 蔡增玉 刘书如 +1 位作者 张建伟 张保威 《计算机技术与发展》 2008年第3期89-91,95,共4页
汉字的计算机输入是中文信息处理的关键问题之一,而汉字计算机输入的数学模型对汉字的计算机输入的研究有重要的意义。对汉字输入数学模型的分类进行了研究。研究了一般汉字有穷自动机,在此基础上把模糊有穷自动机的概念引入输入模型,... 汉字的计算机输入是中文信息处理的关键问题之一,而汉字计算机输入的数学模型对汉字的计算机输入的研究有重要的意义。对汉字输入数学模型的分类进行了研究。研究了一般汉字有穷自动机,在此基础上把模糊有穷自动机的概念引入输入模型,并给出汉字模糊有穷自动机的概念。新的模型是以前给出的汉字自动机模型的推广,较之以前的数学模型,能刻画出汉字智能输入、词句输入,表达能力进一步增强,为汉字的智能处理提供了数学模型。 展开更多
关键词 中文信息处理 汉字输入 数学模型 模糊有穷自动机
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部