期刊文献+
共找到93篇文章
< 1 2 5 >
每页显示 20 50 100
ON THE STRUCTURES OF RAM-BASED CHINESE CHARACTER LIBRARIES
1
作者 钱培德 《苏州大学学报(自然科学版)》 CAS 1991年第2期140-147,共8页
The Chinese character library is one of the important data structures in the Chinese information Processing system.The behavior of the whole system depends directly on the reasonableness of design for its structure.Th... The Chinese character library is one of the important data structures in the Chinese information Processing system.The behavior of the whole system depends directly on the reasonableness of design for its structure.This paper expounds the structures of RAM-based Chinese character libraries,static and dynamic ,The paper offers a descriptive method for this behavior and inquires into some algorithms related to the structures mentioned above. 展开更多
关键词 汉字库 数据结构 自适应库 多层次库
下载PDF
Incorporating Linguistic Rules in Statistical Chinese Language Model for Pinyin-to-character Conversion 被引量:2
2
作者 刘秉权 Wang +2 位作者 Xiaolong Wang Yuying 《High Technology Letters》 EI CAS 2001年第2期8-13,共6页
An N-gram Chinese language model incorporating linguistic rules is presented. By constructing elements lattice, rules information is incorporated in statistical frame. To facilitate the hybrid modeling, novel methods ... An N-gram Chinese language model incorporating linguistic rules is presented. By constructing elements lattice, rules information is incorporated in statistical frame. To facilitate the hybrid modeling, novel methods such as MI-based rule evaluating, weighted rule quantification and element-based n-gram probability approximation are presented. Dynamic Viterbi algorithm is adopted to search the best path in lattice. To strengthen the model, transformation-based error-driven rules learning is adopted. Applying proposed model to Chinese Pinyin-to-character conversion, high performance has been achieved in accuracy, flexibility and robustness simultaneously. Tests show correct rate achieves 94.81% instead of 90.53% using bi-gram Markov model alone. Many long-distance dependency and recursion in language can be processed effectively. 展开更多
关键词 chinese Pinyin-to-character conversion Rule-based language model N-gram language model Hybrid language model Element lattice Transformation-based error-driven learning
下载PDF
Study on Pinyin-Stroke Coding Input Method For Chinese Characters
3
作者 CHEN Qin-wu LIU Rui-shun LIU Xiu-feng 《微计算机信息》 2010年第36期255-257,279,共4页
下载PDF
中国学视域下的国际中文教育知识体系构建
4
作者 于伟 《海南师范大学学报(社会科学版)》 2024年第4期61-69,共9页
中国学是历史中国之学,也是当代中国之学。世界中国学因为有了中国的参与,使其自身由“外国学”而更新迭代为“文明互鉴之学”。中国学的孕育和诞生,离不开中文的教育与学习。中国学是中外文化交流的果实,而交流的起始就是语言的互通。... 中国学是历史中国之学,也是当代中国之学。世界中国学因为有了中国的参与,使其自身由“外国学”而更新迭代为“文明互鉴之学”。中国学的孕育和诞生,离不开中文的教育与学习。中国学是中外文化交流的果实,而交流的起始就是语言的互通。中国学是国际中文教育的战略性先导,国际中文教育是中国学蓬勃发展的基础性支撑。未来国际中文教育的知识体系构建,应该着眼于中华文化的世界传播,聚焦于中国特色哲学社会科学话语体系的构建,服务于世界文明的交流互鉴,从加强中文书面语教学、构建中文教育学学科和强调中文的文化交流属性入手,使国际中文教育在文明互鉴的时代能够不断创新发展并行稳致远。 展开更多
关键词 中国学 国际中文教育 字本位 中文教育学 文明互鉴
下载PDF
基于CGM与风格迁移的蒙象汉体设计研究
5
作者 姜雨璇 吴海茹 《设计》 2024年第19期24-28,共5页
以蒙古文字的文化内涵与笔画特征为基础,探索蒙古族文字的当代传承路径与创新方法。以回鹘式蒙古文为个案,对笔画造型、文字结构等要素进行解构与提取,借助CGM推导法则对汉字进行重组并输出字体,最后辅以迁移算法对最终样本进行风格转... 以蒙古文字的文化内涵与笔画特征为基础,探索蒙古族文字的当代传承路径与创新方法。以回鹘式蒙古文为个案,对笔画造型、文字结构等要素进行解构与提取,借助CGM推导法则对汉字进行重组并输出字体,最后辅以迁移算法对最终样本进行风格转译。对蒙象汉体进行了创新性设计,并将其应用于各类领域。利用该方法,将设计的程式化与数字技术相结合,可进一步拓展汉字字体设计外延,也为其他民族字体创新提供一定的理论指导与路径参考。 展开更多
关键词 CGM模型 风格迁移算法 字体设计 蒙象汉体 民族艺术传承
下载PDF
基于规则与统计相结合的中文文本自动查错模型与算法 被引量:34
6
作者 张仰森 曹元大 俞士汶 《中文信息学报》 CSCD 北大核心 2006年第4期1-7,55,共8页
中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字... 中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43%,误报率为30.57%。 展开更多
关键词 计算机应用 中文信息处理 中文文本自动查错 规则与统计相结合 非多字词错误 真多字词错误
下载PDF
一个中文文本自动分类数学模型 被引量:18
7
作者 曹素青 曾伏虎 曹焕光 《情报学报》 CSSCI 北大核心 1999年第1期27-32,共6页
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类... 本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类。 展开更多
关键词 中文文本 自动分类 字频向量 映射函数
下载PDF
基于非负矩阵分解方法的汉字基本部件识别 被引量:4
8
作者 陈清华 陈六君 +1 位作者 郑涛 陈家伟 《计算机工程与应用》 CSCD 北大核心 2008年第29期76-78,81,共4页
将NMF方法应用到汉字字形的处理中,成功地从一些汉字样本中抽取出构成这些汉字的基本部件。通过引入合适的惩罚因子,提出了一种扩展的NMF方法,对同样的汉字样本进行处理可以获得更好的结果,抽取出的基本部件就是构成这些汉字的偏旁部首。
关键词 非负矩阵分解 汉字 基本部件
下载PDF
中文分词十年回顾 被引量:250
9
作者 黄昌宁 赵海 《中文信息学报》 CSCD 北大核心 2007年第3期8-19,共12页
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可... 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。 展开更多
关键词 计算机应用 中文信息处理 中文分词 词语定义 未登录词识别 字标注分词方法
下载PDF
新音形编码汉字输入法设计 被引量:5
10
作者 陈钦梧 彭小忠 《计算机工程与应用》 CSCD 2014年第1期36-40,共5页
针对当前汉字输入法普遍存在的不足,提出了一种新音形编码汉字输入法,即利用汉字的首拼音、韵母及组成汉字的基本笔画和少数高频部件来对汉字编码,是对以前笔画和音形编码汉字输入法的改进。它既有笔画输入法低重码率、输入高效的特点,... 针对当前汉字输入法普遍存在的不足,提出了一种新音形编码汉字输入法,即利用汉字的首拼音、韵母及组成汉字的基本笔画和少数高频部件来对汉字编码,是对以前笔画和音形编码汉字输入法的改进。它既有笔画输入法低重码率、输入高效的特点,又切合广大拼音输入法用户的输入习惯,能够很好地满足多种用户群的需求。阐述了这种编码输入法对汉字的编码规则,对各编码的按键分布及重码率进行详实的统计,深入分析论证了其重码率低的优点,简要介绍了这种输入法在Android平台下的实现。 展开更多
关键词 韵母键盘 汉字输入法 笔画编码 新音形编码 重码率分析
下载PDF
三位一体字标注的汉语词法分析 被引量:4
11
作者 于江德 胡顺义 余正涛 《中文信息学报》 CSCD 北大核心 2015年第6期1-7,共7页
针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,该文提出一种三位一体字标注的汉语词法分析方法,该方法将汉语词法分析过程看作字序列的标注过程,将每个字的词位... 针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,该文提出一种三位一体字标注的汉语词法分析方法,该方法将汉语词法分析过程看作字序列的标注过程,将每个字的词位、词性、命名实体三类信息融合到该字的标记中,采用最大熵模型经过一次标注实现汉语词法分析的三项任务。并在Bakeoff2007的PKU语料上进行了封闭测试,通过对该方法和传统分步处理的分词、词性标注、命名实体识别的性能进行大量对比实验,结果表明,三位一体字标注方法的分词、词性标注、命名实体识别的性能都有不同程度的提升,汉语分词的F值达到了96.4%,词性标注的标注精度达到了95.3%,命名实体识别的F值达到了90.3%,这说明三位一体字标注的汉语词法分析性能更优。 展开更多
关键词 汉语词法分析 最大熵模型 三位一体 字标注
下载PDF
基于统计方法的中文姓名识别研究 被引量:3
12
作者 贾品贵 杨一平 卢朋 《计算机工程与应用》 CSCD 北大核心 2006年第31期168-170,共3页
采用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型(HMM)分类器从未经切分的汉字串中候选姓名。利用人名与上下文词汇的互信息对候选人名进行最后的确认。该方法是完全数据... 采用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型(HMM)分类器从未经切分的汉字串中候选姓名。利用人名与上下文词汇的互信息对候选人名进行最后的确认。该方法是完全数据驱动的,不需要姓名识别模板和规则。试验结果表明,该方法的召回率为82.7%,准确率为89.6%。 展开更多
关键词 中文姓名识别 基于汉字 隐马尔可夫模型 互信息
下载PDF
一种联机手写汉字识别方法 被引量:2
13
作者 姚丹霖 殷建平 《国防科技大学学报》 EI CAS CSCD 1997年第1期32-35,共4页
本文给出了一种基于动态汉字基元获取笔段有序序列的联机手写汉字识别方法。该方法对汉字书写笔顺无任何限制,对手写汉字变形有很好的适应能力。经测试,基于本方法研制的联机手写汉字识别系统的识别率为97.1%.
关键词 手写汉字 汉字基元 模式识别 汉字识别 计算机
下载PDF
从汉字教学看对外汉语教学中的本位问题 被引量:15
14
作者 施正宇 《民族教育研究》 CSSCI 北大核心 2010年第6期104-110,共7页
本文以汉字教学为出发点,通过对汉语教学本位问题的缘起、发展及其影响的历史回顾与理性思考,探讨对外汉语教学领域中词本位教学法和字本位教学法的实质。在此基础上,笔者认为汉语作为第二语言教学应当遵循汉字、语素和词汇并重的基本原... 本文以汉字教学为出发点,通过对汉语教学本位问题的缘起、发展及其影响的历史回顾与理性思考,探讨对外汉语教学领域中词本位教学法和字本位教学法的实质。在此基础上,笔者认为汉语作为第二语言教学应当遵循汉字、语素和词汇并重的基本原则,建立有别于西方第二语言教学的对外汉语教学模式。 展开更多
关键词 本位 词本位 语素本位 汉字本位 汉语教学模式
下载PDF
结合类频率的关联中文文本分类 被引量:12
15
作者 钱铁云 王元珍 冯小年 《中文信息学报》 CSCD 北大核心 2004年第6期30-36,共7页
该文提出一种词类频率和关联中文文本分类相结合的算法ARCTC。此算法将文档视作事务 ,关键词视作项 ,并针对文本事务的特性 ,提出利用词的类频率筛选与分类相关性不大的词汇 ,然后将改进的关联规则挖掘算法用于挖掘项和类别间的相关关... 该文提出一种词类频率和关联中文文本分类相结合的算法ARCTC。此算法将文档视作事务 ,关键词视作项 ,并针对文本事务的特性 ,提出利用词的类频率筛选与分类相关性不大的词汇 ,然后将改进的关联规则挖掘算法用于挖掘项和类别间的相关关系。挖掘出的规则用于形成类别特征词的集合 ,可用来和类标号未知文档的词的集合求交集 ,交集元素个数最多者即为所分类别。实验证明 ,该算法在提高训练时间和测试时间的同时具有较好的召回率、准确率和F Measure。 展开更多
关键词 计算机应用 中文信息处理 基于关联的分类 中文文本分类 词类频率 类别特征词集合
下载PDF
《全衡》词典的设计与建设 被引量:2
16
作者 张小衡 张群显 《中文信息学报》 CSCD 北大核心 2002年第3期58-62,共5页
《全衡》是第一个较全面考虑香港和国际的需求的网上汉字输入系统 ,其核心部件是词典。《全衡》使用的是一部拥有六万余词条的词典 ,每一词条讲述一个词语 ,信息包括该词语的简体字形式、繁体字形式、汉语拼音表达式、粤语拼音表达式、... 《全衡》是第一个较全面考虑香港和国际的需求的网上汉字输入系统 ,其核心部件是词典。《全衡》使用的是一部拥有六万余词条的词典 ,每一词条讲述一个词语 ,信息包括该词语的简体字形式、繁体字形式、汉语拼音表达式、粤语拼音表达式、仓颉输入法代码、速成输入法代码等。由其中任何一项入手 ,借助于系统中的检索程序可以方便地查找其它各项信息。这不仅有力地支持了汉字输入 ,对于汉语学习也很有帮助。本文简要介绍《全衡》 展开更多
关键词 《全衡》 网上汉字输入系统 词典编辑 汉语拼音 粤语拼音 简体字 繁体字 词典设计 词典建设
下载PDF
计算机汉字库开发液晶汉字显示数据的方法 被引量:5
17
作者 田会方 张洪昌 《武汉理工大学学报(信息与管理工程版)》 CAS 2005年第4期83-86,共4页
控制技术的发展要求在仪器设备中越来越需要利用液晶来显示各种控制参数,针对这一目的,论述了汉字的编码规则,以及如何利用计算机中的汉字库,制作针对不同液晶控制器的汉字显示数据库。
关键词 汉字库 显示数据 取模方法 液晶控制器
下载PDF
基于类向量模型的中文姓名识别研究 被引量:2
18
作者 贾品贵 杨一平 卢朋 《计算机应用研究》 CSCD 北大核心 2007年第4期111-113,共3页
提出了一种基于类向量模型的中文姓名识别方法。该方法通过类向量的生成来模拟人工识别姓名的过程,采用V iterbi算法对未经切分的汉字串进行类向量标注得到类向量序列,通过检查相邻类向量中类别和向量分量的变化来最终识别出人名。该方... 提出了一种基于类向量模型的中文姓名识别方法。该方法通过类向量的生成来模拟人工识别姓名的过程,采用V iterbi算法对未经切分的汉字串进行类向量标注得到类向量序列,通过检查相邻类向量中类别和向量分量的变化来最终识别出人名。该方法是完全数据驱动的,不需要姓名识别的模式和规则。通过对互联网上随机抽取的1 000篇文章进行测试,结果表明,中文姓名识别召回率为82.2%,准确率为70.3%。 展开更多
关键词 中文姓名识别 类向量模型 VITERBI算法 基于汉字
下载PDF
OLED汉字显示技术 被引量:1
19
作者 雷凌毅 张振禹 朱莹 《兵工自动化》 2007年第1期89-90,共2页
采用在屏上选择对应位置点亮对应点方式创建自定义汉字库,通过调用该字库,可在OLED上显示汉字。先根据OLED显示方式和要求,选择相关取模参数生成所需汉字字模。再根据所需的汉字和字符,通过字模产生工具生成相应字模,完成自定义汉字库... 采用在屏上选择对应位置点亮对应点方式创建自定义汉字库,通过调用该字库,可在OLED上显示汉字。先根据OLED显示方式和要求,选择相关取模参数生成所需汉字字模。再根据所需的汉字和字符,通过字模产生工具生成相应字模,完成自定义汉字库的编制。以VGG12864E-S002型OLED为例仿真,证明了该方法的可行性。 展开更多
关键词 OLED 汉字显示 汉字库 字模
下载PDF
中文全文检索系统中基于分词技术的研究 被引量:1
20
作者 刘畅 张猛 《吉林大学学报(信息科学版)》 CAS 2013年第3期320-323,共4页
为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率,在现有中文分词算法的基础上,提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射,对词库进行改造,使之更好地与相关词进行映射,以... 为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率,在现有中文分词算法的基础上,提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射,对词库进行改造,使之更好地与相关词进行映射,以便于实现中文分词。实验证明,改进的中文分词算法能降低检索耗时,是已有的分词算法的1/2和1/5,有效提高中文全文检索的速率。 展开更多
关键词 中文全文检索 中文分词 字索引
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部