期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
语句拼音-汉字转换的智能处理机制分析 被引量:13
1
作者 章森 宗成庆 +1 位作者 陈肇雄 黄河燕 《中文信息学报》 CSCD 北大核心 1998年第2期37-43,共7页
语句拼音-汉字转换是中文信息处理研究的一个重要方面,是键盘汉字输入和语音输入的核心技术,其主要特征是对动态输入的拼音串进行词法分析,给出所有可能的汉语句子,然后对这些汉语句子根据上下文环境进行句法分析和语义分析,动态... 语句拼音-汉字转换是中文信息处理研究的一个重要方面,是键盘汉字输入和语音输入的核心技术,其主要特征是对动态输入的拼音串进行词法分析,给出所有可能的汉语句子,然后对这些汉语句子根据上下文环境进行句法分析和语义分析,动态调整句子中的字词,输出最佳结果。近年来,语句拼音-汉字转换系统大量应用了人工智能技术和机器翻译的理论,以期提高系统转换的准确率和增强系统的智能处理功能。本文分析了语句拼音-汉字转换系统所采用的核心技术,即知识支持、自动分词和动态调整等,讨论了语句拼音-汉字转换的处理方法和过程,知识库的组成结构,用于拼音串自动分词的算法和实现,音字转换中动态调整的概率模型等,本文还分析了现有语句拼音-汉字转换系统在拼音串自动分词和音字转换的动态调整中发生错误的原因。 展开更多
关键词 自动分词 中文信息处理 人工智能 拼音-汉字转换
下载PDF
一种基于N-Gram技术的中文文献自动分类方法 被引量:18
2
作者 何浩 杨海棠 《情报学报》 CSSCI 北大核心 2002年第4期421-427,共7页
本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n... 本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。 展开更多
关键词 N-GRAM 汉字切分 哈密码 文献向量 KMA 自动分类 文献分类
下载PDF
一种中文文档的非受限无词典抽词方法 被引量:28
3
作者 金翔宇 孙正兴 张福炎 《中文信息学报》 CSCD 北大核心 2001年第6期33-39,共7页
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、... 本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用 。 展开更多
关键词 中文信息处理 自动分词 非受限无词典抽词 汉字结构模式 中文文档 抽词速度
下载PDF
基于汉语二字应成词的歧义字段切分方法 被引量:8
4
作者 郑德权 于凤 +1 位作者 王开涛 赵铁军 《计算机工程与应用》 CSCD 北大核心 2003年第1期17-18,26,共3页
文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确... 文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确率将达到90%,与其他分词方法相比较,进一步提高了系统的分词精度,尤其与文献1所述方法比较,对于有大量汉语信息的语料,将降低系统的时间复杂度。 展开更多
关键词 汉语二字应成词 歧义字段切分方法 中文信息处理 t-信息差 自动分词 汉语文本
下载PDF
基于词平台汉字编码的自动标引研究 被引量:3
5
作者 焦慧 刘迁 贾惠波 《计算机工程与应用》 CSCD 北大核心 2007年第15期173-175,共3页
自动标引是基于内容检索的关键技术之一。目前国内的汉语自动标引研究主要集中于汉语自动分词这个前期处理问题上。提出了一种基于词平台的汉字编码方法,建立了一种新的中文计算机文档表达格式,使词成为最小的信息单位,汉语分析无需再... 自动标引是基于内容检索的关键技术之一。目前国内的汉语自动标引研究主要集中于汉语自动分词这个前期处理问题上。提出了一种基于词平台的汉字编码方法,建立了一种新的中文计算机文档表达格式,使词成为最小的信息单位,汉语分析无需再进行自动分词,可直接进行自动标引,从而提高自动标引的效率和质量。 展开更多
关键词 自动标引 词平台 汉字编码 自动分词
下载PDF
基于对偶编码的中文分词算法 被引量:6
6
作者 张冰怡 魏博 +2 位作者 陈建成 魏杰 饶国政 《南京理工大学学报》 EI CAS CSCD 北大核心 2014年第4期526-530,共5页
为了提高中文分词算法的切分速度和存储效率,提出一种基于对偶编码的特征匹配算法。由中文分词的字符集和字符相邻关系提取特征值,根据此特征值在中文分词词典中进行快速匹配,基于字符的位置相邻关系提取特征值,支持模糊匹配,因此无需... 为了提高中文分词算法的切分速度和存储效率,提出一种基于对偶编码的特征匹配算法。由中文分词的字符集和字符相邻关系提取特征值,根据此特征值在中文分词词典中进行快速匹配,基于字符的位置相邻关系提取特征值,支持模糊匹配,因此无需对多字词进行单独匹配,从而有效节省匹配时间。实验仿真表明,该算法可以降低特征存储空间,有效提高中文分词精度和效率。 展开更多
关键词 对偶编码 中文分词 特征匹配 数据压缩 散列 特征值 模糊匹配
下载PDF
基于用户查询关键词的网页去重方法研究 被引量:6
7
作者 谢蕙 秦杰 胡双双 《现代图书情报技术》 CSSCI 北大核心 2008年第7期43-46,共4页
在研究传统的基于特征码去重算法的基础上,针对元搜索引擎中网页重复现象,提出一种基于用户查询关键词的网页去重方法,提高元搜索引擎检索质量,并且介绍算法的实现过程,通过实验验证算法的有效性。
关键词 网页去重 元搜索 特征码 中文分词
下载PDF
基于农业垂直搜索引擎中文分词词典的构建研究 被引量:3
8
作者 张启宇 于辉辉 +1 位作者 陈英义 王磊 《广东农业科学》 CAS 2015年第3期165-169,共5页
在农业垂直搜索引擎研究过程中,中文分词是重要的研究方向。针对传统农业垂直搜索引擎搜索信息抽取不准确、速度慢等缺点,采用双数组Trie树为基本模型,利用中文词条首字区位码与数据库表行号相对应的方式,并根据农业垂直搜索引擎的需要... 在农业垂直搜索引擎研究过程中,中文分词是重要的研究方向。针对传统农业垂直搜索引擎搜索信息抽取不准确、速度慢等缺点,采用双数组Trie树为基本模型,利用中文词条首字区位码与数据库表行号相对应的方式,并根据农业垂直搜索引擎的需要设置了农业词汇的词性编码,以My SQL数据库为例设计了农业领域专用的分词词典。该分词词典可充分利用数据库的优势进行词典组织,并且可以进行词库的远程共享和共同维护,方便不同的系统进行访问;词条按首字分类存放构造双数组Trie树,可有效减少构造过程的内存空间。该农业分词词典结构对其他领域和行业也具有借鉴意义。 展开更多
关键词 中文分词 农业词典 MY SQL 词性编码
下载PDF
汉字编码输入法评测分析 被引量:2
9
作者 李小庆 马晶莹 林民 《内蒙古师范大学学报(自然科学汉文版)》 CAS 2009年第4期421-425,共5页
介绍了汉字编码输入法国家标准,分析了一种广泛使用的音码输入法的评测结果,并进行了对比验证实验.结果表明,音码输入法原评测结果中存在一些误差较大的数据,输入法的平均码长和重码字词键选率两个性能指标未能达到国家标准.对比验证实... 介绍了汉字编码输入法国家标准,分析了一种广泛使用的音码输入法的评测结果,并进行了对比验证实验.结果表明,音码输入法原评测结果中存在一些误差较大的数据,输入法的平均码长和重码字词键选率两个性能指标未能达到国家标准.对比验证实验为改进音码输入法的性能提供了参考资料. 展开更多
关键词 中文信息处理 汉字编码输入法 平均码长 重码字词键选率 评测分析
下载PDF
一个基于多代码页的中文屏幕实时解释引擎的设计 被引量:2
10
作者 李培峰 朱巧明 钱培德 《中文信息学报》 CSCD 北大核心 2005年第5期90-96,共7页
目前,在计算机中汉字有多种代码页,汉字的多代码页并存现象将长期存在。为了实现汉字多代码页并存,需要汉字代码页自动识别技术的支撑。屏幕实时解释引擎是目前各种在线字典、词典以及教学软件的核心技术,此技术目前存在不能跨代码页,... 目前,在计算机中汉字有多种代码页,汉字的多代码页并存现象将长期存在。为了实现汉字多代码页并存,需要汉字代码页自动识别技术的支撑。屏幕实时解释引擎是目前各种在线字典、词典以及教学软件的核心技术,此技术目前存在不能跨代码页,取词不全面、不正确等缺陷。本文主要针对以上情况,描述了采用汉字内码的代码页自动识别技术以及优化的自动屏幕取词技术的中文屏幕实时解释引擎的系统架构,并阐述了数据词典的设计以及在设计中采用的关键技术。对五百万汉字样本的测试中,应用此引擎的在线词典对有意义短字符串(不包括单字)代码页的识别率可以达到99%以上。 展开更多
关键词 计算机应用 中文信息处理 汉字代码页自动识别 屏幕取词 ISO10646
下载PDF
一种基于词编码的中文文档格式 被引量:1
11
作者 焦慧 刘迁 贾惠波 《计算机科学》 CSCD 北大核心 2008年第10期162-164,共3页
分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中... 分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中文词的编码方法,以每个词作为一个单位,对词进行编码。此方法避开了中文的自动分词问题,特别是解决了歧义切分的难题,并提出了一种利用文档格式解决未登录词问题的新思路。采用统计分析方法对词平台基础上的关键词自动抽取进行了实验研究,取得良好效果。 展开更多
关键词 中文信息处理 词典码 文档格式 自动分词
下载PDF
一种中文分词词典新机制——四字哈希机制 被引量:16
12
作者 张培颖 李村合 《微型电脑应用》 2006年第10期35-36,55,共3页
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一... 词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。 展开更多
关键词 中文信息处理 自动分词 分词词典 四字哈希
下载PDF
基于词平台的中文文档实验系统的构建 被引量:1
13
作者 焦慧 刘迁 贾惠波 《微计算机信息》 北大核心 2008年第18期171-172,104,共3页
文章提出一种新的中文文档实验系统,力求建立一个克服束缚中文信息处理发展的自动分词问题的实验研究平台。文章采用一种新的基于中文词的文本编码方法,对每个词进行编码,并使新编码与机内码联系起来。使用这种基于词的编码格式可以使... 文章提出一种新的中文文档实验系统,力求建立一个克服束缚中文信息处理发展的自动分词问题的实验研究平台。文章采用一种新的基于中文词的文本编码方法,对每个词进行编码,并使新编码与机内码联系起来。使用这种基于词的编码格式可以使词成为计算机中文处理中的最小信息载体,无须再进行中文分词。文章使用该方法进行了关键词自动抽取的实验研究。结果显示,基于词编码的中文文档实验系统能很好的解决中文分词问题,并给其它中文文本分析奠定良好基础。 展开更多
关键词 中文信息处理 汉字编码 词平台 自动分词
下载PDF
UCDOS的曲线轮廓字库的分析 被引量:4
14
作者 徐雨明 蒋盛益 《衡阳师范学院学报》 2000年第3期45-48,共4页
本文分析了 UCDOS和 Post Script曲线轮廓字库的结构和字型的显示过程 ,并按其结构编制了相应的
关键词 BEZIER曲线 PostScript轮廓字体 汉字内码 控制字
下载PDF
韩国现代用汉字字表及其存在的问题 被引量:2
15
作者 王平 《山东师范大学学报(人文社会科学版)》 2012年第2期62-70,1,共9页
从字量、字形、码位及其相互关系等方面对韩国目前最具代表性的三张汉字字表进行调查和分析,对三张汉字字表进行匹配项、非匹配项和覆盖率统计,订正4888字表的实际字量,指出三张汉字字表在字形、码位等方面存在的问题及调整建议,是韩国... 从字量、字形、码位及其相互关系等方面对韩国目前最具代表性的三张汉字字表进行调查和分析,对三张汉字字表进行匹配项、非匹配项和覆盖率统计,订正4888字表的实际字量,指出三张汉字字表在字形、码位等方面存在的问题及调整建议,是韩国现代用汉字字量调查研究的初步成果。它将为韩国现代用汉字的字量研究、汉字文化圈内汉字的标准化研究、中日韩汉字共通化研究、汉字在韩国的传承与变异研究等提供准确的数据参考和资料支持。 展开更多
关键词 韩国 现代用汉字字表 覆盖率
下载PDF
解读王熙凤命运的密码——“一从二令三人木”探析 被引量:1
16
作者 高惠娟 《商丘师范学院学报》 CAS 2003年第1期38-40,共3页
脂批所谓运用了“拆字法”的“一从二令三人木”句,历来是学界争论的焦点。但直至今日,有关王熙凤评语和结局的这七个字仍是聚讼纷纭的疑案。其实,这句话概括了凤姐在贾府中境遇不同的三个阶段:顺从人心、奠定基础的第一阶段,大权在握... 脂批所谓运用了“拆字法”的“一从二令三人木”句,历来是学界争论的焦点。但直至今日,有关王熙凤评语和结局的这七个字仍是聚讼纷纭的疑案。其实,这句话概括了凤姐在贾府中境遇不同的三个阶段:顺从人心、奠定基础的第一阶段,大权在握、威重令行的第二阶段,时非势败、终被休弃的第三阶段。 展开更多
关键词 《红楼梦》 王熙凤判词 拆字法
下载PDF
汉字输入教学系统中词组切分方法的设计 被引量:1
17
作者 朱晓旭 《苏州大学学报(自然科学版)》 CAS 2003年第1期49-53,共5页
词组切分是现代中文信息处理的基础,是汉语自然语言理解与处理、机器翻译、智能检索、电子词典等信息处理的前提.分析了汉字输入训练中词组切分的特点,介绍了汉字输入训练中词组切分方法的具体设计以及切分词典的组织与检索上的一些方... 词组切分是现代中文信息处理的基础,是汉语自然语言理解与处理、机器翻译、智能检索、电子词典等信息处理的前提.分析了汉字输入训练中词组切分的特点,介绍了汉字输入训练中词组切分方法的具体设计以及切分词典的组织与检索上的一些方法和技巧. 展开更多
关键词 词组切分 歧义排除 汉字内码
下载PDF
汉字型姓名全自动转换首音码处理技术
18
作者 李永平 涂金德 《计算机应用与软件》 CSCD 北大核心 2008年第10期154-155,203,共3页
汉字型姓名(以下简称姓名)转换为首音码的技术在各个领域已得到广泛应用。由于汉字的首音重码较多,一个姓名经转换会产生多个编码,通常的做法是根据建立者的理解确定一种编码方式。当其它用户使用首音码进行记录定位时,往往不知建立者... 汉字型姓名(以下简称姓名)转换为首音码的技术在各个领域已得到广泛应用。由于汉字的首音重码较多,一个姓名经转换会产生多个编码,通常的做法是根据建立者的理解确定一种编码方式。当其它用户使用首音码进行记录定位时,往往不知建立者选择重码音为何音,造成记录定位的失败。另外,当姓名转换首音码时,出现重码时需要选择,大大地降低了转换速度。在GBK汉字库范围内,通过分析汉字读音重码的情况,建立汉字首音码库,设计姓名自动转换成首音码编码和使用首音码进行记录定位的算法。 展开更多
关键词 首音码 重码 姓名 汉字 全自动
下载PDF
一种手写体汉字快速细化分割算法
19
作者 刘平 《重庆大学学报(自然科学版)》 EI CAS CSCD 1991年第4期78-85,共8页
提出了一种基于游程编码(run length encoding)的手写体汉字细化和分割快速算法。数据的输入与处理并行,汉字图象数据所占存贮空间仅为点阵方式的1/400。能将任何复杂汉字细化并分割为简单直线和弧线笔划。对汉字的结构特征抽取极为有... 提出了一种基于游程编码(run length encoding)的手写体汉字细化和分割快速算法。数据的输入与处理并行,汉字图象数据所占存贮空间仅为点阵方式的1/400。能将任何复杂汉字细化并分割为简单直线和弧线笔划。对汉字的结构特征抽取极为有利。此外,本文还提出一种新的边沿描述基段链码,其平均长度比Freeman链码短20%。 展开更多
关键词 汉字识别 细化分割算法 计算机
下载PDF
基于改进音形码与HowNet的中文词相似度检测算法 被引量:4
20
作者 王华敏 黄梦醒 +1 位作者 冯文龙 冯思玲 《计算机仿真》 北大核心 2022年第8期460-465,472,共7页
针对基于音形码或HowNet的中文词相似度检测算法无法同时考虑汉字的音、形、义特征,导致检测结果不准确等问题,提出改进音形码与HowNet相结合的中文词相似度检测算法。考虑缺少声母与韵母的情况,采用格雷码编码的音码进行改进。将形码... 针对基于音形码或HowNet的中文词相似度检测算法无法同时考虑汉字的音、形、义特征,导致检测结果不准确等问题,提出改进音形码与HowNet相结合的中文词相似度检测算法。考虑缺少声母与韵母的情况,采用格雷码编码的音码进行改进。将形码的四角号码编码改为可较为细致描述汉字的笔顺编码。在加权编辑距离的基础上,改进字符串匹配方式。最后将改进的音形码与HowNet相结合。实验表明,无论从音形还是词义检测中文词相似度,算法有更高的准确度。 展开更多
关键词 中文词相似度 汉字相似度 知网 音形码 编辑距离
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部