期刊文献+
共找到72篇文章
< 1 2 4 >
每页显示 20 50 100
面向信息处理的词汇语义研究中的若干问题 被引量:35
1
作者 董振东 董强 《语言文字应用》 CSSCI 北大核心 2001年第3期27-32,共6页
本文概述了国家社会科学“九五”重大项目“信息处理用现代汉语词汇研究”中的子课题“现代汉语知识词典的建立和词汇内部语义网络描述”取得的成果 ,着重讨论了在研究过程中曾面临的一些策略性和方法论的问题。笔者把它们归纳为五个关... 本文概述了国家社会科学“九五”重大项目“信息处理用现代汉语词汇研究”中的子课题“现代汉语知识词典的建立和词汇内部语义网络描述”取得的成果 ,着重讨论了在研究过程中曾面临的一些策略性和方法论的问题。笔者把它们归纳为五个关系 :知识获取和表达的深与浅的关系、语义知识和世界知识的关系、分类和属性标注的关系、知识的自动获取和人工获取的关系。 展开更多
关键词 信息处理 词汇 语义研究 现代汉语 语义知识 分类
下载PDF
受限语言子集的理论研究和探索 被引量:3
2
作者 宗成庆 宋今 +1 位作者 陈肇雄 黄河燕 《中文信息学报》 CSCD 北大核心 1998年第1期9-16,共8页
本文在综述受限语言研究成果的基础上,提出受限语言子集的一种形式化描述模型,并给出其相应的语言特性和数学特性,就受限汉语子集的确定方法问题进行了理论研究和探索。作者希望本文提出的表示模型和确定方法能够引起有关的讨论,并... 本文在综述受限语言研究成果的基础上,提出受限语言子集的一种形式化描述模型,并给出其相应的语言特性和数学特性,就受限汉语子集的确定方法问题进行了理论研究和探索。作者希望本文提出的表示模型和确定方法能够引起有关的讨论,并在充分认识受限语言研究的必要性和困难的基础上。 展开更多
关键词 受限语言子集 形式化描述模型 计算机 信息处理
下载PDF
跨语言信息检索中查询语句翻译转换算法 被引量:1
3
作者 张孝飞 黄河燕 +1 位作者 陈肇雄 代六玲 《计算机工程》 CAS CSCD 北大核心 2007年第11期166-167,212,共3页
跨语言信息检索中,输入的查询语句往往是一系列关键词组合,而不是一个完整意义上的句子,致使查询关键词序列缺乏必要的语法、语境信息,难以实现查询语句的精确翻译。该文基于大规模双语语料库,以向量空间模型和词汇同现互信息为理论基础... 跨语言信息检索中,输入的查询语句往往是一系列关键词组合,而不是一个完整意义上的句子,致使查询关键词序列缺乏必要的语法、语境信息,难以实现查询语句的精确翻译。该文基于大规模双语语料库,以向量空间模型和词汇同现互信息为理论基础,运用传统单语信息检索技术,将查询语句的翻译问题转换为查询关键词词典义项的boost值计算,重构目标语查询语句。 展开更多
关键词 跨语言信息检索 查询语句 翻译转换 双语语料库
下载PDF
问题分类的计算模型研究 被引量:1
4
作者 张亮 陈肇雄 黄河燕 《计算机科学》 CSCD 北大核心 2006年第4期9-12,共4页
问题分类是问答系统技术处理的基础与核心,它决定答案抽取的范围和方法,进而影响整个系统的性能。本文提出了一个基于贝叶斯理论的问题分类计算模型,并给出其详细算法。研究分析了问句内部结构与问题类型之间的关系,将基于疑问词的2-gr... 问题分类是问答系统技术处理的基础与核心,它决定答案抽取的范围和方法,进而影响整个系统的性能。本文提出了一个基于贝叶斯理论的问题分类计算模型,并给出其详细算法。研究分析了问句内部结构与问题类型之间的关系,将基于疑问词的2-gram 组合和问句特征项同义近义扩展应用到具体计算中。实验表明,效果较为理想。 展开更多
关键词 问答系统 问题分类 贝叶斯模型
下载PDF
自然语言文本共指消解性能评测算法研究 被引量:1
5
作者 史树敏 黄河燕 刘东升 《计算机科学》 CSCD 北大核心 2008年第9期168-171,177,共5页
在自然语言文本处理中,共指研究处于基础且关键的一环,它的有效解决将为众多的语言工程处理问题提供有力支持,因此对于共指消解性能的评测就显得尤为重要。针对共指消解任务的几种评测算法进行了深入研究,分析各种方法优缺点,指出CEAF... 在自然语言文本处理中,共指研究处于基础且关键的一环,它的有效解决将为众多的语言工程处理问题提供有力支持,因此对于共指消解性能的评测就显得尤为重要。针对共指消解任务的几种评测算法进行了深入研究,分析各种方法优缺点,指出CEAF方法是目前缺乏用于指代任务处理开放语料情况下,较适合汉语自然语言文本共指消解性能评价的一种方法。 展开更多
关键词 共指消解评测 MUC-6算法 B-CUBE算法 ACE-value评测 CEAF算法
下载PDF
基于混合语言模型的盲汉机器翻译系统的研究与实现 被引量:3
6
作者 周春耕 张秉权 黄河燕 《计算机工程与应用》 CSCD 北大核心 2003年第4期127-130,共4页
文章介绍了一种规则与统计相结合的混合语言模型来实现盲文到汉语的机器翻译,该技术把基于统计的Markov模型与规则量化模型相结合,用Viterbi算法寻找最佳汉语句子,取得了良好的翻译效果。
关键词 盲汉机器翻译系统 混合语言模型 VITERBI算法 计算机 MARKOV模型
下载PDF
自然语言人机接口中分布智能的研究与设计 被引量:1
7
作者 张盈 《长沙大学学报》 1999年第4期11-18,41,共9页
传统的自然语言人机接口技术主要以串行方式进行处理,各个模块对应于不同的语言层次,这种方法在处理歧义、解决系统的一致性和通用性之间的统一及系统的扩展性上存在较大的局限性。本文提出了一个基于分布式人工智能的自然人机接口模... 传统的自然语言人机接口技术主要以串行方式进行处理,各个模块对应于不同的语言层次,这种方法在处理歧义、解决系统的一致性和通用性之间的统一及系统的扩展性上存在较大的局限性。本文提出了一个基于分布式人工智能的自然人机接口模型,利用分布式人工智能(主要是Multi-Agent技术)来实现一个没有中央控制的、通过各个通用语言处理Agent及语用处理Agent交流的自然语言人机接口框架,文中介绍了它的设计了它的设计思想和总体结构框架以及Agent之间的交互协议NLPP。这个框架系统为解决传统系统所存在的问题提出了一个新的自然语言人机接口设计方案。 展开更多
关键词 自然语言处理 分布式人工智能 人机接口 设计
下载PDF
中文文本分类中特征抽取方法的比较研究 被引量:228
8
作者 代六玲 黄河燕 陈肇雄 《中文信息学报》 CSCD 北大核心 2004年第1期26-32,共7页
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ... 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法 (IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。 展开更多
关键词 计算机应用 中文信息处理 文本自动分类 特征抽取 支持向量机 KNN
下载PDF
基于语句相似度计算的FAQ自动回复系统设计与实现 被引量:19
9
作者 张亮 冯冲 +1 位作者 陈肇雄 黄河燕 《小型微型计算机系统》 CSCD 北大核心 2006年第4期720-723,共4页
FAQ(Frequently Asked Question)在互联网站上广泛使用,但绝大多数FAQ的检索与回复都是手工进行.本文介绍了一个较为完整的基于语句相似度计算的FAQ自动回复系统,包括基本计算模型的选取、FAQ特性的分析、FAQ数据形式化表示及特征向量... FAQ(Frequently Asked Question)在互联网站上广泛使用,但绝大多数FAQ的检索与回复都是手工进行.本文介绍了一个较为完整的基于语句相似度计算的FAQ自动回复系统,包括基本计算模型的选取、FAQ特性的分析、FAQ数据形式化表示及特征向量索引、权重计算等,并给出详细的语句相似度计算算法,实验结果表明,对于频率高、共性大的问题,系统有很高的准确率. 展开更多
关键词 FAQI VSM 相似度计算 信息检索
下载PDF
基于Multigram语言模型的主动学习中文分词 被引量:6
10
作者 冯冲 陈肇雄 +1 位作者 黄河燕 关真珍 《中文信息学报》 CSCD 北大核心 2006年第1期50-58,共9页
分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,... 分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,使得系统在主要利用大量未标注数据的同时,还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。 展开更多
关键词 计算机应用 中文信息处理 分词 无督导机器学习 主动学习 EM算法
下载PDF
中文问答系统模型研究 被引量:8
11
作者 张亮 黄河燕 胡春玲 《情报学报》 CSSCI 北大核心 2006年第2期197-201,共5页
问答系统是信息检索的高级形式,也是该领域的研究重点和热点。本文较全面地分析了中文问答系统所涉及的关键技术和知识资源平台,提出了一个完整的中文问答系统处理模型,对系统的运行机制和处理流程作了清晰的描述,最后详细讨论了问... 问答系统是信息检索的高级形式,也是该领域的研究重点和热点。本文较全面地分析了中文问答系统所涉及的关键技术和知识资源平台,提出了一个完整的中文问答系统处理模型,对系统的运行机制和处理流程作了清晰的描述,最后详细讨论了问答系统中的两个关键算法,即形式化扩展算法和答案抽取算法。 展开更多
关键词 问答系统 信息检索 语义分析 ONTOLOGY
下载PDF
大规模句子相似度计算方法 被引量:6
12
作者 黄河燕 陈肇雄 +1 位作者 张孝飞 张克亮 《中文信息学报》 CSCD 北大核心 2006年第B03期47-52,共6页
如何根据源语言文本从大规模语料库中找出其最相近的翻译实例,即句子相似度计算,是基于实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法:首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例,... 如何根据源语言文本从大规模语料库中找出其最相近的翻译实例,即句子相似度计算,是基于实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法:首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例,然后针对这些候选实例进行泛化匹配,从而计算出相似句子。在多策略机器翻译系统IHSMTS中的实验表明,当语料规模为20万英汉句对时,系统提取相似句子的召回率达96%。准确率达90%,充分说明了本文算法的有效性。 展开更多
关键词 句子相似度 基于实例的机器翻译 多策略机器翻译 泛化匹配
下载PDF
词间相关性在贝叶斯文本分类中的应用研究 被引量:4
13
作者 章舜仲 王树梅 +1 位作者 黄河燕 陈肇雄 《计算机工程与应用》 CSCD 北大核心 2009年第16期159-161,共3页
针对朴素贝叶斯分类的属性独立性假设的不足,讨论了相关性及多变量相关的概念,给出词间相关度的定义。在TAN分类器的词间相关性分析基础上,提出一种文档特征词相关度估计公式及其在改进朴素贝叶斯分类模型中应用的算法,在Reuters-21578... 针对朴素贝叶斯分类的属性独立性假设的不足,讨论了相关性及多变量相关的概念,给出词间相关度的定义。在TAN分类器的词间相关性分析基础上,提出一种文档特征词相关度估计公式及其在改进朴素贝叶斯分类模型中应用的算法,在Reuters-21578文本数据集上的实验表明,改进算法简单易行,能有效改进贝叶斯分类性能。 展开更多
关键词 文本分类 朴素贝叶斯 事件相关 相关度 树扩展型朴素贝叶斯分类器
下载PDF
一种应用组合特征的中文未登录词词性猜测研究 被引量:4
14
作者 张海军 冯冲 +1 位作者 史树敏 黄河燕 《小型微型计算机系统》 CSCD 北大核心 2010年第7期1402-1406,共5页
未登录词词性猜测是未登录词识别的重要步骤.论文中应用条件随机域模型,使用词的外部和内部特征(组合特征),进行中文未登录词的词性猜测.文中提出增加一种新颖的内部特征--汉字偏旁,来提高词性猜测效果.试验表明,使用组合特征的词性猜... 未登录词词性猜测是未登录词识别的重要步骤.论文中应用条件随机域模型,使用词的外部和内部特征(组合特征),进行中文未登录词的词性猜测.文中提出增加一种新颖的内部特征--汉字偏旁,来提高词性猜测效果.试验表明,使用组合特征的词性猜测方法是有效的,汉字偏旁的加入能显著提高词性猜测的准确性,开放试验的准确率达到94.67%.实验还初步证明,将汉字偏旁作为内部特征,在词法分析方面,具有一定的实用价值. 展开更多
关键词 中文分词 未登录词 条件随机域模型 词性猜测
下载PDF
基于本体的专业机器翻译术语词典研究 被引量:10
15
作者 黄河燕 张克亮 张孝飞 《中文信息学报》 CSCD 北大核心 2007年第1期17-22,共6页
在专业机器翻译系统的设计和实现中,要解决的一个关键问题是如何有效地组织面向不同专业领域的专业术语,以及如何根据当前所处理的文本选择相应的术语定义。本文首先分析现有专业机器翻译系统在术语词典组织和建设方面存在的主要问题,... 在专业机器翻译系统的设计和实现中,要解决的一个关键问题是如何有效地组织面向不同专业领域的专业术语,以及如何根据当前所处理的文本选择相应的术语定义。本文首先分析现有专业机器翻译系统在术语词典组织和建设方面存在的主要问题,以及基于本体(Ontology)的领域知识概念体系的特点;其次,探讨面向专业机器翻译的术语词典研究的几个重要方面,包括通用领域本体的设计、专业术语的描述和向本体的映射、双语或多语MT专业词库的组织和应用等;最后,介绍我们初步已完成的工作,主要包括机器翻译专业领域分类系统设计、专业词典向专业分类系统的映射I、CS标准向专业领域分类系统的映射等。映射实验结果表明,专业领域分类系统对于机器翻译专业词典具有良好的覆盖性。 展开更多
关键词 人工智能 机器翻译 本体 术语词典
下载PDF
基于语义相似度并运用语言学知识进行双语语句词对齐 被引量:6
16
作者 晋薇 黄河燕 夏云庆 《计算机科学》 CSCD 北大核心 2002年第11期44-47,共4页
This paper claries the definition of alignment from the viewpoint of linguistic similarity. Many alignment algorithms have been proposed with very high precision. But the languages belong to occidental family. We prop... This paper claries the definition of alignment from the viewpoint of linguistic similarity. Many alignment algorithms have been proposed with very high precision. But the languages belong to occidental family. We propose a new method for alignment between languages that do not belong to the same language family. On the contrary to most of the previously proposed methods that rely heavily on statistics, our method attempts to use linguistic knowledge to overcome the problems of statistical model. Experimental results confirm that the algorithm can align over 85 % of word pairs while maintaining a comparably high precision rate, even when a small corpus is used in training. 展开更多
关键词 机器翻译 双语语句词对齐 语言学知识 语义相似度 计算机
下载PDF
面向汉语分析的搜索引擎研究与实现 被引量:2
17
作者 张亮 黄河燕 王树梅 《情报学报》 CSSCI 北大核心 2006年第4期433-440,共8页
搜索引擎是Internet上重要的信息检索工具.同时Internet上丰富的语言资源是汉语研究的重要内容.然而,服务于汉语分析的专业搜索引擎的研究与开发,目前还处于起步阶段.本文介绍了搜索引擎的基本原理,分析了Internet汉语研究的内在要求及... 搜索引擎是Internet上重要的信息检索工具.同时Internet上丰富的语言资源是汉语研究的重要内容.然而,服务于汉语分析的专业搜索引擎的研究与开发,目前还处于起步阶段.本文介绍了搜索引擎的基本原理,分析了Internet汉语研究的内在要求及其基本现状,详细阐述了一个面向汉语分析研究的搜索引擎的研究与设计,包括系统体系结构的设计、系统的汉语分析功能的描述以及实验结果的分析.初步结果表明,面向汉语分析的搜索引擎可以为汉语研究提供很好的帮助. 展开更多
关键词 汉语分析 信息检索 搜索引擎 元搜索引擎
下载PDF
一种基于双代理架构的嵌入式Internet计算模型
18
作者 贺琛 吴世锋 +1 位作者 陈肇雄 黄河燕 《计算机工程》 CAS CSCD 北大核心 2003年第8期8-10,共3页
随着芯片技术的发展以及互联网的个性化、移动化趋势,嵌入式Internet系统逐渐成为研究的热点。文章根据嵌入式系统的特点,提出了基于浏览器-代理/智能代理/服务器(双代理)的嵌入式Internet计算模型。该模型通过采用静态、动态缓存管... 随着芯片技术的发展以及互联网的个性化、移动化趋势,嵌入式Internet系统逐渐成为研究的热点。文章根据嵌入式系统的特点,提出了基于浏览器-代理/智能代理/服务器(双代理)的嵌入式Internet计算模型。该模型通过采用静态、动态缓存管理、页面压缩、协议优化等方法避开了嵌入式系统的弱点。从试验数据看,该模型较为有效地减少了数据传输量,达到了节约有限带宽、提高响应时间的目的。 展开更多
关键词 嵌入式互联网 代理 缓存 数据压缩
下载PDF
多元信息流输入识别与处理系统MIIRPS
19
作者 陈肇雄 黄河燕 宋今 《世界科技研究与发展》 CSCD 1998年第3期100-105,共6页
随着信息量的巨增以及信息形式的多样化,对信息的自动化处理提出了更高的要求。实现信息流的输入输出、识别、处理和管理等技术的有机集成,是目前信息应用系统研究的主要问题之一。本文提出了信息流输入输出、识别、加工、翻译、控制等... 随着信息量的巨增以及信息形式的多样化,对信息的自动化处理提出了更高的要求。实现信息流的输入输出、识别、处理和管理等技术的有机集成,是目前信息应用系统研究的主要问题之一。本文提出了信息流输入输出、识别、加工、翻译、控制等一体化处理思想,为多元信息处理系统的设计和实现提供一种新的思路和方法,并给出了MIIRPS系统设计和实现方法,介绍各部分的主要创新思想。 展开更多
关键词 MIIRPS 信息处理技术 多元信息流 系统集成
下载PDF
词性标注中生词处理算法研究 被引量:13
20
作者 张孝飞 陈肇雄 +1 位作者 黄河燕 蔡智 《中文信息学报》 CSCD 北大核心 2003年第5期1-5,共5页
词性兼类是自然语言理解必须解决的一类非常重要的歧义现象,尤其是对生词的词性歧义处理有很大的难度。文章基于隐马尔科夫模型(HMM),通过将生词的词性标注问题转化为求词汇发射概率,在词性标注中提出了一种生词处理的新方法。该方法除... 词性兼类是自然语言理解必须解决的一类非常重要的歧义现象,尤其是对生词的词性歧义处理有很大的难度。文章基于隐马尔科夫模型(HMM),通过将生词的词性标注问题转化为求词汇发射概率,在词性标注中提出了一种生词处理的新方法。该方法除了用到一个标注好的单语语料库外,没使用任何其他资源(比如语法词典、语法规则等),封闭测试正确率达97%左右,开放测试正确率也达95%左右,基本上达到了实用的程度。同时还给出了与其他同样基于HMM的词性标注方法的测试比较结果,结果表明本文方法的标注正确率有较大的提高。 展开更多
关键词 计算机应用 中文信息处理 自然语言理解 词性兼类 隐马尔科夫模型 语料库
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部