期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
一个在线义类词库:词网 WordNet 被引量:31
1
作者 陈群秀 《语言文字应用》 CSSCI 北大核心 1998年第2期95-101,共7页
计算机的自然语言理解和处理,依赖于计算语言学的研究成果。与计算词汇学和计算句法学相比,计算语义学是计算语言学领域里一门比较年轻的学科。相对而言,句法分析的理论和技术发展得比较成熟、完善,而语义分析的理论和技术起步比较... 计算机的自然语言理解和处理,依赖于计算语言学的研究成果。与计算词汇学和计算句法学相比,计算语义学是计算语言学领域里一门比较年轻的学科。相对而言,句法分析的理论和技术发展得比较成熟、完善,而语义分析的理论和技术起步比较晚,尚处于探索阶段,空白点较多而且难度最大。目前,自然语言理解正处于一个关键时期,处在取得重大突破的前夜,而语义研究领域的进展和突破对全局的进展和突破有至关重要的作用。语义包括词汇义、句义、篇章义等,其中最根本最重要的是词汇义的研究。词汇义的研究和表示的方法有多种,很重要的一种是语义分类。人读的义类词典几乎各国都有,机读的(即信息处理用的)义类词典在日本、美国等先进国家也都有研究或成果。在国内外同类课题中,最著名的是普林斯顿大学Miler等人研制的英语词网数据库WordNet。该词网旨在从心理语言学角度建立英语词汇基本语义关系的实际模型。本文简要介绍这个在线的义类词库。 展开更多
关键词 形容词 语义关系 WORDNET 反义词 同义词 继承系统 描述性 自然语言理解 名词 计算语言学
下载PDF
《信息处理用词汇研究》九五项目结题汇报 现代汉语述语动词机器词典的扩充和槽关系研究 被引量:4
2
作者 陈群秀 《语言文字应用》 CSSCI 北大核心 2001年第4期98-104,共7页
“现代汉语述语动词机器词典的扩充和槽关系研究”是国家社科“九五”重大项目“信息处理用现代汉语词汇研究”中的一个子课题。本文首先概述这个子课题的主要研究内容和研究方法 ,然后介绍这个子课题已经取得的成果 ,最后探讨这个子课... “现代汉语述语动词机器词典的扩充和槽关系研究”是国家社科“九五”重大项目“信息处理用现代汉语词汇研究”中的一个子课题。本文首先概述这个子课题的主要研究内容和研究方法 ,然后介绍这个子课题已经取得的成果 ,最后探讨这个子课题进一步发展的方向。 展开更多
关键词 现代汉语述语动词机器词典 现代汉语名词槽关系系统 槽关系表示方法 语类 槽类型 槽序 槽关系表达式联想 现代汉语语义知识库
下载PDF
日汉机译系统中有关汉语生成的几个问题及处理方法 被引量:1
3
作者 陈群秀 李咏玖 《中文信息学报》 CSCD 1992年第3期42-47,共6页
机器翻译系统中,源语的分析和目标语的生成是必须解决的两大问题。在日汉机译系统中,由于汉语和日语分属不同的语系语族,是表达方法差别较大的两种语言,所以生成时有一些问题需要考虑和解决。本文作者结合在研究工作中的一些体会,提出... 机器翻译系统中,源语的分析和目标语的生成是必须解决的两大问题。在日汉机译系统中,由于汉语和日语分属不同的语系语族,是表达方法差别较大的两种语言,所以生成时有一些问题需要考虑和解决。本文作者结合在研究工作中的一些体会,提出日汉机译系统中有关汉语生成的几个问题及处理的办法,供同行们共同切磋讨论。 展开更多
关键词 日汉机器翻译 汉语生成 机器翻译
下载PDF
基于事件框架的信息抽取系统 被引量:38
4
作者 梁晗 陈群秀 吴平博 《中文信息学报》 CSCD 北大核心 2006年第2期40-46,共7页
信息抽取技术能够提供高质量的检索服务。本文提出一种基于框架的信息抽取模式并建立统一的灾难性事件框架,利用框架的继承-归纳特性简化系统实现过程,概括事件信息,并提出按时间流顺序的线索性文件抽取的输出方式。本文使用这种方法建... 信息抽取技术能够提供高质量的检索服务。本文提出一种基于框架的信息抽取模式并建立统一的灾难性事件框架,利用框架的继承-归纳特性简化系统实现过程,概括事件信息,并提出按时间流顺序的线索性文件抽取的输出方式。本文使用这种方法建立了一个灾难性事件信息抽取系统。实验证明本文中的方法是有效的。 展开更多
关键词 计算机应用 中文信息处理 信息抽取 框架 继承 灾难性事件
下载PDF
基于特征串的大规模中文网页快速去重算法研究 被引量:41
5
作者 吴平博 陈群秀 马亮 《中文信息学报》 CSCD 北大核心 2003年第2期28-35,共8页
网页检索结果中 ,用户经常会得到内容相同的冗余页面 ,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源 ,并给用户的检索带来诸多不便。本文依据冗余网页的特点引入模糊匹配的思想 ,利用网页文本的内容、结构信息 ,提出了基... 网页检索结果中 ,用户经常会得到内容相同的冗余页面 ,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源 ,并给用户的检索带来诸多不便。本文依据冗余网页的特点引入模糊匹配的思想 ,利用网页文本的内容、结构信息 ,提出了基于特征串的中文网页的快速去重算法 ,同时对算法进行了优化处理。实验结果表明该算法是有效的 ,大规模开放测试的重复网页召回率达 97 3% ,去重正确率达 99 5 %。 展开更多
关键词 计算机应用 中文信息处理 特征串 模糊匹配 去重算法 冗余网页
下载PDF
基于事件框架的事件相关文档的智能检索研究 被引量:30
6
作者 吴平博 陈群秀 马亮 《中文信息学报》 CSCD 北大核心 2003年第6期25-30,59,共7页
在事件相关文档的检索中 ,事件主题的迁移和分化与相似事件的干扰是影响系统性能的两个主要因素。本文提出了一种基于事件框架知识和事件主体信息的检索方法。该方法对事件相关评价函数进行了的改进 :首先 ,从事件语料中提炼出事件的框... 在事件相关文档的检索中 ,事件主题的迁移和分化与相似事件的干扰是影响系统性能的两个主要因素。本文提出了一种基于事件框架知识和事件主体信息的检索方法。该方法对事件相关评价函数进行了的改进 :首先 ,从事件语料中提炼出事件的框架知识、从事件文档中挖掘出表达事件主体的信息 ,然后将这些知识和信息进行向量化 ,最后利用向量化的结果对相关度评价函数进行优化。实验结果表明该方法是有效的 ,明显提高了事件相关文档的检索性能。 展开更多
关键词 计算机应用 中文信息处理 智能检索 事件相关文档 事件框架 事件主体
下载PDF
一种改进的自适应文本信息过滤模型 被引量:18
7
作者 马亮 陈群秀 蔡莲红 《计算机研究与发展》 EI CSCD 北大核心 2005年第1期79-84,共6页
自适应信息过滤技术能够帮助用户从Web等信息海洋中获得感兴趣的内容或过滤无关垃圾信息.针对现有自适应过滤系统的不足,提出了一种改进的自适应文本信息过滤模型.模型中提供了两种相关性检索机制,在此基础上改进了反馈算法,并采用了增... 自适应信息过滤技术能够帮助用户从Web等信息海洋中获得感兴趣的内容或过滤无关垃圾信息.针对现有自适应过滤系统的不足,提出了一种改进的自适应文本信息过滤模型.模型中提供了两种相关性检索机制,在此基础上改进了反馈算法,并采用了增量训练的思想,对过滤中的自适应学习机制也提出了新的算法.基于本模型的系统在相关领域的国际评测中取得良好成绩.试验数据说明各项改进是有效的,新模型具有更高的性能. 展开更多
关键词 信息检索 WEB 自适应信息过滤 LANGUAGE MODEL 相关性反馈
下载PDF
基于主题的Web文档聚类研究 被引量:31
8
作者 孙学刚 陈群秀 马亮 《中文信息学报》 CSCD 北大核心 2003年第3期21-26,共6页
网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚... 网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚类的方法 ,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时 ,实现了较高质量的Web文档聚类。 展开更多
关键词 计算机应用 中文信息处理 WEB文档聚类 OPTICS算法 特征提取 K近邻准则 二次特征提取和聚类的方法
下载PDF
基于时空分析的线索性事件的抽取与集成系统研究 被引量:21
9
作者 吴平博 陈群秀 马亮 《中文信息学报》 CSCD 北大核心 2006年第1期21-28,共8页
信息抽取技术能够提供高质量的检索服务。本文面向网络新闻事件,对人们感兴趣的事件关键信息进行了抽取和集成。系统中采用了如下的方法、策略:(1)利用句型模板构造抽取规则,然后直接从经过时间短语和空间短语识别和规范化处理的文本中... 信息抽取技术能够提供高质量的检索服务。本文面向网络新闻事件,对人们感兴趣的事件关键信息进行了抽取和集成。系统中采用了如下的方法、策略:(1)利用句型模板构造抽取规则,然后直接从经过时间短语和空间短语识别和规范化处理的文本中抽取事件信息,从而跳过了深层句法分析,降低了实现系统的难度;(2)利用事件的规范化的时空信息关联不同文档中的同一事件,进行事件合并;(3)文档发生事件转移时对文档进行事件切分,从而解决了文档内不同事件信息的归并问题。初步实验结果表明:本文采用的方法和策略是有效的。 展开更多
关键词 计算机应用 中文信息处理 信息抽取 句型模板 线索性事件 时空信息 事件合并
下载PDF
基于规则和统计的中文自动文摘系统 被引量:21
10
作者 傅间莲 陈群秀 《中文信息学报》 CSCD 北大核心 2006年第5期10-16,共7页
自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成... 自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成的文摘初稿进行可读性加工处理,使最终生成的文摘更具可读性。最后提出了一种新的文摘评价方法(F-new-m easure)对系统进行测试。系统测试表明该方法在不同文摘压缩率时,评价值均较为稳定。 展开更多
关键词 计算机应用 中文信息处理 自动文摘 向量空间模型 主题划分 可读性 评价
下载PDF
自动文摘系统中的主题划分问题研究 被引量:13
11
作者 傅间莲 陈群秀 《中文信息学报》 CSCD 北大核心 2005年第6期28-35,共8页
随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空... 随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.2%,对单主题文章的主题划分准确率为99.1%。 展开更多
关键词 计算机应用 中文信息处理 自动文摘 向量空间模型 段落相似度 主题划分
下载PDF
基于连续段落相似度的主题划分算法 被引量:10
12
作者 傅间莲 陈群秀 《计算机应用》 CSCD 北大核心 2005年第9期2022-2024,共3页
主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。文中提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平... 主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。文中提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.4%,对单主题文章的主题划分准确率为99.1%。 展开更多
关键词 自动文摘 向量空间模型 段落相似度 主题划分
下载PDF
一种新的自动文摘系统评价方法 被引量:8
13
作者 傅间莲 陈群秀 《计算机工程与应用》 CSCD 北大核心 2006年第18期176-177,共2页
系统评价是自然语言处理系统中一个非常重要的环节。论文提出了一种新的评价方法(F-new-measure),并应用于文本自动摘要中。其创新之处在于评价中不仅考虑了文摘的精确率、召回率,还考虑了文摘压缩率。实验表明常用的评价方法在不同压... 系统评价是自然语言处理系统中一个非常重要的环节。论文提出了一种新的评价方法(F-new-measure),并应用于文本自动摘要中。其创新之处在于评价中不仅考虑了文摘的精确率、召回率,还考虑了文摘压缩率。实验表明常用的评价方法在不同压缩率情况下,评价值是不稳定的,而论文提出的评价方法的评价值则相对稳定。 展开更多
关键词 自动文摘 评价 精确率 召回率 压缩率
下载PDF
智能Web中文主题信息收集系统IRobot的设计 被引量:7
14
作者 马亮 陈群秀 +1 位作者 王俊 徐国伟 《中文信息学报》 CSCD 北大核心 2002年第5期23-29,共7页
本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性,系统采用了对待收集URL进行相关度预测为主,对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中,深入考虑了We... 本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性,系统采用了对待收集URL进行相关度预测为主,对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中,深入考虑了Web主题信息结构和组织特性的多种因素,综合提高了系统的性能。相比已有的研究,系统的精度和收集效率更高,且更为稳定,并能够自动获得主题领域内重要资源的列表。 展开更多
关键词 智能Web中文主题信息收集系统 IROBOT 信息检索 相关度预测 相关度评价 中文信息处理 系统设计
下载PDF
现代汉语语义资源用于短语歧义模式消歧研究 被引量:9
15
作者 王锦 陈群秀 《中文信息学报》 CSCD 北大核心 2007年第5期80-86,共7页
现代汉语存在着许多歧义短语结构,仅依靠句中词性标记无法获得词与词之间正确的搭配关系。本文研究了大量包含歧义的短语实例,分析了计算机处理汉语结构时面临的定界歧义和结构关系歧义问题,在已有短语结构规则的基础上归纳出了七种结... 现代汉语存在着许多歧义短语结构,仅依靠句中词性标记无法获得词与词之间正确的搭配关系。本文研究了大量包含歧义的短语实例,分析了计算机处理汉语结构时面临的定界歧义和结构关系歧义问题,在已有短语结构规则的基础上归纳出了七种结构歧义模式,提出了分析歧义模式的关键是四种基本搭配信息的判断,并实现了基于语义知识和搭配知识的消歧算法。对887处短语进行排歧的实验结果表明,处理短语结构的正确率由82.30%上升到87.18%。 展开更多
关键词 计算机应用 中文信息处理 现代汉语语义知识库 搭配词典 短语歧义排歧
下载PDF
汉语述语形容词机器词典机器学习词聚类研究 被引量:3
16
作者 王锦 陈群秀 《中文信息学报》 CSCD 北大核心 2007年第3期40-46,共7页
本文提出了一个基于现代汉语述语形容词机器词典以及平衡语料库的形容词多信息聚类算法。聚类的过程根据形容词的语料提取了三重信息(所修饰的名词,同义近义词以及反义词),从而使形容词与形容词之间构成网络关系。本文重点描述了如何根... 本文提出了一个基于现代汉语述语形容词机器词典以及平衡语料库的形容词多信息聚类算法。聚类的过程根据形容词的语料提取了三重信息(所修饰的名词,同义近义词以及反义词),从而使形容词与形容词之间构成网络关系。本文重点描述了如何根据三重信息分别建模计算形容词的相似性并通过计算字面相似度以及路径权值这些辅助信息修正每两个形容词之间的相似度,从而在某种程度上缓解了数据稀疏的问题,实验结果显示该算法是有效的。 展开更多
关键词 人工智能 机器翻译 机器学习 词聚类 搭配对 Kendall τ系数法 字面相似度 路径权值
下载PDF
一种基于遗传算法的主题划分方法 被引量:1
17
作者 傅间莲 陈群秀 《计算机工程》 EI CAS CSCD 北大核心 2006年第11期209-210,218,共3页
提出了一个通过建立段落向量空间模型,根据遗传算法进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为89.3%,对单主题文章的... 提出了一个通过建立段落向量空间模型,根据遗传算法进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为89.3%,对单主题文章的主题划分准确率为94.6%。 展开更多
关键词 自动文摘 向量空间模型 遗传算法 主题划分
下载PDF
黄昌宁、林杏光教授主持“信息处理用语言理论讲话”第八讲 定子句语法 被引量:1
18
作者 黄昌宁 陈群秀 《语言文字应用》 CSSCI 1996年第2期68-72,共5页
黄昌宁、林杏光教授主持“信息处理用语言理论讲话”第八讲 定子句语法黄昌宁,陈群秀一概述定子句语法(DifiniteClauseGrammar,简称DCG)是一种逻辑语法,即用一阶谓词演算中的定子句作为形式语言来表述的... 黄昌宁、林杏光教授主持“信息处理用语言理论讲话”第八讲 定子句语法黄昌宁,陈群秀一概述定子句语法(DifiniteClauseGrammar,简称DCG)是一种逻辑语法,即用一阶谓词演算中的定子句作为形式语言来表述的语法。应当着重指出,本文提到的谓词... 展开更多
关键词 信息处理用语言 子句语法 语法规则 非终结符 人工智能 上下文无关语法 一阶谓词逻辑 名词短语 句法结构 逻辑语法
下载PDF
多策略汉日机器翻译系统中的核心技术研究 被引量:4
19
作者 杜伟 陈群秀 《中文信息学报》 CSCD 北大核心 2008年第5期60-66,共7页
多策略的机器翻译是当今机器翻译系统的一个发展方向。该文论述了一个多策略的汉日机器翻译系统中各翻译核心子系统所使用的核心技术和算法,其中包含了使用词法分析、句法分析和语义角色标注的汉语分析子系统、利用双重索引技术的基于... 多策略的机器翻译是当今机器翻译系统的一个发展方向。该文论述了一个多策略的汉日机器翻译系统中各翻译核心子系统所使用的核心技术和算法,其中包含了使用词法分析、句法分析和语义角色标注的汉语分析子系统、利用双重索引技术的基于翻译记忆技术的机器翻译子系统、以句法树片段为模板的基于实例模式的机器翻译子系统以及综合了配价模式和断段分析的机器翻译子系统。翻译记忆子系统的测试结果表明其具有高效的特性;实例模式子系统在1 559个句子的封闭测试中达到99%的准确率,在1 500个句子的开放测试中达到85%的准确率;配价模式子系统在3 059个句子的测试中达到了89%的准确率。 展开更多
关键词 人工智能 机器翻译 汉日机器翻译系统 汉语分析 翻译记忆技术 基于实例的机器翻译方法 基于配价的 机器翻译方法
下载PDF
基于规则和统计的日语分词和词性标注的研究 被引量:4
20
作者 姜尚仆 陈群秀 《中文信息学报》 CSCD 北大核心 2010年第1期117-122,共6页
日语分词和词性标注是以日语为源语言的机器翻译等自然语言处理工作的第一步。该文提出了一种基于规则和统计的日语分词和词性标注方法,使用基于单一感知器的联合分词和词性标注算法作为基本框架,在其中加入了基于规则的词语的邻接属性... 日语分词和词性标注是以日语为源语言的机器翻译等自然语言处理工作的第一步。该文提出了一种基于规则和统计的日语分词和词性标注方法,使用基于单一感知器的联合分词和词性标注算法作为基本框架,在其中加入了基于规则的词语的邻接属性作为特征。在小规模测试集上的实验结果表明,这种方法分词的F值达到了98.2%,分词加词性标注的F值达到了94.8%。该文所采用的方法已经成功应用到日汉机器翻译系统中。 展开更多
关键词 人工智能 机器翻译 日汉机器翻译系统 日语分词 日语词性标注 联合分词
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部