期刊文献+
共找到133篇文章
< 1 2 7 >
每页显示 20 50 100
Research on the intelligent convergence of the information and data on overseas Chinese affairs based on the semantic web
1
作者 HUANG Di WEN Qiuhua 《International English Education Research》 2018年第2期26-29,共4页
The massive data on the Intemet needs to be exchanged and managed in a way that can understand the semantics of the data. The development and maturity of the semantic web make the highly efficient and high-quality sem... The massive data on the Intemet needs to be exchanged and managed in a way that can understand the semantics of the data. The development and maturity of the semantic web make the highly efficient and high-quality semantic information retrieval possible. The semantic web technology has been applied in the intelligent information retrieval, the inter-enterprise data exchange and knowledge management, and the Interact services and so on. Through the semantic web technology, we can explore the intelligent convergence of the overseas Chinese information data, design the intelligent aggregation model of the overseas Chinese information data, and design the relationship and functions between various modules. 展开更多
关键词 semantic web information on overseas chinese affairs intelligent convergence
下载PDF
从句子图到篇章图——基于抽象语义表示的篇章级共指标注体系研究
2
作者 张艺璇 李斌 许智星 《外语学刊》 北大核心 2025年第1期19-28,共10页
篇章级共指关系是语言学和计算语言学的研究难点之一。本文在梳理共指理论研究与趋势的基础上,回顾共指语料库的构建与自动解析方法,指出共指语料的构建主要存在以下两个问题:共指关系的标注较为粗疏,也基本不考虑与句子语义结构本身的... 篇章级共指关系是语言学和计算语言学的研究难点之一。本文在梳理共指理论研究与趋势的基础上,回顾共指语料库的构建与自动解析方法,指出共指语料的构建主要存在以下两个问题:共指关系的标注较为粗疏,也基本不考虑与句子语义结构本身的关系。本文在句子级语义标注体系(中文抽象语义表示)的基础上,设计篇章共指的标注体系,以“概念同一性”为基本原则,从词形的异同和概念的表述角度区分9种篇章共指关系,标注了500个篇章的共指信息。与已完整标注的52种句内语义关系相结合,构建出带有篇章共指信息的篇章抽象语义图库。该语料库选自CTB新闻语料,体裁涵盖经济、体育及生活类,规模为6237句,16万词例。该语料库的构建为篇章级语义分析提供了新框架与数据资源。 展开更多
关键词 篇章共指 抽象语义表示 概念同一性 篇章语义结构 语料库 中文信息处理
下载PDF
基于句法结构特征的汉越神经机器翻译
3
作者 裴非非 杨舰 《信息技术》 2024年第2期15-21,共7页
在低资源神经机器翻译中,长句译文质量普遍不佳,而汉-越语言差异较大,是典型的资源匮乏型语种,对于长句的处理应尽可能保持句子语义信息不变。因此,提出一种基于句法结构特征处理长句的方法。首先,对原有语料库中长句进行句法树解析,然... 在低资源神经机器翻译中,长句译文质量普遍不佳,而汉-越语言差异较大,是典型的资源匮乏型语种,对于长句的处理应尽可能保持句子语义信息不变。因此,提出一种基于句法结构特征处理长句的方法。首先,对原有语料库中长句进行句法树解析,然后,根据句法解析树提取短句和对远离根节点的叶子节点词进行标记,最后,对提取的短句进行反向翻译生成伪平行数据作为扩充,对原有长句中标记词进行与该词语义相近词的加权组合替换训练。实验表明,该方法提高了模型性能,显著改善了长句译文质量。 展开更多
关键词 低资源神经机器翻译 长句译文 汉-越语言 语义信息 句法结构特征
下载PDF
基于HowNet的词汇语义倾向计算 被引量:327
4
作者 朱嫣岚 闵锦 +2 位作者 周雅倩 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2006年第1期14-20,共7页
在互联网技术快速发展、网络信息爆炸的今天,通过计算机自动分析大规模文本中的态度倾向信息的技术,在企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。同时,语义褒贬倾向研究也为文本分类、自动文摘、文本过... 在互联网技术快速发展、网络信息爆炸的今天,通过计算机自动分析大规模文本中的态度倾向信息的技术,在企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。同时,语义褒贬倾向研究也为文本分类、自动文摘、文本过滤等自然语言处理的研究提供了新的思路和手段。篇章语义倾向研究的基础工作是对词汇的褒贬倾向判别。本文基于HowNet,提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。实验表明,本文的方法在汉语常用词中的效果较好,词频加权后的判别准确率可达80%以上,具有一定的实用价值。 展开更多
关键词 计算机应用 中文信息处理 态度分类 语义倾向 知网
下载PDF
BFS-CTC汉语句义结构标注语料库构建方法 被引量:10
5
作者 罗森林 刘盈盈 +3 位作者 冯扬 韩磊 陈功 王倩 《北京理工大学学报》 EI CAS CSCD 北大核心 2012年第3期311-315,共5页
根据现代汉语语义学,构建了一种层次化的句义结构模型.基于该模型构建了汉语句义结构标注语料库(Beijing forest studio-Chinese tagged corpus,BFS-CTC).利用自行开发的标注和管理工具,对模型中各个句义成分及其组合关系进行快速标注,... 根据现代汉语语义学,构建了一种层次化的句义结构模型.基于该模型构建了汉语句义结构标注语料库(Beijing forest studio-Chinese tagged corpus,BFS-CTC).利用自行开发的标注和管理工具,对模型中各个句义成分及其组合关系进行快速标注,降低培训工作量和标注成本.BFS-CTC涵盖了6种句式类型,约1万句,提供了符合现有规范的词法和句法标注信息与自定义规范的句义结构标注信息,便于词法、句法和句义的对照分析研究,以及语料的综合使用和横向分析.此外,BFS-CTC还具有较强的可扩展性,可在核心标注库基础上扩展生成其它扩展库和标注资源. 展开更多
关键词 中文信息处理 句义分析 句义结构 语义标注 语料库
下载PDF
汉语框架语义知识库及软件描述体系 被引量:52
6
作者 郝晓燕 刘伟 +1 位作者 李茹 刘开瑛 《中文信息学报》 CSCD 北大核心 2007年第5期96-100,138,共6页
汉语框架网络工程是以框架语义学为理论基础的基于语料库的计算词典编纂工程,用于语言学、计算语言学研究及自然语言处理研究。该工程的结果包括两部分:汉语框架语义知识库(即词典资源)和相关软件。其中,汉语框架网络知识库包括框架库... 汉语框架网络工程是以框架语义学为理论基础的基于语料库的计算词典编纂工程,用于语言学、计算语言学研究及自然语言处理研究。该工程的结果包括两部分:汉语框架语义知识库(即词典资源)和相关软件。其中,汉语框架网络知识库包括框架库、句子库和词元库三部分,相关软件主要包括汉语框架语义知识库管理系统和基于Web的展示系统。本文介绍了汉语框架语义知识库的语义描述体系以及软件描述体系。 展开更多
关键词 计算机应用 中文信息处理 汉语框架网络 框架语义 描述体系 软件
下载PDF
中文维基百科的结构化信息抽取及词语相关度计算方法 被引量:24
7
作者 涂新辉 张红春 +1 位作者 周琨峰 何婷婷 《中文信息学报》 CSCD 北大核心 2012年第3期109-115,共7页
维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识库系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点。然而,维基百科的官方仅提供一些半结构化的数据文件,很多有用的结构化信息和数据,并不能直接地获取和利用。因... 维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识库系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点。然而,维基百科的官方仅提供一些半结构化的数据文件,很多有用的结构化信息和数据,并不能直接地获取和利用。因此,该文首先从这些数据文件中抽取整理出多种结构化信息;然后,对维基百科中的各种信息建立了对象模型,并提供了一套开放的应用程序接口,大大降低了利用维基百科信息的难度;最后,利用维基百科中获取的信息,该文提出了一种基于链接所对应主题页面所属类别的词语语义相关度计算方法。 展开更多
关键词 语义相关度 中文维基百科 结构化信息
下载PDF
中文词语语义相似度计算——基于《知网》2000 被引量:106
8
作者 李峰 李芳 《中文信息学报》 CSCD 北大核心 2007年第3期99-105,共7页
词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思... 词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思想,提出了自己的观点:认为知网中的“义原”对“概念”描述的作用大小取决于其本身所含的语义信息量;“义原”对“概念”的描述划分为直接描述和间接描述两类,并据此计算中文词语语义相似度,在一定程度上得到了和人的直观更加符合的结果。 展开更多
关键词 计算机应用 中文信息处理 词语语义相似度 知网 “义原” 语义信息量
下载PDF
基于合一句法和实体语义树的中文语义关系抽取 被引量:19
9
作者 虞欢欢 钱龙华 +1 位作者 周国栋 朱巧明 《中文信息学报》 CSCD 北大核心 2010年第5期17-23,共7页
该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高... 该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。 展开更多
关键词 中文语义关系抽取 卷积树核函数 实体语义信息
下载PDF
知网的理论发现 被引量:99
10
作者 董振东 董强 郝长伶 《中文信息学报》 CSCD 北大核心 2007年第4期3-9,共7页
知网正式发布至今已经8年了。海内外很多人对它已不陌生了。现在该是我们为知网的理论发现做点小结的时候了。本文它们包括(1)知网的知识观,(2)关于知识的获取和表达,(3)事件类概念分类的双轴论,(4)关于语义角色,(5)知识数据描述语言(KD... 知网正式发布至今已经8年了。海内外很多人对它已不陌生了。现在该是我们为知网的理论发现做点小结的时候了。本文它们包括(1)知网的知识观,(2)关于知识的获取和表达,(3)事件类概念分类的双轴论,(4)关于语义角色,(5)知识数据描述语言(KDML)。本文还介绍了知网的计算意义的能力以及它最新发展。知网将成为一些新兴技术如自然语言搜索等的基础设施。 展开更多
关键词 计算机应用 中文信息处理 知识系统 本体论 义原 语义角色 WORDNET
下载PDF
潜在语义分析在中文信息处理中的应用 被引量:18
11
作者 刘云峰 齐欢 代建民 《计算机工程与应用》 CSCD 北大核心 2005年第3期91-93,共3页
潜在语义分析是一种关于自然语言信息提取和再现的理论方法,它通过代数的方法提取语义空间中潜在结构。论文叙述了潜在语义分析的基本理论方法,概述了这种方法所建立的潜在语义空间的数学意义;然后通过一个简单示例说明LSA在中文信息处... 潜在语义分析是一种关于自然语言信息提取和再现的理论方法,它通过代数的方法提取语义空间中潜在结构。论文叙述了潜在语义分析的基本理论方法,概述了这种方法所建立的潜在语义空间的数学意义;然后通过一个简单示例说明LSA在中文信息处理中的分析方法,并通过分析结果中文本间、词汇间关联度的变化来说明LSA在中文信息处理中的重要意义。 展开更多
关键词 潜在语义分析 潜在语义空间 中文信息处理 奇异值分解
下载PDF
基于本体的跨语言信息检索模型 被引量:10
12
作者 王进 陈恩红 +1 位作者 张振亚 王煦法 《中文信息学报》 CSCD 北大核心 2004年第3期1-8,60,共9页
随着网络信息的日益丰富和用户需求的提高 ,人们已经不能满足于仅仅在同一语种中进行检索 ,跨语言的信息检索 (CLIR)因而受到人们越来越多的关注。为此 ,本文提出了一种新的基于语义的跨语言信息检索模型Onto CLIR ,该模型在传统信息检... 随着网络信息的日益丰富和用户需求的提高 ,人们已经不能满足于仅仅在同一语种中进行检索 ,跨语言的信息检索 (CLIR)因而受到人们越来越多的关注。为此 ,本文提出了一种新的基于语义的跨语言信息检索模型Onto CLIR ,该模型在传统信息检索技术的基础上 ,利用本体来刻画不同语言中对应的领域知识 ,以解决从查询语言到检索语言之间转换过程中出现的语义损失和曲解等问题 ,从而保证在检索过程中能够有效地遵循用户的查询意图 ,获得预期的检索信息。本文以体育新闻检索为背景 ,以英文查询作为查询请求 ,检索来自新浪网的体育类新闻 ,结果表明采用基于本体的跨语言信息检索方法之后检索的查全率和查准率平均提高 10个百分点左右 ,有效地改善了检索性能。 展开更多
关键词 计算机应用 中文信息处理 本体 跨语言信息检索 语义
下载PDF
《同义词词林》在中文实体关系抽取中的作用 被引量:26
13
作者 刘丹丹 彭成 +1 位作者 钱龙华 周国栋 《中文信息学报》 CSCD 北大核心 2014年第2期91-99,共9页
语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了... 语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了词汇语义信息和实体类型信息之间的冗余性。在ACE2005中文语料库上的关系抽取实验表明,在未知实体类型的前提下,语义信息能显著提高抽取性能;而在已知实体类型的情况下,语义信息也能明显提高某些关系类型的抽取性能,这说明《词林》语义信息和实体类型信息在中文语义关系抽取中具有一定的互补性。 展开更多
关键词 中文实体关系抽取 树核函数 同义词词林 语义信息
下载PDF
中文语义角色标注的特征工程 被引量:39
14
作者 刘怀军 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2007年第1期79-84,共6页
基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征:例如,句法成分后一个词... 基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征:例如,句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等,并在Chinese Proposition Bank(CPB)语料数据上,使用最大熵分类器进行了实验,系统F-Score由89.76%增加到91.31%。结果表明,这些新特征和组合特征显著提高了系统的性能。因此,目前进行语义角色标注应集中精力寻找丰富有效的特征。 展开更多
关键词 计算机应用 中文信息处理 语义分析 语义角色标注 特征工程 最大熵分类器
下载PDF
隐含语义索引及其在中文文本处理中的应用研究 被引量:41
15
作者 周水庚 关佶红 胡运发 《小型微型计算机系统》 CSCD 北大核心 2001年第2期239-243,共5页
信息检索本质上是语义检索 ,而传统信息检索系统都是基于独立词索引 ,因此检索效果并不理想 .隐含语义索引是一种新型的信息检索模型 ,它通过奇异值分解 ,将词向量和文档向量投影到一个低维空间 ,消减了词和文档之间的语义模糊度 ,使得... 信息检索本质上是语义检索 ,而传统信息检索系统都是基于独立词索引 ,因此检索效果并不理想 .隐含语义索引是一种新型的信息检索模型 ,它通过奇异值分解 ,将词向量和文档向量投影到一个低维空间 ,消减了词和文档之间的语义模糊度 ,使得文档之间的语义关系更为明晰 .实验和理论结果证实了隐含语义索引能够取得更好的检索效果 .本文论述了隐含语义索引的理论基础 ,研究了隐含语义索引在中文文本处理中的应用 ,包括中文文本检索、中文文本分类和中文文本聚类等 . 展开更多
关键词 信息检索 隐含语义索引 中文文本处理 中文信息处理
下载PDF
汉语语义分析模型研究述评 被引量:22
16
作者 由丽萍 范开泰 刘开瑛 《中文信息学报》 CSCD 北大核心 2005年第6期57-63,共7页
这篇述评的目的是为汉语语义处理的研究工作提供参考。我们首先分别分析了三种语义分析模型———词语依存(WD)、概念依存(CD)和核心依存(KD)的理论基础和表达方式;然后,重点从功能和可操作性方面比较三者在语义表示方面的特点。结论是... 这篇述评的目的是为汉语语义处理的研究工作提供参考。我们首先分别分析了三种语义分析模型———词语依存(WD)、概念依存(CD)和核心依存(KD)的理论基础和表达方式;然后,重点从功能和可操作性方面比较三者在语义表示方面的特点。结论是(1)词语依存可操作性好但功能弱,概念依存功能强但可操作性差,二者的缺点都是极难解决的问题,核心依存兼顾词语和概念,可能是最适合汉语语义处理需要的;(2)要使模型达到实用要求,需要在句法标注、词典编纂和规范化方面做大量复杂的工作。 展开更多
关键词 计算机应用 中文信息处理 依存语法 概念依存理论 框架语义学 语义表示
下载PDF
基于树核函数的实体语义关系抽取方法研究 被引量:28
17
作者 庄成龙 钱龙华 周国栋 《中文信息学报》 CSCD 北大核心 2009年第1期3-8,34,共7页
该文描述了一种改进的基于树核函数的实体语义关系抽取方法,通过在原有关系实例的结构化信息中加入实体语义信息和去除冗余信息的方法来提高关系抽取的性能。该方法在最短路径包含树的基础上,首先加入实体类型、引用类型等与实体相关的... 该文描述了一种改进的基于树核函数的实体语义关系抽取方法,通过在原有关系实例的结构化信息中加入实体语义信息和去除冗余信息的方法来提高关系抽取的性能。该方法在最短路径包含树的基础上,首先加入实体类型、引用类型等与实体相关的语义信息,然后对树进行裁剪,去掉修饰语冗余和并列冗余信息,并扩充所有格结构,最后生成实体语义关系实例。在ACE RDC 2004基准语料上进行的关系检测和7个关系大类抽取的实验表明,该方法在较大程度上提高了实体语义关系识别和分类的效果,F值分别达到了79.1%和71.9%。 展开更多
关键词 计算机应用 中文信息处理 实体关系抽取 树核函数 语义信息
下载PDF
词汇语义信息对中文实体关系抽取影响的比较 被引量:11
18
作者 刘丹丹 彭成 +1 位作者 钱龙华 周国栋 《计算机应用》 CSCD 北大核心 2012年第8期2238-2244,共7页
提出一种将《同义词词林》和《知网》的语义信息融合到基于树核函数的中文关系抽取方法,并比较和分析了两种语义信息对中文实体关系抽取的影响,同时探讨了这两种语义信息与实体类型信息之间的相互关系。实验结果表明,该方法能在一定程... 提出一种将《同义词词林》和《知网》的语义信息融合到基于树核函数的中文关系抽取方法,并比较和分析了两种语义信息对中文实体关系抽取的影响,同时探讨了这两种语义信息与实体类型信息之间的相互关系。实验结果表明,该方法能在一定程度上提高中文关系抽取的性能;同时,《同义词词林》能补充实体类型信息的不足,因而无论是否加入实体类型信息,其语义信息都能大幅度地提高大部分关系类型的抽取性能;而《知网》则和实体类型信息存在冲突,因此在已知实体类型信息的前提下,仅能提高个别关系类型的抽取性能。 展开更多
关键词 中文实体关系抽取 树核 《同义词词林》 《知网》 语义信息
下载PDF
基于联合权重的多文档关键词抽取技术 被引量:16
19
作者 杨洁 季铎 +2 位作者 蔡东风 林晓庆 白宇 《中文信息学报》 CSCD 北大核心 2008年第6期75-79,共5页
该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×ProportionalDocument Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词... 该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×ProportionalDocument Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词。该方法综合考虑了词语的频率,词性以及词语之间的语义相似性等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高3%,召回率提高7%,F-measure提高4.4%。 展开更多
关键词 计算机应用 中文信息处理 ATF×PDF 联合权重 多文档 语义相似度
下载PDF
中文本体映射研究与实现 被引量:10
20
作者 李佳 祝铭 +1 位作者 刘辰 杨正球 《中文信息学报》 CSCD 北大核心 2007年第4期27-33,共7页
本体间的异构是语义网建设亟待解决的问题,本体映射则是解决本体异构的有效手段。中文资源是信息网络的重要组成部分,实现中文本体间以及中文与其他本体的映射是实现知识共享重用的一个重要组成部分。本文从元素层的角度对中文本体映射... 本体间的异构是语义网建设亟待解决的问题,本体映射则是解决本体异构的有效手段。中文资源是信息网络的重要组成部分,实现中文本体间以及中文与其他本体的映射是实现知识共享重用的一个重要组成部分。本文从元素层的角度对中文本体映射进行了研究,提出利用知网,结合多种技术计算词汇相似度,利用词汇的相似度计算概念匹配的可信度,实现元素层本体映射的算法,并根据此算法实现了ELOMC(Element Level Ontology Matching for Chinese)系统。 展开更多
关键词 计算机应用 中文信息处理 中文本体映射 知网 词汇相似度 语义网
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部