期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
基于最大熵模型的组块分析 被引量:58
1
作者 李素建 刘群 杨志峰 《计算机学报》 EI CSCD 北大核心 2003年第12期1722-1727,共6页
采用最大熵模型实现中文组块分析的任务 .首先明确了中文组块的定义 ,并且列出了模型中所有的组块类型和组块标注符号 .组块划分和识别的过程可以转化为对于每一个词语赋予一个组块标注符号的过程 ,我们可以把它作为一个分类问题根据最... 采用最大熵模型实现中文组块分析的任务 .首先明确了中文组块的定义 ,并且列出了模型中所有的组块类型和组块标注符号 .组块划分和识别的过程可以转化为对于每一个词语赋予一个组块标注符号的过程 ,我们可以把它作为一个分类问题根据最大熵模型来解决 .最大熵模型的关键是如何选取有效的特征 ,文中给出了相关的特征选择过程和算法 .最后给出了系统实现和实验结果 . 展开更多
关键词 自然语言处理 最大熵模型 组块分析 句法分析 信息处理
下载PDF
基于统计的汉语组块分析 被引量:27
2
作者 刘芳 赵铁军 +2 位作者 于浩 杨沐昀 方高林 《中文信息学报》 CSCD 北大核心 2000年第6期28-32,39,共6页
组块分析是一种大大降低句法分析难度的有效手段。本文针对汉语普遍规律 ,提出了一套符合汉语语言特点的汉语组块体系 ,并在此基础上设计实现了一种统计与错误驱动相结合的、能够分析有限层次的组块自动识别算法。实验证明 ,该方法能够... 组块分析是一种大大降低句法分析难度的有效手段。本文针对汉语普遍规律 ,提出了一套符合汉语语言特点的汉语组块体系 ,并在此基础上设计实现了一种统计与错误驱动相结合的、能够分析有限层次的组块自动识别算法。实验证明 ,该方法能够有效地处理真实文本中的浅层分析问题 ,具有较好的准确率和鲁棒性。 展开更多
关键词 组块分析 汉语句法分析 统计方法 组块识别
下载PDF
汉语句子的组块分析体系 被引量:31
3
作者 周强 孙茂松 黄昌宁 《计算机学报》 EI CSCD 北大核心 1999年第11期1158-1165,共8页
介绍了一种描述能力介于线性词序列和完整句法树表示之间的浅层句法知识描述体系——组块分析体系,并详细讨论了其中两大部分:词界块和成分组的基本内容及其自动识别算法.在此基础上,提出了一种分阶段构造汉语树库的新设想,即先构... 介绍了一种描述能力介于线性词序列和完整句法树表示之间的浅层句法知识描述体系——组块分析体系,并详细讨论了其中两大部分:词界块和成分组的基本内容及其自动识别算法.在此基础上,提出了一种分阶段构造汉语树库的新设想,即先构造组块库,再构造树库,进行了一系列句法分析和知识获取实验,包括1)自动识别汉语最长名词短语;2)自动获取汉语句法知识等.所有这些工作都证明了这种知识描述体系的实用性和有效性. 展开更多
关键词 句法分析 自然语言处理 汉语句子 组块分析体系
下载PDF
统计和规则相结合的汉语组块分析 被引量:21
4
作者 李素建 刘群 白硕 《计算机研究与发展》 EI CSCD 北大核心 2002年第4期385-391,共7页
从文本中获得的组块对机器翻译、信息检索等很多领域都非常有用.介绍了规则和统计进行组块分析的处理策略,提出了规则与统计相结合的处理方法.并且结合组块分析的实际情况改进了一般评价系统性能的指标,通过封闭测试和开放测试验证... 从文本中获得的组块对机器翻译、信息检索等很多领域都非常有用.介绍了规则和统计进行组块分析的处理策略,提出了规则与统计相结合的处理方法.并且结合组块分析的实际情况改进了一般评价系统性能的指标,通过封闭测试和开放测试验证,与单纯规则组块划分相比较,组块识别的精确率和召回率都得到了提高,组块划分错误率降低了7%. 展开更多
关键词 统计 规则 汉语组块分析 语料库 自然语言处理 计算机
下载PDF
基于大间隔方法的汉语组块分析 被引量:7
5
作者 周俊生 戴新宇 +1 位作者 陈家骏 曲维光 《软件学报》 EI CSCD 北大核心 2009年第4期870-877,共8页
汉语组块分析是中文信息处理领域中一项重要的子任务.在一种新的结构化SVMs(support vector machines)模型的基础上,提出一种基于大间隔方法的汉语组块分析方法.首先,针对汉语组块分析问题设计了序列化标注模型;然后根据大间隔思想给出... 汉语组块分析是中文信息处理领域中一项重要的子任务.在一种新的结构化SVMs(support vector machines)模型的基础上,提出一种基于大间隔方法的汉语组块分析方法.首先,针对汉语组块分析问题设计了序列化标注模型;然后根据大间隔思想给出判别式的序列化标注函数的优化目标,并应用割平面算法实现对特征参数的近似优化训练.针对组块识别问题设计了一种改进的F1损失函数,使得F1损失值能够依据每个句子的实际长度进行相应的调整,从而能够引入更有效的约束不等式.通过在滨州中文树库CTB4数据集上的实验数据显示,基于改进的F1损失函数所产生的识别结果优于Hamming损失函数,各种类型组块识别的总的F1值为91.61%,优于CRFs(conditional random fields)和SVMs方法. 展开更多
关键词 汉语组块分析 大间隔 判别式学习 损失函数
下载PDF
基于词聚类特征的统计中文组块分析模型 被引量:7
6
作者 孙广路 王晓龙 +1 位作者 刘秉权 关毅 《电子学报》 EI CAS CSCD 北大核心 2008年第12期2450-2453,2399,共5页
提出了一种基于信息熵的层次词聚类算法,并将该算法产生的词簇作为特征应用到中文组块分析模型中.词聚类算法基于信息熵的理论,利用中文组块语料库中的词及其组块标记作为基本信息,采用二元层次聚类的方法形成具有一定句法功能的词簇.... 提出了一种基于信息熵的层次词聚类算法,并将该算法产生的词簇作为特征应用到中文组块分析模型中.词聚类算法基于信息熵的理论,利用中文组块语料库中的词及其组块标记作为基本信息,采用二元层次聚类的方法形成具有一定句法功能的词簇.在聚类过程中,设计了优化算法节省聚类时间.用词簇特征代替传统的词性特征应用到组块分析模型中,并引入名实体和仿词识别模块,在此基础上构建了基于最大熵马尔科夫模型的中文组块分析系统.实验表明,本文的算法提升了聚类效率,产生的词簇特征有效地改进了中文组块分析系统的性能. 展开更多
关键词 词聚类 信息熵 中文组块分析 句法功能
下载PDF
基于增益的隐马尔科夫模型的文本组块分析 被引量:9
7
作者 李珩 杨峰 +1 位作者 朱靖波 姚天顺 《计算机科学》 CSCD 北大核心 2004年第2期152-154,192,共4页
本文提出一种基于增益的隐马尔科夫模型(Transductive HMM)的方法,用于文本组块(Text Chunking)分析的研究。该方法将一些上下文信息导入隐马尔科夫模型(HMM),构造增益的隐马尔科夫模型(TransductiveHMM)。该模型不需要修改标准的隐马... 本文提出一种基于增益的隐马尔科夫模型(Transductive HMM)的方法,用于文本组块(Text Chunking)分析的研究。该方法将一些上下文信息导入隐马尔科夫模型(HMM),构造增益的隐马尔科夫模型(TransductiveHMM)。该模型不需要修改标准的隐马尔科夫模型的训练和标注过程,只需要对训练语料根据导入的上下文信息进行相应的转换。实验结果显示,该方法在文本组块分析方面是有效的。 展开更多
关键词 中文信息处理 隐马尔科夫模型 文本组块分析 支持向量机 状态转移函数
下载PDF
基于分治策略的组块分析 被引量:6
8
作者 周俏丽 刘新 +1 位作者 郎文静 蔡东风 《中文信息学报》 CSCD 北大核心 2012年第5期120-128,共9页
组块分析的主要任务是语块的识别和划分,它使句法分析的任务在某种程度上得到简化。针对长句子组块分析所遇到的困难,该文提出了一种基于分治策略的组块分析方法。该方法的基本思想是首先对句子进行最长名词短语识别,根据识别的结果,将... 组块分析的主要任务是语块的识别和划分,它使句法分析的任务在某种程度上得到简化。针对长句子组块分析所遇到的困难,该文提出了一种基于分治策略的组块分析方法。该方法的基本思想是首先对句子进行最长名词短语识别,根据识别的结果,将句子分解为最长名词短语部分和句子框架部分;然后,针对不同的分析单元选用不同的模型加以分析,再将分析结果进行组合,完成整个组块分析过程。该方法将整句分解为更小的组块分析单元,降低了句子的复杂度。通过在宾州中文树库CTB4数据集上的实验结果显示,各种组块识别结果平均F1值结果为91.79%,优于目前其他的组块分析方法。 展开更多
关键词 汉语组块分析 分治策略 句法分析 最长名词短语 条件随机场 支持向量机
下载PDF
基于条件随机域和语义类的中文组块分析方法 被引量:5
9
作者 孙广路 郎非 薛一波 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2011年第7期135-139,共5页
为了解决中文组块分析精度不高和未利用词的语义信息的问题,提出了一种基于条件随机域模型和语义类的中文组块分析方法.该方法通过研究中文组块分析任务及其序列化特性,采用条件随机域模型融合不同类型特征,克服标记偏置问题,将语义词... 为了解决中文组块分析精度不高和未利用词的语义信息的问题,提出了一种基于条件随机域模型和语义类的中文组块分析方法.该方法通过研究中文组块分析任务及其序列化特性,采用条件随机域模型融合不同类型特征,克服标记偏置问题,将语义词典中抽取的语义类特征应用到中文组块分析中,提高分析精度.实验表明,该方法取得了F值为92.77%的中文组块分析性能,实验进一步还表明了特征模板的选取和训练语料的规模对于分析性能的影响. 展开更多
关键词 条件随机域 中文组块分析 特征模板 语义词典
下载PDF
基于组块分析技术的中文机构名称识别 被引量:5
10
作者 尹继豪 樊孝忠 +1 位作者 赵攀超 于江德 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2006年第B07期466-470,共5页
针对中文机构名称自动识别提出了简化的一体化N最佳层叠模型,该模型实现了从汉语切分、词性标注、组块分析一直到机构名称的自动识别.N最佳层叠方法既能够在一定程度上抑制前一个阶段的错误在后面的传播,又大大地缩小了搜索空间.在... 针对中文机构名称自动识别提出了简化的一体化N最佳层叠模型,该模型实现了从汉语切分、词性标注、组块分析一直到机构名称的自动识别.N最佳层叠方法既能够在一定程度上抑制前一个阶段的错误在后面的传播,又大大地缩小了搜索空间.在实验过程中依次加入启发信息和机构名称缩写处理,使得实验结果有显著提高.在IEER99测试集上,中文机构名称识别的最终准确率和召回率分别为92.31%和81.01%. 展开更多
关键词 组块分析 中文机构名称识别 N最佳层叠模型 启发信息
下载PDF
基于语义组块分析的汉语语义角色标注 被引量:23
11
作者 丁伟伟 常宝宝 《中文信息学报》 CSCD 北大核心 2009年第5期53-61,74,共10页
近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。在新的方法中,语义... 近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。在新的方法中,语义角色标注的流程不再是传统的"句法分析——语义角色识别——语义角色分类",而是一种简化的"语义组块识别——语义组块分类"流程。这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。 展开更多
关键词 计算机应用 中文信息处理 语义角色标注 语义组块分析 条件随机域 序列标注
下载PDF
汉语组块分析研究综述 被引量:12
12
作者 李业刚 黄河燕 《中文信息学报》 CSCD 北大核心 2013年第3期1-8,共8页
组块分析作为浅层句法分析的代表,既可以满足很多语言信息处理系统对于句法功能的需求,又可以作为子任务,在词法分析和完全句法分析以及语义分析中间架起一座桥梁,为句子进行进一步深入分析提供有力的支持,因此众多的研究将注意力集中... 组块分析作为浅层句法分析的代表,既可以满足很多语言信息处理系统对于句法功能的需求,又可以作为子任务,在词法分析和完全句法分析以及语义分析中间架起一座桥梁,为句子进行进一步深入分析提供有力的支持,因此众多的研究将注意力集中于组块分析上。该文主要对组块的定义和分类、组块识别方法、组块的标注和评测以及组块内部关系分析等几方面的研究进展进行详细的综述。最后,探讨了组块分析存在的问题并对未来的发展方向进行了展望。 展开更多
关键词 中文信息处理 浅层句法分析 组块分析 组块识别
下载PDF
基于组块分析的路径自然语言语义角色标注方法 被引量:3
13
作者 张秀龙 李新德 戴先中 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第A01期127-131,共5页
为了进行路径自然语言研究,首先设计了路径自然语言收集方案,主要面向室内环境收集了一定的路径自然语言语料,通过手工标注建立了一个小型的语料库.其次,对路径自然语言的特征进行了一定的分析,在此基础上概括了几种常见的语义角色,主... 为了进行路径自然语言研究,首先设计了路径自然语言收集方案,主要面向室内环境收集了一定的路径自然语言语料,通过手工标注建立了一个小型的语料库.其次,对路径自然语言的特征进行了一定的分析,在此基础上概括了几种常见的语义角色,主要包括关于landmark和方位转换的语义角色.路径自然语言本身具有高度规律性,语义角色相对集中,因此语义分析采用了基于组块分析的语义角色标注方法,将语义分析问题转化为序列信号的切分和分类问题.最后,利用支持向量机进行了相关的组块标注实验.实验结果表明提出的方法具有较大的潜力. 展开更多
关键词 路径自然语言 语义角色标注 组块分析 支持向量机
下载PDF
基于最大熵模型的汉语问句语义组块分析 被引量:5
14
作者 余正涛 樊孝忠 《计算机工程》 EI CAS CSCD 北大核心 2005年第17期3-5,8,共4页
问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大... 问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大熵原理实现了语义组块特征抽取和特征选取学习算法,并以模型为基础实现了真实问句的语义块的标注,从而为在语义层面上理解汉语问句奠定了基础。实验结果说明最大熵模型应用于汉语问句语义组块分析具有较好的效果。 展开更多
关键词 最大熵模型 问句分析 句法分析 组块分析 语义块
下载PDF
基于条件随机场的维吾尔文组块分析 被引量:1
15
作者 艾山.吾买尔 吐尔根.依布拉音 +3 位作者 卡哈尔江.阿比的热西提 早克热.卡德尔 买合木提.买买提 亚森.艾则孜 《中文信息学报》 CSCD 北大核心 2016年第3期90-95,共6页
该文对维吾尔语树库标注体系进行分析,根据组块划分原则,在短语标记集的基础上制定了维吾尔语组块标记集,从已完成标注的3 000句语料库构建组块库。根据维文语言的特点,在英汉组块识别特征基础上,增加了词干、词缀、同义词标记等特征。... 该文对维吾尔语树库标注体系进行分析,根据组块划分原则,在短语标记集的基础上制定了维吾尔语组块标记集,从已完成标注的3 000句语料库构建组块库。根据维文语言的特点,在英汉组块识别特征基础上,增加了词干、词缀、同义词标记等特征。该文中的性能评价指标采用了国际通用的准确率,召回率和F值,3 000个标注句子作为训练和测试语料库用,实验采用了交叉验证法,训练和测试语料库的比例分别为9∶1,8∶2,2∶1,召回率分别为80.34%,76.87%,66.76%。实验表明,语料库规模对模型性能影响较大。 展开更多
关键词 条件随机场 维吾尔 组块分析
下载PDF
基于HOWNET的汉语组块分析 被引量:1
16
作者 舒鑫柱 杨尔弘 《河南职业技术师范学院学报》 2001年第4期59-61,共3页
介绍了当前句法分析的研究现状 ,利用《知网——中文信息结构库》作为知识库 ,结合当前汉语句法分析中的组块分析方法 ,提出了一种基于《知网》
关键词 句法分析 组块分析 依存关系 汉语 HOWNET 知识库 语法
下载PDF
汉语组块分析在情感分类中的应用研究
17
作者 杜思奇 李红莲 吕学强 《计算机应用与软件》 CSCD 2016年第10期167-171,共5页
网络产品评论的情感分析对网络用户的日常购买行为有着重要的决策作用,因此,如何利用细粒化的处理方法提高情感分析的准确率,成为了一个热门的研究话题。针对该问题提出一种基于汉语组块分析的情感识别方法,首先依靠汉语组块分析对汽车... 网络产品评论的情感分析对网络用户的日常购买行为有着重要的决策作用,因此,如何利用细粒化的处理方法提高情感分析的准确率,成为了一个热门的研究话题。针对该问题提出一种基于汉语组块分析的情感识别方法,首先依靠汉语组块分析对汽车评论语料进行细粒化的处理并提取情感标签,再结合情感词本体和支持向量机模型对情感标签进行分类,从而实现情感倾向性的判别。实验表明,采用汉语组块分析的情感分类方法相比其他的分类算法平均准确率提高了4%。因此,基于汉语组块分析的情感分类可以降低分类器的输入特征维数,并有效提高分类器的分类性能。 展开更多
关键词 汉语组块分析 情感标签 情感词本体 情感分类
下载PDF
面向机器人导航的汉语路径自然语言组块分析方法研究
18
作者 王浩 景阳 +3 位作者 王鲜惠 张超 潘蔚 陈奇 《电脑知识与技术》 2016年第4期181-183,186,共4页
通过汉语自然语言与机器人进行人机交互无疑是一种高效便捷的导航办法。主要针对汉语路径自然语言的处理方法进行研究。首先搭建了10个非结构化的3D环境,针对所构建环境下机器人的导航任务完成了自然语言导航语料的收集,该语料库的来源... 通过汉语自然语言与机器人进行人机交互无疑是一种高效便捷的导航办法。主要针对汉语路径自然语言的处理方法进行研究。首先搭建了10个非结构化的3D环境,针对所构建环境下机器人的导航任务完成了自然语言导航语料的收集,该语料库的来源以在校大学生为主体,辅以各年龄段不同职业的社会人士;然后采用NLPIR汉语分词系统对有效语料进行分词以及词性标注处理,最后为了提取用于导航的语义信息,定义了9种基本组块,并采用条件随机场(CRF)实现了语料的组块自动标注,实验结果表明该方法的组块标注准确率较高,为进一步提取导航语义打下了基础。 展开更多
关键词 自然语言处理 机器人导航 组块分析 条件随机场
下载PDF
基于CRF的中文组块分析 被引量:7
19
作者 徐中一 胡谦 刘磊 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2007年第3期416-420,共5页
提出一种基于条件随机域模型的方法用于中文文本组块分析.该方法将中文组块分析转化为对每个词语赋予一个组块标注符号,再根据条件随机域对标注好的训练语料建立模型,从而预测测试语料中每个词语的组块标注符号.使用北京大学中文树库的... 提出一种基于条件随机域模型的方法用于中文文本组块分析.该方法将中文组块分析转化为对每个词语赋予一个组块标注符号,再根据条件随机域对标注好的训练语料建立模型,从而预测测试语料中每个词语的组块标注符号.使用北京大学中文树库的测试结果为F1=85.5%,高于隐马尔可夫模型和最大熵马尔可夫模型.实验结果表明,条件随机域在中文组块识别方面有效,并避免了严格的独立性假设和数据归纳偏置问题. 展开更多
关键词 组块分析 条件随机域 特征函数
下载PDF
基于中文电子病历的跨科室组块分析 被引量:3
20
作者 戴雪 蒋志鹏 关毅 《计算机应用研究》 CSCD 北大核心 2017年第7期2084-2087,共4页
针对医疗领域的研究,发现了不同科室间电子病历存在着差异,但是新语料的标注成本又非常高。为了解决这一问题,利用迁移学习的方法在中文电子病历中进行跨科室组块分析的研究。在构建的中文电子病历中,对比了SSVM与CRF模型在词性标注和... 针对医疗领域的研究,发现了不同科室间电子病历存在着差异,但是新语料的标注成本又非常高。为了解决这一问题,利用迁移学习的方法在中文电子病历中进行跨科室组块分析的研究。在构建的中文电子病历中,对比了SSVM与CRF模型在词性标注和组块分析上的实验结果,发现SSVM模型的效果更好并选择该模型作为基本标注模型;此外,使用了改进的结构对应学习算法(SCL)进行组块分析,使得该算法能适用于SSVM模型进行领域适应。实验结果表明该算法有效地改善了序列标注任务中跨科室的领域适应性问题。 展开更多
关键词 中文电子病历 词性标注 组块分析 领域适应 结构化支持向量机
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部