期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
大规模现代汉语标注语料库的加工规范 被引量:30
1
作者 俞士汶 朱学锋 段慧明 《中文信息学报》 CSCD 北大核心 2000年第6期58-64,共7页
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上 ,又在实施另一项大型语言工程 ,即对大规模的现代汉语原始语料进行多级加工 ,目前的加工项目包括词语切分、词性标注 (包括动词和形容词的特殊用法 ) ,并... 北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上 ,又在实施另一项大型语言工程 ,即对大规模的现代汉语原始语料进行多级加工 ,目前的加工项目包括词语切分、词性标注 (包括动词和形容词的特殊用法 ) ,并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为 2 70 0万字。现在已经完成了 1 40 0万字的任务 ,而且质量很高。要建成高质量的标注语料库 ,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。 展开更多
关键词 现代汉语标注语料库 词语切分 词性标注 加工
下载PDF
基于BERT特征融合与膨胀卷积的汉语副词框架语义角色标注
2
作者 王超 吕国英 +2 位作者 李茹 柴清华 李晋荣 《中文信息学报》 CSCD 北大核心 2024年第2期25-35,共11页
汉语框架语义角色标注对汉语框架语义分析具有重要作用。目前汉语框架语义角色标注任务主要针对动词框架,但是汉语没有丰富的形态变化,很多语法意义都是通过虚词来表现的,其中副词研究是现代汉语虚词研究的重要部分,因此该文从副词角度... 汉语框架语义角色标注对汉语框架语义分析具有重要作用。目前汉语框架语义角色标注任务主要针对动词框架,但是汉语没有丰富的形态变化,很多语法意义都是通过虚词来表现的,其中副词研究是现代汉语虚词研究的重要部分,因此该文从副词角度出发构建了汉语副词框架及数据集,且对框架下的词元按照语义强弱进行了等级划分。目前的语义角色标注模型大多基于BiLSTM网络模型,该模型虽然可以很好地获取全局信息,但容易忽略句子局部特征,且无法并行训练。针对上述问题,该文提出了基于BERT特征融合与膨胀卷积的语义角色标注模型,该模型包括四层:BERT层用于表达句子的丰富语义信息,Attention层对BERT获取的每一层信息进行动态权重融合,膨胀卷积(IDCNN)层进行特征提取,CRF层修正预测标签。该模型在三个副词框架数据集上表现良好,F1值均达到了82%以上。此外,将该模型应用于CFN数据集上,F1值达到88.29%,较基线模型提升了4%以上。 展开更多
关键词 汉语框架语义角色标注 副词 BERT 膨胀卷积 CRF
下载PDF
用隐马尔柯夫模型对汉语进行切分和标注排歧 被引量:11
3
作者 刘颖 《计算机工程与设计》 CSCD 2001年第4期58-62,68,共6页
对汉语进行切分和标注,不可避免要产生歧义。文中对切分和标注阶段采用相同的模型-隐马尔柯夫模型(HMM)来消歧。在切分阶段,使用基于HMM的切分评分,而在标注阶段,使用基于HMM的词汇评分。并按最大可能原理和多结果输出... 对汉语进行切分和标注,不可避免要产生歧义。文中对切分和标注阶段采用相同的模型-隐马尔柯夫模型(HMM)来消歧。在切分阶段,使用基于HMM的切分评分,而在标注阶段,使用基于HMM的词汇评分。并按最大可能原理和多结果输出原理进行词汇评分实验,实验结果表明:用HMM对汉语进行标注排歧,正确率很高。 展开更多
关键词 隐马尔柯夫模型 汉语切分 自然语言处理 汉语标注 计算机
下载PDF
统计与规则并举的汉语词性自动标注算法 被引量:15
4
作者 张民 李生 +1 位作者 赵铁军 张艳风 《软件学报》 EI CSCD 北大核心 1998年第2期134-138,共5页
本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法.本算法引入置信区间的概念,优先采用高准确率的定量统计分析技术,然后利用规则标注剩余语料和校正部分统计标注错误.封闭和开放测试表明,在未考... 本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法.本算法引入置信区间的概念,优先采用高准确率的定量统计分析技术,然后利用规则标注剩余语料和校正部分统计标注错误.封闭和开放测试表明,在未考虑生词和汉语词错误切分的情况下,本算法的准确率为98.9%和98.1%. 展开更多
关键词 汉语词性标注 自动标注算法 语言信息处理
下载PDF
基于完全二阶隐马尔可夫模型的汉语词性标注 被引量:25
5
作者 梁以敏 黄德根 《计算机工程》 EI CAS CSCD 北大核心 2005年第10期177-179,共3页
该文基于隐马尔可夫理论,提出了一种三元词汇概率和词性概率相结合的汉语词性标注模型,并对传统的Viterbi算法进行了扩展。对统计模型中出现的数据稀疏问题,给出了基于线性插值法的平滑算法。实验表明,完全二阶隐马尔可夫模型比标准的... 该文基于隐马尔可夫理论,提出了一种三元词汇概率和词性概率相结合的汉语词性标注模型,并对传统的Viterbi算法进行了扩展。对统计模型中出现的数据稀疏问题,给出了基于线性插值法的平滑算法。实验表明,完全二阶隐马尔可夫模型比标准的二元、三元模型有更高的词性标注正确率和消歧率。 展开更多
关键词 完全二阶隐马尔可夫模型 汉语词性标注 平滑算法 VITERBI算法
下载PDF
用数据采掘方法获取汉语词性标注规则 被引量:10
6
作者 李晓黎 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2000年第12期1409-1414,共6页
从数据采掘的角度对汉语文本词性标注规则的获取进行研究 .在满足用户规定的支持度向量的前提下 ,先从候选集模式中挑选出常用模式 ;然后采掘出具有高可信度的产生式规则 .该过程完全是自动的 ,而获取的规则在表达上是明确的 ,同时又是... 从数据采掘的角度对汉语文本词性标注规则的获取进行研究 .在满足用户规定的支持度向量的前提下 ,先从候选集模式中挑选出常用模式 ;然后采掘出具有高可信度的产生式规则 .该过程完全是自动的 ,而获取的规则在表达上是明确的 ,同时又是隐含在数据中的、用户不易发现的 .实验表明 :在原有统计方法的基础上 ,利用自动获得的标注规则作为补充 ,可以提高词性标注的正确率 . 展开更多
关键词 数据采掘 中文信息处理 汉语词性标注规则
下载PDF
基于条件随机场的汉语词性标注 被引量:6
7
作者 于江德 葛彦强 余正涛 《微电子学与计算机》 CSCD 北大核心 2011年第10期63-66,共4页
近年来条件随机场广泛应用于各类序列数据标注中,汉语词性标注中应用条件随机场对上下文建模时会扩展出数以亿计的特征,在深入分析特征产生机理的基础上对特征模板集进行了优化,采用条件随机场进一步研究了汉语词性标注中设定的特征模... 近年来条件随机场广泛应用于各类序列数据标注中,汉语词性标注中应用条件随机场对上下文建模时会扩展出数以亿计的特征,在深入分析特征产生机理的基础上对特征模板集进行了优化,采用条件随机场进一步研究了汉语词性标注中设定的特征模板集、扩展出的特征数、训练后模型大小、词性标注精度等指标之间的关系.实验结果表明,优化后的特征模板集在模型训练时间、训练后模型大小、标注精度等指标上达到了整体最优. 展开更多
关键词 汉语词性标注 条件随机场 上下文 特征模板集 上下文特征
下载PDF
汉语词性标注排歧方法探讨 被引量:7
8
作者 王素格 张永奎 《计算机工程与应用》 CSCD 北大核心 2001年第7期70-72,共3页
该文将概率统计的二元模型与三元模型用于汉语词性自动标注,在算法为线性阶的时间复杂度的情况下,对20万训练集和1万的测试集,分别进行封闭测试和开放测试,对稀疏矩阵零元素及词性标注的结果做了统计分析。
关键词 中文信息处理 汉语词性标注 排歧 概率统计
下载PDF
汉语语料词性标注自动校对方法的研究 被引量:11
9
作者 钱揖丽 郑家恒 《中文信息学报》 CSCD 北大核心 2004年第2期30-35,共6页
兼类词的词类排歧是汉语语料词性标注中的难点问题 ,它严重影响语料的词性标注质量。针对这一难点问题 ,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息 ,自动生成兼类词词... 兼类词的词类排歧是汉语语料词性标注中的难点问题 ,它严重影响语料的词性标注质量。针对这一难点问题 ,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息 ,自动生成兼类词词性校对规则 ,并应用获取的规则实现对机器初始标注语料的自动校对 ,从而提高语料中兼类词的词性标注质量。分别对 5 0万汉语语料做封闭测试和开放测试 ,结果显示 ,校对后语料的兼类词词性标注正确率分别可提高 11 32 %和 5 97%。 展开更多
关键词 计算机应用 中文信息处理 兼类词 汉语词性标注 自动校对 粗糙集
下载PDF
汉语词性标注方法的研究 被引量:6
10
作者 魏欧 孙玉芳 《计算机科学》 CSCD 北大核心 2000年第7期71-75,共5页
1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关... 1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关系中。 展开更多
关键词 汉语词性标注 自然语言处理 知识库
下载PDF
基于特征的汉语词性标注模型 被引量:6
11
作者 屈刚 陆汝占 《计算机研究与发展》 EI CSCD 北大核心 2003年第4期556-561,共6页
在隐马尔可夫模型的基础上提出了基于词汇特征的汉语词性标注模型 此模型不但考虑系统t时刻的状态 (词类 )对t+1时刻的状态的影响 ,还把t时刻的观察 (词 )对t+1时刻的状态的影响考虑进去 ,使模型更加精确 由于观察的数目较大 ,构造观察... 在隐马尔可夫模型的基础上提出了基于词汇特征的汉语词性标注模型 此模型不但考虑系统t时刻的状态 (词类 )对t+1时刻的状态的影响 ,还把t时刻的观察 (词 )对t+1时刻的状态的影响考虑进去 ,使模型更加精确 由于观察的数目较大 ,构造观察 状态转移概率矩阵的方法难以实用 ,于是给观察标以特征 ,并训练特征 状态转移概率矩阵 ,使概率矩阵占用较少的存储空间 。 展开更多
关键词 隐马尔可夫模型 词汇特征 汉语词性标注模型 自然语言处理 概率矩阵 中文信息处理
下载PDF
基于搭配模式的汉语词性标注规则的获取方法 被引量:3
12
作者 王素格 张永奎 《计算机工程与应用》 CSCD 北大核心 2001年第5期56-58,共3页
文章介绍了一种基于搭配模式的汉语词性标注规则的获取方法。该方法从已标注了词性的语料库中自动获取候选搭配模式规则,然后根据可信度从候选规则中选择出大于某阈值的规则,再通过不断测试新语料来完善规则。将获取的规则用于汉语的... 文章介绍了一种基于搭配模式的汉语词性标注规则的获取方法。该方法从已标注了词性的语料库中自动获取候选搭配模式规则,然后根据可信度从候选规则中选择出大于某阈值的规则,再通过不断测试新语料来完善规则。将获取的规则用于汉语的词性标注,使标注的正确率得到了明显提高。 展开更多
关键词 语料库 搭配模式 汉语词性标注规则 自然语言处理
下载PDF
汉语词性自动标注系统的设计与实现 被引量:4
13
作者 王素格 张永奎 《计算机工程》 CAS CSCD 北大核心 2001年第3期7-8,65,共3页
介绍了汉语词性自动标注系统的设计与实现.该系统实现了统计与规则相结合的方法进行汉语词性自动标注.描述了该系统的总体结构,以及所使用的非兼类词表、兼类词表、标记集和词性标注规则的组织,特别对稀疏矩阵及其存储方法进行了详... 介绍了汉语词性自动标注系统的设计与实现.该系统实现了统计与规则相结合的方法进行汉语词性自动标注.描述了该系统的总体结构,以及所使用的非兼类词表、兼类词表、标记集和词性标注规则的组织,特别对稀疏矩阵及其存储方法进行了详细的介绍。 展开更多
关键词 汉语词性自动标注系统 自然语言理解 语料库 神经网络 设计
下载PDF
一种启发式的汉语词性标注算法 被引量:1
14
作者 付国宏 王晓龙 姜守旭 《计算机工程与设计》 CSCD 北大核心 2000年第5期61-64,共4页
描述了一种启发式的汉语词性标注算法,并采用该算法实现了一个基于统计模型的汉语词性标注系统。该算法将反向动态规划和正向A*解码算法相结合。初步的开放测试表明,该系统的词性标注正确率为95.88%(小标记集)和97.95%(大标记集),性... 描述了一种启发式的汉语词性标注算法,并采用该算法实现了一个基于统计模型的汉语词性标注系统。该算法将反向动态规划和正向A*解码算法相结合。初步的开放测试表明,该系统的词性标注正确率为95.88%(小标记集)和97.95%(大标记集),性能优于Viterbi算法。 展开更多
关键词 概率模型 汉语词性标注算法 自然语言处理
下载PDF
汉语语篇结构标注面临的挑战与对策 被引量:2
15
作者 陈莉萍 《南通大学学报(社会科学版)》 2008年第5期76-82,共7页
作为一个新的研究课题,汉语语篇结构标注面临各种挑战,如理论支撑的建立、基本语篇单位的确定、汉语语篇抽象结构的构建等。然而,国外研究者利用修辞理论进行语篇结构标注的成果为战胜这些挑战提供了一系列的对策。
关键词 汉语语篇结构标注 理论支撑 基本语篇单位 修辞关系
下载PDF
汉语词性标注特征模板设定定量分析
16
作者 郑霞 《安阳师范学院学报》 2013年第5期53-56,共4页
在利用条件随机场(CRFs)进行汉语词性标注时,特征模板的选取是非常重要的一个环节,本文设计了两组特征模板,选取Bakeoff2007的CTB、NCC、PKU三种语料,使用CRF++0.53工具包进行了对比实验,定量分析了影响词性标注的模板参数。通过实验得... 在利用条件随机场(CRFs)进行汉语词性标注时,特征模板的选取是非常重要的一个环节,本文设计了两组特征模板,选取Bakeoff2007的CTB、NCC、PKU三种语料,使用CRF++0.53工具包进行了对比实验,定量分析了影响词性标注的模板参数。通过实验得出以下结论:(1)词性标注的准确率与特征窗口大小不成正比,上文对当前词的词性的影响比下文要大,当前词的词性与其紧邻的前后两个词关系紧密;(2)产生的特征数多的模板训练较难进行;(3)词性转移特征对准确率有一定的影响。 展开更多
关键词 汉语词性标注 CRFS 特征模板
下载PDF
一个改进的基于最大熵原理的汉语词性标注系统
17
作者 刘小可 王云兰 《光盘技术》 2007年第6期17-18,共2页
本文研究了基于最大熵原理的汉语词性标注。文章采用了准确率增量驱动的上下文特征选取策略,而后采用EM算法量化了特征之间的相依程度,并将其作为概率特征引入到统一的特征表示框架;建模过程充分利用了语法词典中的知识,针对外部词汇构... 本文研究了基于最大熵原理的汉语词性标注。文章采用了准确率增量驱动的上下文特征选取策略,而后采用EM算法量化了特征之间的相依程度,并将其作为概率特征引入到统一的特征表示框架;建模过程充分利用了语法词典中的知识,针对外部词汇构造了伪事件,并将词的候选词性限制在一个特定的子集内,有效缩减了词性标记的搜索范围。文章以北京大学人民日报标记语料作为试验数据,验证了该方法的有效性。 展开更多
关键词 最大熵 特征选取 词典知识 汉语词性标注
下载PDF
基于Gate机制与Bi-LSTM-CRF的汉语语义角色标注 被引量:4
18
作者 张苗苗 张玉洁 +2 位作者 刘明童 徐金安 陈钰枫 《计算机与现代化》 2018年第4期1-6,31,共7页
目前,语义角色标注大多基于双向长短时记忆网络(Bi-LSTM)。但是,由于词向量表示由上下文窗口中的词嵌入拼接得到,导致其依赖于左右词嵌入的联合作用。针对该问题,引入Gate机制对词向量表示进行调整。为了获取更深层次的语义信息,对Bi-L... 目前,语义角色标注大多基于双向长短时记忆网络(Bi-LSTM)。但是,由于词向量表示由上下文窗口中的词嵌入拼接得到,导致其依赖于左右词嵌入的联合作用。针对该问题,引入Gate机制对词向量表示进行调整。为了获取更深层次的语义信息,对Bi-LSTM的深度进行扩展。此外,引入标签转移概率矩阵进行约束,并且使用条件随机场(CRF)融合全局标签信息得出最优标注序列。实验结果表明,该方法使得汉语语义角色标注的F1值提高1.71%。 展开更多
关键词 汉语语义角色标注 Gate机制 Bi-LSTM-CRF 标签转移概率矩阵
下载PDF
基于多层有限状态自动机的多输入汉语词性标注系统 被引量:1
19
作者 孔骏 陈玉泉 陆汝占 《计算机工程》 CAS CSCD 北大核心 2001年第2期30-31,98,共3页
将带有歧义的切分字段作为词性标注系统的输入,并在词性标注系统中引入了有限状态自动机进行部分句法分析以排除切分和标注歧义,实现了一个结合部分句法分析的汉语词性标注系统。
关键词 汉语词性标注系统 有限状态自动机 自然语言处理
下载PDF
结合池化技术和特征组的汉语语义角色标注 被引量:2
20
作者 朱傲 万福成 +1 位作者 马宁 车郭怡 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第5期906-912,共7页
利用基于统计机器学习方法进行汉语语义角色标注(Semantic Role Labeling,SRL)存在人工抽取特征工作繁琐低效、模型难以捕捉长句上下文语义信息等问题.对此,提出BiLSTM-MaxPool-CRF融合模型进行汉语SRL,同时进行模型性能优化研究.首先,... 利用基于统计机器学习方法进行汉语语义角色标注(Semantic Role Labeling,SRL)存在人工抽取特征工作繁琐低效、模型难以捕捉长句上下文语义信息等问题.对此,提出BiLSTM-MaxPool-CRF融合模型进行汉语SRL,同时进行模型性能优化研究.首先,在训练语料中融入词性、论元标记、短语句法等多层级语言学特征;然后,结合AvgPool技术对特征组进行采样选取;最后,通过多组实验结果表明,相比于未采样提取的多特征组,经过池化技术采样提取的多特征能够显著提高模型的性能. 展开更多
关键词 汉语语义角色标注 BiLSTM-CRF 池化技术 语言学特征 多特征
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部