期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
基于层叠条件随机场模型的中文机构名自动识别 被引量:112
1
作者 周俊生 戴新宇 +1 位作者 尹存燕 陈家骏 《电子学报》 EI CAS CSCD 北大核心 2006年第5期804-809,共6页
中文机构名的自动识别是自然语言处理中的一个比较困难的问题.本文提出了一种新的基于层叠条件随机场模型的中文机构名自动识别算法.该算法在低层条件随机场模型中解决对人名、地名等简单命名实体的识别,将识别结果传递到高层模型,为高... 中文机构名的自动识别是自然语言处理中的一个比较困难的问题.本文提出了一种新的基于层叠条件随机场模型的中文机构名自动识别算法.该算法在低层条件随机场模型中解决对人名、地名等简单命名实体的识别,将识别结果传递到高层模型,为高层的机构名条件随机场模型实现对复杂机构名的识别提供决策支持.文中为机构名条件随机场模型设计了有效的特征模板和特征自动选择算法.对大规模真实语料的开放测试中,召回率达到90.05%,准确率达到88.12%,性能优于其它中文机构名识别算法. 展开更多
关键词 实体 中文机构识别 条件随机场
下载PDF
一种基于词频统计的组织机构名识别方法 被引量:15
2
作者 胡万亭 杨燕 +2 位作者 尹红风 贾真 刘利 《计算机应用研究》 CSCD 北大核心 2013年第7期2014-2016,共3页
命名实体识别是自然语言处理必不可少的重要部分,其中组织机构名识别占了很大的比例。提出了基于词频统计的组织机构名识别方法。训练数据主要通过百度百科词条整理得到。训练时,利用百度百科词条名在词条文本中的频数统计进行机构构成... 命名实体识别是自然语言处理必不可少的重要部分,其中组织机构名识别占了很大的比例。提出了基于词频统计的组织机构名识别方法。训练数据主要通过百度百科词条整理得到。训练时,利用百度百科词条名在词条文本中的频数统计进行机构构成词的词频统计。在此基础上,构建了数学模型,实现了组织机构名识别算法。该识别算法集成到了中文分词中,取得了较好的识别结果,可以满足一定的实际应用需求。 展开更多
关键词 统计 词频 机构构成词 组织机构识别
下载PDF
基于支持向量机方法的中文组织机构名的识别 被引量:20
3
作者 陈霄 刘慧 陈玉泉 《计算机应用研究》 CSCD 北大核心 2008年第2期362-364,367,共4页
在应用基本的支持向量机算法的基础上,提出了一种分步递增式学习的方法,利用主动学习的策略对训练样本进行选择,逐步增大提交给学习器训练样本的规模,以提高学习器的识别精度。实验表明,采用主动学习策略的支持向量机算法是有效的,在实... 在应用基本的支持向量机算法的基础上,提出了一种分步递增式学习的方法,利用主动学习的策略对训练样本进行选择,逐步增大提交给学习器训练样本的规模,以提高学习器的识别精度。实验表明,采用主动学习策略的支持向量机算法是有效的,在实验中,中文机构名识别的正确率和召回率分别达到了81.7%和86.8%。 展开更多
关键词 机构识别 支持向量机 主动学习
下载PDF
基于特征耦合泛化的药名实体识别 被引量:11
4
作者 何林娜 杨志豪 +2 位作者 林鸿飞 李彦鹏 唐利娟 《中文信息学报》 CSCD 北大核心 2014年第2期72-77,共6页
药名识别的直接目的是从生物医学文本中寻找药名。目前,药物相关研究不断出现,远远超出了维护人员更新药物信息数据库的速度,这就迫切需要一种自动提取药物信息的技术。该文采用了一种基于特征耦合泛化(FCG)的半监督学习方法生成药名词... 药名识别的直接目的是从生物医学文本中寻找药名。目前,药物相关研究不断出现,远远超出了维护人员更新药物信息数据库的速度,这就迫切需要一种自动提取药物信息的技术。该文采用了一种基于特征耦合泛化(FCG)的半监督学习方法生成药名词典,然后将药名词典和条件随机场结合进行药名实体识别。首先我们用模板的方法构造了一个药名词典,然后用FCG方法对词典去噪,最后将去噪后的词典用在测试集上进行药名实体识别,得到了76.73%的F值。 展开更多
关键词 识别 机器学习 特征耦合泛化 CRF
下载PDF
基于SVM和CRF的双层模型中文机构名识别 被引量:13
5
作者 黄德根 李泽中 万如 《大连理工大学学报》 EI CAS CSCD 北大核心 2010年第5期782-787,共6页
提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后... 提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后将两层的识别结果合并,并通过一个后续处理对置信度较低的识别结果进行修正.大规模真实语料的开放测试表明,精确率达到94.83%,召回率达到95.02%,证明了该方法的有效性. 展开更多
关键词 机构识别 条件随机场(CRF) 支持向量机(SVM) 双层模型
下载PDF
基于CRF和规则的中文医疗机构名称识别 被引量:14
6
作者 张金龙 王石 钱存发 《计算机应用与软件》 CSCD 北大核心 2014年第3期159-162,198,共5页
中文机构名称识别是中文自然语言处理的一项重要的研究课题。以中文医疗机构名识别为目标,从因特网上抓取了30余万条机构名和1 500篇包含医疗机构名的文本语料,对医疗机构名的组成特点和上下文信息进行详细的分析,总结出若干模式、规则... 中文机构名称识别是中文自然语言处理的一项重要的研究课题。以中文医疗机构名识别为目标,从因特网上抓取了30余万条机构名和1 500篇包含医疗机构名的文本语料,对医疗机构名的组成特点和上下文信息进行详细的分析,总结出若干模式、规则和特征,最后结合条件随机场模型,建立了一个统计和规则相结合的中文医疗机构名识别模型。实验结果表明,该模型的识别效果很好。 展开更多
关键词 中文机构识别 条件随机场 实体识别 自然语言处理
下载PDF
中文名实体识别中的特征组合与特征融合的比较 被引量:7
7
作者 赵健 王晓龙 关毅 《计算机应用》 CSCD 北大核心 2005年第11期2647-2649,共3页
先分析了最大熵模型常用的特征线性组合方法中的权值偏置问题,然后提出了在线性组合之前,对特征进行融合,并根据融合特征和目标类别之间的互信息选择有效复合特征的方法。通过在包含2000个人名的语料库上的测试,表明特征融合能有效地提... 先分析了最大熵模型常用的特征线性组合方法中的权值偏置问题,然后提出了在线性组合之前,对特征进行融合,并根据融合特征和目标类别之间的互信息选择有效复合特征的方法。通过在包含2000个人名的语料库上的测试,表明特征融合能有效地提高名实体识别的精度和召回率。 展开更多
关键词 实体识别 特征组合 权值偏置 特征融合 最大熵模型
下载PDF
基于语法语义知识的维吾尔文机构名识别 被引量:7
8
作者 麦合甫热提 米日姑.肉孜 +1 位作者 麦热哈巴.艾力 吐尔根.依布拉音 《计算机工程与设计》 CSCD 北大核心 2014年第8期2944-2948,共5页
为了提高维吾尔语中机构名的自动识别准确率,从维吾尔语的语言特点出发,对维吾尔语中机构名的组织结构进行了分类并将其形式化表示;根据此特征设计出有效地识别规则,创建了特征词库、地名库和修饰词库等知识库;设计并实现了基于状态转... 为了提高维吾尔语中机构名的自动识别准确率,从维吾尔语的语言特点出发,对维吾尔语中机构名的组织结构进行了分类并将其形式化表示;根据此特征设计出有效地识别规则,创建了特征词库、地名库和修饰词库等知识库;设计并实现了基于状态转移原理的高效识别算法。实验结果表明,该算法识别的F值达到83.05%,获得了较好结果。 展开更多
关键词 自然语言处理 实体识别 机构识别 知识库 规则匹配
下载PDF
基于模板匹配的中文机构名识别 被引量:4
9
作者 李军 王丁 王鑫 《信息技术》 2008年第6期97-99,共3页
利用分词和词性标注的信息,针对未登录词中的中文机构名的组成进行了深入的分析,总结出机构名的内部组成特点,提出了基于模板匹配的中文机构名识别的方法。给出了中文机构名的模板和识别过程,介绍了机构名出现的边界条件。在开放测试中... 利用分词和词性标注的信息,针对未登录词中的中文机构名的组成进行了深入的分析,总结出机构名的内部组成特点,提出了基于模板匹配的中文机构名识别的方法。给出了中文机构名的模板和识别过程,介绍了机构名出现的边界条件。在开放测试中,中文机构名识别的精确率和召回率分别为92.1%和72.81%,取得了较好的识别结果。 展开更多
关键词 未登录词 中文机构识别 模版匹配
下载PDF
《知网》在命名实体识别中的应用研究 被引量:11
10
作者 郑逢强 林磊 +1 位作者 刘秉权 孙承杰 《中文信息学报》 CSCD 北大核心 2008年第5期97-101,共5页
命名实体识别是自然语言处理领域的一项基础研究,它对于语言的深层处理有重要意义。该文以最大熵模型为基础来进行名实体识别,提出了基于《知网》的两种改进策略来增强模型的泛化性能。第一种策略是将《知网》中词的义原作为特征加入到... 命名实体识别是自然语言处理领域的一项基础研究,它对于语言的深层处理有重要意义。该文以最大熵模型为基础来进行名实体识别,提出了基于《知网》的两种改进策略来增强模型的泛化性能。第一种策略是将《知网》中词的义原作为特征加入到最大熵模型中;第二种策略是利用《知网》来计算最大熵模型中词特征之间的概念相似度。在北京大学《人民日报》语料上的实验结果表明第一种策略可以有效地提高名实体识别的性能,第二种策略的改进效果不明显。 展开更多
关键词 计算机应用 中文信息处理 实体识别 概念相似度 《知网》 最大熵模型
下载PDF
中文名实体识别:基于词触发对的条件随机域方法 被引量:3
11
作者 赵健 王晓龙 +1 位作者 关毅 徐志明 《高技术通讯》 CAS CSCD 北大核心 2006年第8期795-801,共7页
首次把条件随机域(CRF)模型应用到了中文名实体识别中,且根据中文的特点,定义了多种特征模板。同时,为了解决长距离约束问题,将词语触发对融合到了CRF模型中。提出了基于词语方差(word variance)的选词方法,在词语相关性计算... 首次把条件随机域(CRF)模型应用到了中文名实体识别中,且根据中文的特点,定义了多种特征模板。同时,为了解决长距离约束问题,将词语触发对融合到了CRF模型中。提出了基于词语方差(word variance)的选词方法,在词语相关性计算上,采用了平均互信息(AMI)方法和χ^2统计量方法。通过在半年人民日报上的测试,结果表明在采用相同特征集合的条件下,条件随机域模型较其他概率模型有更好的性能表现;融合长距离触发对的条件随机域模型可以使系统的F量度提高约1.38%。 展开更多
关键词 中文实体识别 概率模型 条件随机域 词语触发对 信息抽取 自然语言处理
下载PDF
基于向量相似度计算的半监督的名实体识别 被引量:1
12
作者 谭红叶 赵铁军 王浩畅 《计算机工程与设计》 CSCD 北大核心 2008年第19期5047-5050,共4页
提出一种基于向量相似度计算的半监督的NER方法,主要思想是:首先利用bootstrapping方法获取NER所需的各种特征;然后将待测实例表示为实例特征向量,每一类名实体表示为类特征向量;最后根据每个类特征向量与实例特征向量的相似度进行分类... 提出一种基于向量相似度计算的半监督的NER方法,主要思想是:首先利用bootstrapping方法获取NER所需的各种特征;然后将待测实例表示为实例特征向量,每一类名实体表示为类特征向量;最后根据每个类特征向量与实例特征向量的相似度进行分类。在人民日报语料上选取疾病名、武器名、交通工具名进行相关测试,F测度分别为:77.4%,66.1%和73.1%,结果令人满意。 展开更多
关键词 实体识别 特征向量 向量相似度 半监督学习 自举
下载PDF
依存关系上的中文名词性谓词识别研究 被引量:1
13
作者 王红玲 袁晓虹 +1 位作者 王步康 周国栋 《计算机工程与应用》 CSCD 北大核心 2011年第20期113-116,共4页
首次实现了一个基于依存关系的中文名词性谓词识别平台,作为语义角色标注的前提,谓词识别的结果直接影响语义角色标注的性能。使用两种方法进行实验:一种是基于传统的特征向量的方法在Chinese Nombank的转换语料上进行了系统实验,对各... 首次实现了一个基于依存关系的中文名词性谓词识别平台,作为语义角色标注的前提,谓词识别的结果直接影响语义角色标注的性能。使用两种方法进行实验:一种是基于传统的特征向量的方法在Chinese Nombank的转换语料上进行了系统实验,对各种词法特征、结构特征及其组合进行了测试,标准语料上F1值达到89.65,自动语料上达到81.27。另一种是使用树核的方法进行探索性实验,在标准语料和自动语料上分别得到84.62和80.93的F1值。 展开更多
关键词 词性谓词识别 依存关系 语义角色标注 树核
下载PDF
结合多特征的支持向量机中文组织机构名识别模型 被引量:2
14
作者 冯丽萍 焦莉娟 《现代计算机》 2010年第7期24-27,共4页
以支持向量机(SVM)为基本框架,提出一种结合多特征的支持向量机中文组织机构名识别模型。考虑中文组织机构名的特点,抽取局部特征与全局特征,并将特征向量转化为二进制表示,在此基础上建立训练集。基于1998年《人民日报》语料的实验结... 以支持向量机(SVM)为基本框架,提出一种结合多特征的支持向量机中文组织机构名识别模型。考虑中文组织机构名的特点,抽取局部特征与全局特征,并将特征向量转化为二进制表示,在此基础上建立训练集。基于1998年《人民日报》语料的实验结果表明,该混合模型对中文组织机构名的识别是有效的。同时基于不同测试数据的实验结果表明,该模型对不同测试数据源具有一致性。 展开更多
关键词 支持向量机 中文组织机构识别 全局特征 局部特征
下载PDF
基于最大熵的蒙古文人名识别系统的设计与实现
15
作者 通拉嘎 刘凯 李佳正 《图书馆理论与实践》 CSSCI 北大核心 2015年第5期96-98,共3页
最大熵模型能充分利用上下文,灵活取用多个特征。使用最大熵模型进行蒙古文人名识别,分析蒙古文人名结构及上下文环境,根据语言特点设计特征模板,建立粗选特征集;建立人名知识库,提取精选特征集,训练最大熵模型;实验结果证明,本系统能... 最大熵模型能充分利用上下文,灵活取用多个特征。使用最大熵模型进行蒙古文人名识别,分析蒙古文人名结构及上下文环境,根据语言特点设计特征模板,建立粗选特征集;建立人名知识库,提取精选特征集,训练最大熵模型;实验结果证明,本系统能有效识别蒙古文人名,开放测试的正确率达到94.56%,召回率达到85.15%,F值达到89.61%,识别效果较为理想。 展开更多
关键词 信息处理 蒙古文人识别 最大熵
下载PDF
基于统计的中文机构名实体识别的研究 被引量:1
16
作者 刘杰 《佳木斯大学学报(自然科学版)》 CAS 2010年第3期349-351,共3页
针对中文机构名实体的识别提出了利用隐马尔科夫统计模型的方法.同时,在此方法的基础上通过构建一元模型来补充识别那些缩写的和没有核心词的机构名,弥补了单一统计模型在机构名实体识别中的不足.实验证明二者相结合的方法能获得较高的... 针对中文机构名实体的识别提出了利用隐马尔科夫统计模型的方法.同时,在此方法的基础上通过构建一元模型来补充识别那些缩写的和没有核心词的机构名,弥补了单一统计模型在机构名实体识别中的不足.实验证明二者相结合的方法能获得较高的准确率和召回率,具有可行性. 展开更多
关键词 隐马尔科夫模型 中文机构实体识别 一元模型 准确率 召回率
下载PDF
基于最大熵的中文组织机构名识别模型 被引量:2
17
作者 冯丽萍 焦莉娟 《计算机与数字工程》 2010年第12期36-40,共5页
中文组织机构名识别的精确率一直是影响自然语言处理的因素之一.根据中文组织机构名的特点,提出采用最大熵的识别方法.实验系统在较大规模的数据集上对比了不同特征选择方法对模型的影响,同时考查了词面、词性、语法等信息对模型的贡献... 中文组织机构名识别的精确率一直是影响自然语言处理的因素之一.根据中文组织机构名的特点,提出采用最大熵的识别方法.实验系统在较大规模的数据集上对比了不同特征选择方法对模型的影响,同时考查了词面、词性、语法等信息对模型的贡献.实验结果表明,不同的特征选择算法,开放测试的平均值只相差0.2~0.5个百分点. 展开更多
关键词 最大熵 中文组织机构 识别模型 Chinese MAXIMUM ENTROPY Based 自然语言处理 特征选择算法 机构识别 选择方法 实验系统 实验结果 识别方法 数据集 平均值 精确率 语法 信息 相差 特点
下载PDF
基于条件随机场的维吾尔文机构名识别 被引量:5
18
作者 买合木提.买买提 王路路 +2 位作者 吐尔根.依布拉音 艾山.吾买尔 卡哈尔江.阿比的热西提 《计算机工程与设计》 北大核心 2019年第1期273-278,共6页
为缓解目前维吾尔文机构名识别方法依赖于人工编写规则、识别效率低的问题,提出一种基于条件随机场模型(CRF)的维吾尔文机构名识别方法。根据维吾尔语的语言特性,结合词、词性、音节、机构名特征词表、地名词表等特征,实现维吾尔文机构... 为缓解目前维吾尔文机构名识别方法依赖于人工编写规则、识别效率低的问题,提出一种基于条件随机场模型(CRF)的维吾尔文机构名识别方法。根据维吾尔语的语言特性,结合词、词性、音节、机构名特征词表、地名词表等特征,实现维吾尔文机构名识别。实验结果表明,相比于基于规则的方法和隐马尔科夫模型(HMM),该方法不依赖于人工编写规则,识别的准确率和召回率较高。 展开更多
关键词 实体 机构识别 维吾尔语 条件随机场 黏着语
下载PDF
基于组合深度模型的现代汉语数量名短语识别 被引量:2
19
作者 施寒瑜 曲维光 +2 位作者 魏庭新 周俊生 顾彦慧 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2022年第1期127-135,共9页
数量名短语的识别是识别由数量短语修饰的名词短语左右边界的研究.以往研究中,基于统计学习模型的数量短语识别方法依赖人工特征,需要通过专家知识构建知识库来实现对“数词+量词”短语的识别.本文在以往研究基础上纳入“名词”形成“数... 数量名短语的识别是识别由数量短语修饰的名词短语左右边界的研究.以往研究中,基于统计学习模型的数量短语识别方法依赖人工特征,需要通过专家知识构建知识库来实现对“数词+量词”短语的识别.本文在以往研究基础上纳入“名词”形成“数词+量词+名词”等八类数量名短语,并采用深度学习方法解决这一边界识别任务.通过BERT模型对原始文本进行上下文特征表示,利用Lattice LSTM模型字词结合的思想将标准分词作为软特征融入文本字符级的特征表示中,最后通过CRF全局约束识别数量名短语边界.实验结果表明,本文方法在AMR语料上达到较优结果,精确率、召回率、F1值分别为80.83%,89.78%,85.07%. 展开更多
关键词 数量短语识别 BERT Lattice LSTM CRF
下载PDF
利用未标注语料改进实体名识别性能 被引量:3
20
作者 陈宁昱 周雅倩 +1 位作者 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2005年第2期7-11,27,共6页
本文主要介绍了一个利用最大熵进行实体名识别的系统以及所采用的模型和选取的特征。这些特征包括单词本身的词法词态特征和上下文信息。利用这些在任何语言的文本上都极易获得的特征 ,我们采用最大熵分类器构建了一个基准系统。在此基... 本文主要介绍了一个利用最大熵进行实体名识别的系统以及所采用的模型和选取的特征。这些特征包括单词本身的词法词态特征和上下文信息。利用这些在任何语言的文本上都极易获得的特征 ,我们采用最大熵分类器构建了一个基准系统。在此基础上 ,我们首先通过网络资源建立了实体名词典知识库 ;并利用词典和基准系统在未标注语料上抽取出现的实体名作为辅助的训练语料 ;最后再将这些语料加入训练。实验结果表明 ,辅助的训练语料能够在一定程度上提高系统的性能。 展开更多
关键词 计算机应用 中文信息处理 实体识别 最大熵 未标注语料
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部