期刊文献+
共找到98篇文章
< 1 2 5 >
每页显示 20 50 100
一种基于词频统计的组织机构名识别方法 被引量:15
1
作者 胡万亭 杨燕 +2 位作者 尹红风 贾真 刘利 《计算机应用研究》 CSCD 北大核心 2013年第7期2014-2016,共3页
命名实体识别是自然语言处理必不可少的重要部分,其中组织机构名识别占了很大的比例。提出了基于词频统计的组织机构名识别方法。训练数据主要通过百度百科词条整理得到。训练时,利用百度百科词条名在词条文本中的频数统计进行机构构成... 命名实体识别是自然语言处理必不可少的重要部分,其中组织机构名识别占了很大的比例。提出了基于词频统计的组织机构名识别方法。训练数据主要通过百度百科词条整理得到。训练时,利用百度百科词条名在词条文本中的频数统计进行机构构成词的词频统计。在此基础上,构建了数学模型,实现了组织机构名识别算法。该识别算法集成到了中文分词中,取得了较好的识别结果,可以满足一定的实际应用需求。 展开更多
关键词 统计 词频 机构名构成词 组织机构名识别
下载PDF
基于最大熵的中文组织机构名识别模型 被引量:2
2
作者 冯丽萍 焦莉娟 《计算机与数字工程》 2010年第12期36-40,共5页
中文组织机构名识别的精确率一直是影响自然语言处理的因素之一.根据中文组织机构名的特点,提出采用最大熵的识别方法.实验系统在较大规模的数据集上对比了不同特征选择方法对模型的影响,同时考查了词面、词性、语法等信息对模型的贡献... 中文组织机构名识别的精确率一直是影响自然语言处理的因素之一.根据中文组织机构名的特点,提出采用最大熵的识别方法.实验系统在较大规模的数据集上对比了不同特征选择方法对模型的影响,同时考查了词面、词性、语法等信息对模型的贡献.实验结果表明,不同的特征选择算法,开放测试的平均值只相差0.2~0.5个百分点. 展开更多
关键词 最大熵 中文组织机构名 识别模型 Chinese MAXIMUM ENTROPY Based 自然语言处理 特征选择算法 机构名识别 选择方法 实验系统 实验结果 识别方法 数据集 平均值 精确率 语法 信息 相差 特点
下载PDF
基于网页信息和分词的中文机构名全称和简称提取方法 被引量:3
3
作者 张俊玲 耿光刚 +1 位作者 延志伟 李晓东 《计算机应用研究》 CSCD 北大核心 2017年第4期972-976,共5页
搜索引擎在处理全称和简称的对应关系时,以往只能通过人工添加,造成简称遗漏、搜索结果召回率低等问题。为此,提出了一种自动获取机构全称和简称的方法。根据域名地址获取机构网站首页源代码,从中提取相应机构全称,再结合机构名上下文... 搜索引擎在处理全称和简称的对应关系时,以往只能通过人工添加,造成简称遗漏、搜索结果召回率低等问题。为此,提出了一种自动获取机构全称和简称的方法。根据域名地址获取机构网站首页源代码,从中提取相应机构全称,再结合机构名上下文特征词集合从中提取候选简称,最后计算候选简称与全称的相似度确定最终简称。通过对1 287个组织机构网站的实验,全称提取正确率达93.9%,简称召回率和正确率分别达85.3%和90.8%,实验表明该方法效果良好。 展开更多
关键词 机构名简称提取 机构名全称提取 网页分析 简称相似度计算
下载PDF
基于层叠条件随机场模型的中文机构名自动识别 被引量:112
4
作者 周俊生 戴新宇 +1 位作者 尹存燕 陈家骏 《电子学报》 EI CAS CSCD 北大核心 2006年第5期804-809,共6页
中文机构名的自动识别是自然语言处理中的一个比较困难的问题.本文提出了一种新的基于层叠条件随机场模型的中文机构名自动识别算法.该算法在低层条件随机场模型中解决对人名、地名等简单命名实体的识别,将识别结果传递到高层模型,为高... 中文机构名的自动识别是自然语言处理中的一个比较困难的问题.本文提出了一种新的基于层叠条件随机场模型的中文机构名自动识别算法.该算法在低层条件随机场模型中解决对人名、地名等简单命名实体的识别,将识别结果传递到高层模型,为高层的机构名条件随机场模型实现对复杂机构名的识别提供决策支持.文中为机构名条件随机场模型设计了有效的特征模板和特征自动选择算法.对大规模真实语料的开放测试中,召回率达到90.05%,准确率达到88.12%,性能优于其它中文机构名识别算法. 展开更多
关键词 实体 中文机构名识别 条件随机场
下载PDF
基于支持向量机方法的中文组织机构名的识别 被引量:19
5
作者 陈霄 刘慧 陈玉泉 《计算机应用研究》 CSCD 北大核心 2008年第2期362-364,367,共4页
在应用基本的支持向量机算法的基础上,提出了一种分步递增式学习的方法,利用主动学习的策略对训练样本进行选择,逐步增大提交给学习器训练样本的规模,以提高学习器的识别精度。实验表明,采用主动学习策略的支持向量机算法是有效的,在实... 在应用基本的支持向量机算法的基础上,提出了一种分步递增式学习的方法,利用主动学习的策略对训练样本进行选择,逐步增大提交给学习器训练样本的规模,以提高学习器的识别精度。实验表明,采用主动学习策略的支持向量机算法是有效的,在实验中,中文机构名识别的正确率和召回率分别达到了81.7%和86.8%。 展开更多
关键词 机构名识别 支持向量机 主动学习
下载PDF
采用主动学习策略的组织机构名识别 被引量:12
6
作者 冯冲 陈肇雄 黄河燕 《小型微型计算机系统》 CSCD 北大核心 2006年第4期710-714,共5页
组织机构名等命名实体的识别是信息抽取、机器翻译等任务的重要基础.为了克服识别器训练过程中对标注数据的依赖,本文提出了一种基于主动学习的训练策略,改进了基本的最大熵模型的解码算法和训练过程.实验表明采用主动学习策略的最大熵... 组织机构名等命名实体的识别是信息抽取、机器翻译等任务的重要基础.为了克服识别器训练过程中对标注数据的依赖,本文提出了一种基于主动学习的训练策略,改进了基本的最大熵模型的解码算法和训练过程.实验表明采用主动学习策略的最大熵模型训练算法能够有效减少标注数据的使用. 展开更多
关键词 主动学习 实体识别 最大熵模型 组织机构名
下载PDF
基于SVM和CRF的双层模型中文机构名识别 被引量:13
7
作者 黄德根 李泽中 万如 《大连理工大学学报》 EI CAS CSCD 北大核心 2010年第5期782-787,共6页
提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后... 提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后将两层的识别结果合并,并通过一个后续处理对置信度较低的识别结果进行修正.大规模真实语料的开放测试表明,精确率达到94.83%,召回率达到95.02%,证明了该方法的有效性. 展开更多
关键词 机构名识别 条件随机场(CRF) 支持向量机(SVM) 双层模型
下载PDF
基于CRF和规则的中文医疗机构名称识别 被引量:14
8
作者 张金龙 王石 钱存发 《计算机应用与软件》 CSCD 北大核心 2014年第3期159-162,198,共5页
中文机构名称识别是中文自然语言处理的一项重要的研究课题。以中文医疗机构名识别为目标,从因特网上抓取了30余万条机构名和1 500篇包含医疗机构名的文本语料,对医疗机构名的组成特点和上下文信息进行详细的分析,总结出若干模式、规则... 中文机构名称识别是中文自然语言处理的一项重要的研究课题。以中文医疗机构名识别为目标,从因特网上抓取了30余万条机构名和1 500篇包含医疗机构名的文本语料,对医疗机构名的组成特点和上下文信息进行详细的分析,总结出若干模式、规则和特征,最后结合条件随机场模型,建立了一个统计和规则相结合的中文医疗机构名识别模型。实验结果表明,该模型的识别效果很好。 展开更多
关键词 中文机构名识别 条件随机场 实体识别 自然语言处理
下载PDF
基于HMM的中国组织机构名自动识别 被引量:18
9
作者 郑家恒 张辉 《计算机应用》 CSCD 北大核心 2002年第11期1-2,25,共3页
以 2 0 0 0年 11~ 12月《人民日报》网页中涉及社会、经济、法律等内容的 5 0万汉字语料为基础 ,利用基于隐马尔可夫模型并结合概率估值公式来评价在真实文本中构成组织机构名的能力 ,实现了中国组织机构名自动识别系统。实验研究表明... 以 2 0 0 0年 11~ 12月《人民日报》网页中涉及社会、经济、法律等内容的 5 0万汉字语料为基础 ,利用基于隐马尔可夫模型并结合概率估值公式来评价在真实文本中构成组织机构名的能力 ,实现了中国组织机构名自动识别系统。实验研究表明准确率达 89%,召回率为 94 .5 %。 展开更多
关键词 HMM 中国组织机构名 自动识别 隐马尔可夫模型 中文信息处理
下载PDF
基于Tri-training半监督学习的中文组织机构名识别 被引量:4
10
作者 蔡月红 朱倩 程显毅 《计算机应用研究》 CSCD 北大核心 2010年第1期193-195,共3页
针对中文组织机构名识别中的标注语料匮乏问题,提出了一种基于协同训练机制的组织机构名识别方法。该算法利用Tri-training学习方式将基于条件随机场的分类器、基于支持向量机的分类器和基于记忆学习方法的分类器组合成一个分类体系,并... 针对中文组织机构名识别中的标注语料匮乏问题,提出了一种基于协同训练机制的组织机构名识别方法。该算法利用Tri-training学习方式将基于条件随机场的分类器、基于支持向量机的分类器和基于记忆学习方法的分类器组合成一个分类体系,并依据最优效用选择策略进行新加入样本的选择。在大规模真实语料上与co-training方法进行了比较实验,实验结果表明,此方法能有效利用大量未标注语料提高算法的泛化能力。 展开更多
关键词 中文组织机构名 半监督学习 协同训练 Tri—training
下载PDF
中文问答系统中机构名的处理 被引量:2
11
作者 韦向峰 张全 +1 位作者 吴晨 袁毅 《计算机工程与应用》 CSCD 北大核心 2008年第7期196-198,205,共4页
探讨问句中机构名的处理,并服务于中文问答系统。采用概念层次网络理论的语义概念分析方法分析问句,去掉与机构名无关的概念词语,得到候选机构名。对机构名全称库按字索引,在库中搜索出与候选机构名匹配的机构名全称并按拟合权值排序。... 探讨问句中机构名的处理,并服务于中文问答系统。采用概念层次网络理论的语义概念分析方法分析问句,去掉与机构名无关的概念词语,得到候选机构名。对机构名全称库按字索引,在库中搜索出与候选机构名匹配的机构名全称并按拟合权值排序。实验结果表明该方法识别机构名的正确率达到90.6%,支持对机构名简称的处理。 展开更多
关键词 问答系统 机构名 概念层次网络 按字索引
下载PDF
基于语法语义知识的维吾尔文机构名识别 被引量:7
12
作者 麦合甫热提 米日姑.肉孜 +1 位作者 麦热哈巴.艾力 吐尔根.依布拉音 《计算机工程与设计》 CSCD 北大核心 2014年第8期2944-2948,共5页
为了提高维吾尔语中机构名的自动识别准确率,从维吾尔语的语言特点出发,对维吾尔语中机构名的组织结构进行了分类并将其形式化表示;根据此特征设计出有效地识别规则,创建了特征词库、地名库和修饰词库等知识库;设计并实现了基于状态转... 为了提高维吾尔语中机构名的自动识别准确率,从维吾尔语的语言特点出发,对维吾尔语中机构名的组织结构进行了分类并将其形式化表示;根据此特征设计出有效地识别规则,创建了特征词库、地名库和修饰词库等知识库;设计并实现了基于状态转移原理的高效识别算法。实验结果表明,该算法识别的F值达到83.05%,获得了较好结果。 展开更多
关键词 自然语言处理 实体识别 机构名识别 知识库 规则匹配
下载PDF
基于模板匹配的中文机构名识别 被引量:4
13
作者 李军 王丁 王鑫 《信息技术》 2008年第6期97-99,共3页
利用分词和词性标注的信息,针对未登录词中的中文机构名的组成进行了深入的分析,总结出机构名的内部组成特点,提出了基于模板匹配的中文机构名识别的方法。给出了中文机构名的模板和识别过程,介绍了机构名出现的边界条件。在开放测试中... 利用分词和词性标注的信息,针对未登录词中的中文机构名的组成进行了深入的分析,总结出机构名的内部组成特点,提出了基于模板匹配的中文机构名识别的方法。给出了中文机构名的模板和识别过程,介绍了机构名出现的边界条件。在开放测试中,中文机构名识别的精确率和召回率分别为92.1%和72.81%,取得了较好的识别结果。 展开更多
关键词 未登录词 中文机构名识别 模版匹配
下载PDF
中国组织机构名自动识别系统的设计与实现 被引量:7
14
作者 张辉 徐健 《电脑开发与应用》 2002年第1期5-6,9,共3页
以搜狐网站的 2 0 0 0年 11~ 12月人民日报网页中涉及社会、经济、法律等内容的 5 0万汉字语料为基础 ,首先利用基于隐马尔可夫模型进行初识别 ,然后建立了一定规模的规则集 ,实现了中国组织机构名自动识别系统。经测试准确率达 89% ,... 以搜狐网站的 2 0 0 0年 11~ 12月人民日报网页中涉及社会、经济、法律等内容的 5 0万汉字语料为基础 ,首先利用基于隐马尔可夫模型进行初识别 ,然后建立了一定规模的规则集 ,实现了中国组织机构名自动识别系统。经测试准确率达 89% ,召回率为 94 .5 %。 展开更多
关键词 专用 隐马尔可夫模型 自动识别系统 中国组织机构名 计算机
下载PDF
基于统计的中文机构名实体识别的研究 被引量:1
15
作者 刘杰 《佳木斯大学学报(自然科学版)》 CAS 2010年第3期349-351,共3页
针对中文机构名实体的识别提出了利用隐马尔科夫统计模型的方法.同时,在此方法的基础上通过构建一元模型来补充识别那些缩写的和没有核心词的机构名,弥补了单一统计模型在机构名实体识别中的不足.实验证明二者相结合的方法能获得较高的... 针对中文机构名实体的识别提出了利用隐马尔科夫统计模型的方法.同时,在此方法的基础上通过构建一元模型来补充识别那些缩写的和没有核心词的机构名,弥补了单一统计模型在机构名实体识别中的不足.实验证明二者相结合的方法能获得较高的准确率和召回率,具有可行性. 展开更多
关键词 隐马尔科夫模型 中文机构名实体识别 一元模型 准确率 召回率
下载PDF
结合多特征的支持向量机中文组织机构名识别模型 被引量:2
16
作者 冯丽萍 焦莉娟 《现代计算机》 2010年第7期24-27,共4页
以支持向量机(SVM)为基本框架,提出一种结合多特征的支持向量机中文组织机构名识别模型。考虑中文组织机构名的特点,抽取局部特征与全局特征,并将特征向量转化为二进制表示,在此基础上建立训练集。基于1998年《人民日报》语料的实验结... 以支持向量机(SVM)为基本框架,提出一种结合多特征的支持向量机中文组织机构名识别模型。考虑中文组织机构名的特点,抽取局部特征与全局特征,并将特征向量转化为二进制表示,在此基础上建立训练集。基于1998年《人民日报》语料的实验结果表明,该混合模型对中文组织机构名的识别是有效的。同时基于不同测试数据的实验结果表明,该模型对不同测试数据源具有一致性。 展开更多
关键词 支持向量机 中文组织机构名识别 全局特征 局部特征
下载PDF
寻路算法在中文金融机构名匹配中的应用
17
作者 尹驰东 黄生叶 鄂智丰 《计算技术与自动化》 2011年第2期83-88,共6页
在对大量银行机构名分析之后,采用分支限界策略[3],来得到这个将机构名定位的寻路算法(PFA,Pathfinding algorithm)。基本思路是:将中文金融机构名分成银行名、省名、市名和尾部混合名四部分,逐层剥离,去类型关键字,然后分别匹配来获取... 在对大量银行机构名分析之后,采用分支限界策略[3],来得到这个将机构名定位的寻路算法(PFA,Pathfinding algorithm)。基本思路是:将中文金融机构名分成银行名、省名、市名和尾部混合名四部分,逐层剥离,去类型关键字,然后分别匹配来获取一系列原始匹配矩阵系数,再根据分支限界思想逐步修正匹配矩阵,最终得到最优解。该应用不使用数据库,纯程序语言处理,匹配精确高。 展开更多
关键词 机构名匹配 分段匹配 组织机构名称识别 寻路算法 分支限界策略
下载PDF
CCRF与规则相结合的中文机构名识别 被引量:6
18
作者 杨晓东 晏立 尤慧丽 《计算机工程》 CAS CSCD 北大核心 2011年第8期169-171,174,共4页
针对复杂机构名难以识别的问题,提出一种CCRF与规则相结合的识别方法。以CCRF为基础,利用特征融合设计特征模板,融合相应有效规则库,为复杂机构名识别提供决策。对1998年1月的《人民日报》语料库进行开放测试,实验结果显示,机构名识别... 针对复杂机构名难以识别的问题,提出一种CCRF与规则相结合的识别方法。以CCRF为基础,利用特征融合设计特征模板,融合相应有效规则库,为复杂机构名识别提供决策。对1998年1月的《人民日报》语料库进行开放测试,实验结果显示,机构名识别的准确率为89.92%,召回率为91.41%,F1值为90.66%。 展开更多
关键词 机构名 条件随机场 规则库 语料库 识别
下载PDF
基于条件随机场的维吾尔文机构名识别 被引量:5
19
作者 买合木提.买买提 王路路 +2 位作者 吐尔根.依布拉音 艾山.吾买尔 卡哈尔江.阿比的热西提 《计算机工程与设计》 北大核心 2019年第1期273-278,共6页
为缓解目前维吾尔文机构名识别方法依赖于人工编写规则、识别效率低的问题,提出一种基于条件随机场模型(CRF)的维吾尔文机构名识别方法。根据维吾尔语的语言特性,结合词、词性、音节、机构名特征词表、地名词表等特征,实现维吾尔文机构... 为缓解目前维吾尔文机构名识别方法依赖于人工编写规则、识别效率低的问题,提出一种基于条件随机场模型(CRF)的维吾尔文机构名识别方法。根据维吾尔语的语言特性,结合词、词性、音节、机构名特征词表、地名词表等特征,实现维吾尔文机构名识别。实验结果表明,相比于基于规则的方法和隐马尔科夫模型(HMM),该方法不依赖于人工编写规则,识别的准确率和召回率较高。 展开更多
关键词 实体 机构名识别 维吾尔语 条件随机场 黏着语
下载PDF
采用上下文特征匹配的中文机构名简称识别 被引量:4
20
作者 郝娟 杨静 《小型微型计算机系统》 CSCD 北大核心 2015年第7期1432-1437,共6页
现有识别机构名简称的方法多依赖全称,也依赖简称的组成形式.针对这两个问题,提出一种采用上下文特征匹配的机构名简称识别方法.本文提出的上下文特征分为机构名独有特征和干扰词与机构名相交特征,每一个特征赋予一个错误率权重,在不同... 现有识别机构名简称的方法多依赖全称,也依赖简称的组成形式.针对这两个问题,提出一种采用上下文特征匹配的机构名简称识别方法.本文提出的上下文特征分为机构名独有特征和干扰词与机构名相交特征,每一个特征赋予一个错误率权重,在不同错误率范围内,采用上下文特征匹配算法识别机构名简称.还通过建立干扰词表和扩展操作,进一步提高了识别的准确率与召回率.实验中,本文方法在封闭数据集上的F值达到92.23%.利用封闭数据集训练的特征和干扰词,在开放测试集上的F值取得70.28%.最后,与依赖全称生成简称的识别方法进行对比,本文方法识别出有匹配全称的简称和无匹配全称的简称,比依赖全称的识别方法有更好的效果. 展开更多
关键词 机构名简称 上下文特征 相交特征 独有特征 特征匹配算法 干扰词
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部