期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
汉语未登录词识别现状及一种新识别方法介绍 被引量:3
1
作者 王蕾 杨季文 《计算机应用与软件》 CSCD 北大核心 2007年第8期213-215,共3页
未登录词的识别对于各种汉语处理系统不仅有直接的实用意义,而且起到基础性的作用。在大规模中文文本的自动分词中,未被识别的未登录词是造成分词错误的一个重要原因,也成为许多自动分词系统走向应用的瓶颈。首先对未登录词的研究现状... 未登录词的识别对于各种汉语处理系统不仅有直接的实用意义,而且起到基础性的作用。在大规模中文文本的自动分词中,未被识别的未登录词是造成分词错误的一个重要原因,也成为许多自动分词系统走向应用的瓶颈。首先对未登录词的研究现状及现有方法做了一个综合的介绍,分析了目前方案的利弊。在此基础上提出了一个基于框架结构的未登录词专有名词识别方法。 展开更多
关键词 专有名词识别 属性标注 错误驱动 规则和实例
下载PDF
基于实例和错误驱动的规则学习方法及其应用 被引量:1
2
作者 王蕾 朱巧明 +1 位作者 李培峰 杨季文 《计算机应用与软件》 CSCD 北大核心 2008年第1期162-164,共3页
提出了一种基于实例和错误驱动相结合的规则学习方法。该方法首先将提取的文本中的语法结构信息作为实例,然后采用基于转换的错误驱动学习方法找出这些实例的适用上下文环境,从而建立相应的规则库。此方法提取出的规则完全采用机器学习... 提出了一种基于实例和错误驱动相结合的规则学习方法。该方法首先将提取的文本中的语法结构信息作为实例,然后采用基于转换的错误驱动学习方法找出这些实例的适用上下文环境,从而建立相应的规则库。此方法提取出的规则完全采用机器学习的方式,避免了人工提取规则的主观性缺点。可用于诸如词性标注、未登录词识别、命名实体抽取等自然语言研究课题。 展开更多
关键词 规则学习 中文信息处理 专有名词识别
下载PDF
一种基于框架结构的专有名词自动识别方法
3
作者 王蕾 李培峰 +1 位作者 朱巧明 杨季文 《计算机工程与科学》 CSCD 2007年第7期141-144,154,共5页
本文提出了一种基于框架结构的专有名词统一识别方法。该方法首先根据专有名词的成词特点及出现的上下文环境,重新定义语料属性;然后,提出了属性标注点(AP)的概念,对训练语料进行初次标注,并采用错误驱动的学习方法来获取规则;最后,结... 本文提出了一种基于框架结构的专有名词统一识别方法。该方法首先根据专有名词的成词特点及出现的上下文环境,重新定义语料属性;然后,提出了属性标注点(AP)的概念,对训练语料进行初次标注,并采用错误驱动的学习方法来获取规则;最后,结合规则和实例对文本进行专名识别。实验表明,该方法在测试样本集上准确率最高可以达到92.3%,召回率最高可以达到80.4%,是一种有效的专有名词识别方法。 展开更多
关键词 专有名词识别 框架结构 属性标注 错误驱动 规则和实例
下载PDF
基于属性标记的专有名词自动识别研究
4
作者 王蕾 杨季文 《计算机技术与发展》 2006年第11期195-198,共4页
提出了一种新的基于属性标记的专有名词统一识别方法。其基本思想是:根据专有名词的成词特点,利用标注语料库,设定词语属性作为标准属性重新进行标注,在此语料基础上进行专有名词成词结构、成词环境的实例提取,并采用基于转换的错误驱... 提出了一种新的基于属性标记的专有名词统一识别方法。其基本思想是:根据专有名词的成词特点,利用标注语料库,设定词语属性作为标准属性重新进行标注,在此语料基础上进行专有名词成词结构、成词环境的实例提取,并采用基于转换的错误驱动方法对提取的实例进行适用规则提取。在提取的实例和规则的基础上进行属性标注,是一种基于转换的错误驱动规则自学习方法与基于实例的学习方法相结合的基于浅层句法分析的一种新的识别专有名词的方法。实验证明该方法在测试样本集上准确率达到95.3%,召回率达到92.5%,是一种有效的专有名词识别方法。 展开更多
关键词 中文专有名词识别 未登录词识别 属性标注 基于转换的错误驱动学习方法
下载PDF
基于小句相似度计算的专有名词识别 被引量:1
5
作者 朱丽丽 郑家恒 《通讯和计算机(中英文版)》 2006年第6期18-22,35,共6页
专有名词识别是中文信息处理领域的一个难题。句子相似度计算方法在中文信息处理领域有着广泛的应用。本文探索性地使用句子相似度计算方法来解决专有名词识别问题,并针对专有名词识别的研究背景对小句相似度计算方法做了一些改进,改... 专有名词识别是中文信息处理领域的一个难题。句子相似度计算方法在中文信息处理领域有着广泛的应用。本文探索性地使用句子相似度计算方法来解决专有名词识别问题,并针对专有名词识别的研究背景对小句相似度计算方法做了一些改进,改进的计算方法不仅考虑了公共字符,而且还加入了语义信息和结构信息。实验证明该方法是可行的。 展开更多
关键词 中文信息处理 专有名词识别 句子相似度计算
下载PDF
基于串频统计的汉语和孟加拉语专有名词识别 被引量:2
6
作者 柯修 王惠临 于薇 《现代图书情报技术》 CSSCI 北大核心 2011年第12期31-38,共8页
基于Nagao串频统计算法实现汉语和孟加拉语专有名词的识别。提取未经过词性标注的中文和孟加拉语语料中的的n元串,使用改进的SSR算法过滤多余子串,利用字串的相邻字信息计算所有n元串成为专有名词的概率,并据此筛选专有名词。最后,实现... 基于Nagao串频统计算法实现汉语和孟加拉语专有名词的识别。提取未经过词性标注的中文和孟加拉语语料中的的n元串,使用改进的SSR算法过滤多余子串,利用字串的相邻字信息计算所有n元串成为专有名词的概率,并据此筛选专有名词。最后,实现基于串频统计的跨语言专有名词识别系统。实验表明,系统能够从输入的生语料中有效地识别出人名、地名、团体机构名等。 展开更多
关键词 专有名词识别 串频统计 Nagao算法 SSR算法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部