-
题名汉语未登录词识别现状及一种新识别方法介绍
被引量:3
- 1
-
-
作者
王蕾
杨季文
-
机构
苏州卫生职业技术学院
苏州大学计算机科学与技术学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2007年第8期213-215,共3页
-
文摘
未登录词的识别对于各种汉语处理系统不仅有直接的实用意义,而且起到基础性的作用。在大规模中文文本的自动分词中,未被识别的未登录词是造成分词错误的一个重要原因,也成为许多自动分词系统走向应用的瓶颈。首先对未登录词的研究现状及现有方法做了一个综合的介绍,分析了目前方案的利弊。在此基础上提出了一个基于框架结构的未登录词专有名词识别方法。
-
关键词
专有名词识别
属性标注
错误驱动
规则和实例
-
Keywords
proper noun recognition Attribute tagging Error-driving Rules and instance
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于实例和错误驱动的规则学习方法及其应用
被引量:1
- 2
-
-
作者
王蕾
朱巧明
李培峰
杨季文
-
机构
苏州大学计算机科学与技术学院
江苏省计算机信息处理技术重点实验室
-
出处
《计算机应用与软件》
CSCD
北大核心
2008年第1期162-164,共3页
-
文摘
提出了一种基于实例和错误驱动相结合的规则学习方法。该方法首先将提取的文本中的语法结构信息作为实例,然后采用基于转换的错误驱动学习方法找出这些实例的适用上下文环境,从而建立相应的规则库。此方法提取出的规则完全采用机器学习的方式,避免了人工提取规则的主观性缺点。可用于诸如词性标注、未登录词识别、命名实体抽取等自然语言研究课题。
-
关键词
规则学习
中文信息处理
专有名词识别
-
Keywords
Rule learning Chinese information processing proper noun recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于框架结构的专有名词自动识别方法
- 3
-
-
作者
王蕾
李培峰
朱巧明
杨季文
-
机构
苏州大学计算机科学与技术学院
-
出处
《计算机工程与科学》
CSCD
2007年第7期141-144,154,共5页
-
文摘
本文提出了一种基于框架结构的专有名词统一识别方法。该方法首先根据专有名词的成词特点及出现的上下文环境,重新定义语料属性;然后,提出了属性标注点(AP)的概念,对训练语料进行初次标注,并采用错误驱动的学习方法来获取规则;最后,结合规则和实例对文本进行专名识别。实验表明,该方法在测试样本集上准确率最高可以达到92.3%,召回率最高可以达到80.4%,是一种有效的专有名词识别方法。
-
关键词
专有名词识别
框架结构
属性标注
错误驱动
规则和实例
-
Keywords
proper noun recognition
framework structure
attribute tagging
error-driven leaming
rule and instance
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于属性标记的专有名词自动识别研究
- 4
-
-
作者
王蕾
杨季文
-
机构
苏州大学计算机科学与技术学院
-
出处
《计算机技术与发展》
2006年第11期195-198,共4页
-
文摘
提出了一种新的基于属性标记的专有名词统一识别方法。其基本思想是:根据专有名词的成词特点,利用标注语料库,设定词语属性作为标准属性重新进行标注,在此语料基础上进行专有名词成词结构、成词环境的实例提取,并采用基于转换的错误驱动方法对提取的实例进行适用规则提取。在提取的实例和规则的基础上进行属性标注,是一种基于转换的错误驱动规则自学习方法与基于实例的学习方法相结合的基于浅层句法分析的一种新的识别专有名词的方法。实验证明该方法在测试样本集上准确率达到95.3%,召回率达到92.5%,是一种有效的专有名词识别方法。
-
关键词
中文专有名词识别
未登录词识别
属性标注
基于转换的错误驱动学习方法
-
Keywords
Chinese proper noun rceognition
unknown words recognition
attribute tag
transfomation-bascd error drive learning
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于小句相似度计算的专有名词识别
被引量:1
- 5
-
-
作者
朱丽丽
郑家恒
-
机构
山西大学计算机与信息技术学院
-
出处
《通讯和计算机(中英文版)》
2006年第6期18-22,35,共6页
-
基金
本文得到国家自然科学基金项目(No.60473139)和山西省自然科学基金项目(No.20051034)的资助,
-
文摘
专有名词识别是中文信息处理领域的一个难题。句子相似度计算方法在中文信息处理领域有着广泛的应用。本文探索性地使用句子相似度计算方法来解决专有名词识别问题,并针对专有名词识别的研究背景对小句相似度计算方法做了一些改进,改进的计算方法不仅考虑了公共字符,而且还加入了语义信息和结构信息。实验证明该方法是可行的。
-
关键词
中文信息处理
专有名词识别
句子相似度计算
-
Keywords
Chinese Information Processing
proper nouns recognition (pnr)
Sentence SimilarityComputing
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于串频统计的汉语和孟加拉语专有名词识别
被引量:2
- 6
-
-
作者
柯修
王惠临
于薇
-
机构
北京大学信息管理系
中国科学技术信息研究所
-
出处
《现代图书情报技术》
CSSCI
北大核心
2011年第12期31-38,共8页
-
基金
中国科学技术信息研究所学科建设项目"自然语言处理"(项目编号:XK2011-6)的研究成果之一
-
文摘
基于Nagao串频统计算法实现汉语和孟加拉语专有名词的识别。提取未经过词性标注的中文和孟加拉语语料中的的n元串,使用改进的SSR算法过滤多余子串,利用字串的相邻字信息计算所有n元串成为专有名词的概率,并据此筛选专有名词。最后,实现基于串频统计的跨语言专有名词识别系统。实验表明,系统能够从输入的生语料中有效地识别出人名、地名、团体机构名等。
-
关键词
专有名词识别
串频统计
Nagao算法
SSR算法
-
Keywords
proper noun recognition String statistics Nagao algorithm SSR algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-