受限领域中最长地点实体提及的提取研究被引量：1

Research on Extraction of Maximal Location Entity Mention Based on Limited Field

下载PDF

导出

摘要实体是构成事件信息的基本单元,在事件中扮演着重要的角色。在自然语言处理领域,实体识别是信息提取、句法分析、机器翻译、篇章理解等应用领域重要的基础性工具。汉语句法成分特有的套叠现象决定了实体表达的复杂性,增加了识别的难度。这使得已有的用于命名实体识别中的研究方法在长地点实体的识别中不能取得好的效果。为研究自动提取实体方法,文章从事件报道领域出发,以最长地点实体为对象,对325篇新闻语料进行地点实体标注和抽取,分析、研究了地点实体的出现特征,并根据分析结论提出实体提取可行方案。 Entities are basic units of event information, and playing an important role in event. In the field of natural language processing, entity recognition is the key technique in many Chinese information processing applications such as in formation extraction, syntactic analysis, machine translation, text comprehension and so on. Special nesting phenomena of Chinese constituents determine the complexity of the entity, and there are many kinds of expression in the location entity, and the methods of the named entity recognition can＇t get a good result in the location entity recognition. So, in order to auto extract location entity, this paper artificially annotated 325 news, and statistically analyse appear characteristics of this location. Based on the result of analyze, a viable extract method is developed.

作者高燕刘娟

机构地区湛江师范学院信息学院九江学院庐山文化研究中心

出处《计算机与数字工程》 2011年第7期72-74,165,共4页 Computer & Digital Engineering

基金广东省自然科学基金项目(编号:9151027501000039)资助

关键词实体事件最长地点实体提取 entity event maximal location entity extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Lu Jian-ming. Special nesting phenomena of Chinese constituents[C]//The Optional Paper Of Lu Jian-ming ZhengZhou, He'nan Education Press, 1993 : 174-192.
2周强,孙茂松,黄昌宁.汉语最长名词短语的自动识别[J].软件学报,2000,11(2):195-201. 被引量：37
3黄昌宁,林娟,孙承杰.何谓金本位[C]//自然语言理解与大规模内容计算-全国第八届计算语言学联合学术会议(JSCL-2005)论文集,北京:清华大学出版社,2005:ll-20.
4赵军.基于转换的汉语基本名词短语识别模型[D].清华大学博士论文,1998.
5LiWen-jie, Zhou Ming, Pan Hai-hua, et al. Corpus-based maximal-length Chinese noun phrase extraction [C]//Chen Li-wei, Yuan Qi eds Advances and Appli-cations on Computational Linguistics Beijing: Tsinghua University Press, 1995 : 119-124.
6ACE. ACE Chinese Annotation Guidelines {or Entities (Version 5.5)[EB/OL]. http://www, ldc. upenru edu/ proj ects/ACE/docs/Chinese-Entities-Guidelines_v5. 5. pdf. 2005a.
7ACE. ACE Chinese Annotation Guidelines for Events [EB/OL].
8郑家恒,谭红叶,王兴义.基于模式匹配的中文专有名词识别[C]//第十-届全国民族语言文字信息学术研讨会论文集,2007.
9孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
10黄德根,杨元生,王省,张艳丽,钟万勰.基于统计方法的中文姓名识别[J].中文信息学报,2001,15(2):31-37. 被引量：34

二级参考文献36

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
2吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
3周强.一个汉语短语自动界定模型[J].软件学报,1996,7(A00):315-322. 被引量：9
4孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
5吴胜远.并行分词方法的研究[J].计算机研究与发展,1997,34(7):542-545. 被引量：13
6Abney, 1996b. Partial parsing via finite-state cascades. In Proceedings of the ESSLLI '96 Robust Parsing Workshop.
7Argamon, S., I. Dagon and Y. Krymolowsky. 1998. A memory-based approach to learning shallow natural language patterns. In Proceedings of COLING-ACL '98. Pp. 67-73.
8Brill, Eric. 1995. Unsupervised learning of Disambiguation Rules for part of speech tagging. In Proceedings of the 3rd Workshop on Very Large Corpora. Pp. 1-13.
9Cardie, Claire and David Pierce. 1998. Error-driven pruning of treebank grammars for base noun phrase identification. In Proceedings of COLING-ACL '98. Pp. 218-224.
10Chen, Kuang-hua and Chen, Hsin-Hsi. 1994. Extracting noun phrases from large-scale texts: a hybrid approach and its automatic evaluation. In Proceedings of the 32nd Annual Meeting of the Association for Computational binguistics. Pp. 234-241.

共引文献104

1谌志群,张国煊.基于浅层文本分析的中文Web信息检索[J].杭州电子科技大学学报（自然科学版）,2008,28(1):48-51. 被引量：1
2张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
3王东波.基于规则的单层单标记联合结构自动识别[J].文教资料,2008(9):29-31. 被引量：6
4刘云,俞士汶.“句管控”与中文信息处理[J].汉语学报,2004(2):56-62. 被引量：5
5罗三定,廖程锋.一种新的搜索引擎探讨[J].情报学报,2004,23(4):428-432. 被引量：2
6程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
7许云,樊孝忠,张锋.基于生成语法的英语时态判断[J].计算机工程与应用,2004,40(26):226-228. 被引量：3
8张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报（理学版）,2004,42(4):548-553. 被引量：14
9邓宏涛.中文自动分词系统的设计模型[J].计算机与数字工程,2005,33(4):138-140. 被引量：13
10王源媛,何中市.基于词性探测的中文姓名识别算法[J].计算机科学,2005,32(4):84-86. 被引量：2

同被引文献4

1张卫国.三种定语、三种意义及三个槽位[J]中国人民大学学报,1996(04):97-100.
2王风娥,谭红叶,钱揖丽.基于最大熵的句内时间关系识别[J].计算机工程,2012,38(4):37-39. 被引量：12
3周强,孙茂松,黄昌宁.汉语最长名词短语的自动识别[J].软件学报,2000,11(2):195-201. 被引量：37
4黄德根,岳广玲,杨元生.基于统计的中文地名识别[J].中文信息学报,2003,17(2):36-41. 被引量：49

引证文献1

1高燕,张维维,张艳红,谢燕萍,苏凝,谢燕萍,苏凝.最大熵模型在最长地点实体识别中的应用[J].广东石油化工学院学报,2012,22(4):40-42. 被引量：1

二级引证文献1

1孙赫,李淑琴,吕学强,刘克会.微博城市投诉文本中地理位置实体的完整性研究[J].现代图书情报技术,2016(3):58-66. 被引量：1

1公茂凯,高国安,石淼.由三视图构造三维实体方法的综述[J].计算机研究与发展,1992,29(8):47-52. 被引量：17
2黄圆志.图解AutoCAD中由实体提取平面图形[J].时代经贸,2013,11(12):141-141.
3顾珺恺,谢静.基于Sobel算子的快速图像匹配检索方法[J].电脑编程技巧与维护,2010(2):106-107.
4曹东,付承毓,金钢.基于机器学习的目标跟踪算法研究综述[J].计算机科学,2016,43(12):1-7. 被引量：3
5韦雄观,吴立德,王文欣.基于关系图的篇章分析方法[J].模式识别与人工智能,1997,10(2):112-117. 被引量：5
6刘军万,刘飞飞.基于关系图的篇章分析方法及算法设计[J].中南林学院学报,2004,24(5):93-97.
7烯饭.关闭部分特效保护Windows 7功能[J].网友世界,2010(17):23-23.
8江彦.关注现代物流及其经济性[J].中国制造业信息化（应用版）,2009(1):66-66.
9石纯一,王克宏,胡蓬.面向篇章理解的分布式知识处理系统[J].计算机学报,1993,16(5):334-342. 被引量：1
10罗嘉辉,区贻标,梁启华.机械设计中有限元分析的关键问题研究[J].工业设计,2015(4):120-120. 被引量：1

计算机与数字工程

2011年第7期

浏览历史

内容加载中请稍等...

受限领域中最长地点实体提及的提取研究被引量：1

参考文献11

二级参考文献36

共引文献104

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

受限领域中最长地点实体提及的提取研究 被引量：1

参考文献11

二级参考文献36

共引文献104

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

受限领域中最长地点实体提及的提取研究被引量：1