期刊文献+

基于语言模型的中文话头自足句识别方法

NT clause recognition method based on language model
下载PDF
导出
摘要 根据话头自足句理论进行标点句的话头自足句识别任务,探究语言模型在该任务中的应用效果,进一步将该任务划分为单个标点句的话头自足句识别和标点句序列的话头自足句识别。在单个标点句的话头自足句识别任务中,对该任务在形式上进行了完整的定义,将其形式化为机器阅读理解任务。从结果来看,在《围城》语料上取得了83.46%的准确率,在"鱼类百科"语料上的准确率达到91.21%。在标点句序列的话头自足句识别任务中,利用单个标点句的话头自足句识别任务中训练好的模型,以流水线的方式进行标点句序列的话头自足句识别,在"鱼类百科"语料上的准确率达到82.03%。实验结果表明,提出的方法能够有效地提高中文话头自足句识别的准确率。 Based on the NT clause theory,this paper carried out the NT clause identification task of punctuation sentences and explored the application effect of the language model in this task.Furthermore,it divided this task into single NT clause identification and sequential NT clauses identification task.In the single NT clause identification task,this paper formalized it into a machine reading comprehension task.From the results,it obtained the accuracy rate of 83.46%on the Fortress Besieged corpus,and reached the accuracy rate of 91.21%in the fish encyclopedia corpus.In the sequential NT clauses identification task,using the single NT model,it fed the punctuation sentences sequence in a pipelined manner and got the sequential NT clauses.The accuracy rate in fish encyclopedia corpus reached 82.03%.The experimental results show that the proposed method can effectively improve the accuracy of Chinese NT clause identification.
作者 张禹尧 蒋玉茹 毛腾 张仰森 Zhang Yuyao;Jiang Yuru;Mao Teng;Zhang Yangsen(Institute of Intelligent Information Processing,Beijing Information Science&Technology University,Beijing 100101,China)
出处 《计算机应用研究》 CSCD 北大核心 2021年第2期386-390,共5页 Application Research of Computers
基金 国家自然科学基金资助项目(61602044,61772081) 促进高校内涵发展—研究生科技创新项目(5121911044)。
关键词 话头自足句 语言模型 标点句 机器阅读理解 NT(naming-telling)clause language model punctuation sentences machine reading comprehension
  • 相关文献

参考文献6

二级参考文献37

  • 1张瑞朋,宋柔.否定词跨标点句管辖的判断[J].中文信息学报,2007,21(5):131-135. 被引量:3
  • 2赵元任.1979/1968.吕叔湘译,《汉语口语语法》,商务印书馆.英文原版1968年.
  • 3范继淹1985《汉语句段结构》,《中国语文》第1期.
  • 4曹逢甫.1990/2005,《汉语的句子与子句结构》,北京语言大学出版社.
  • 5屈承熹.1998/2006,《汉语篇章语法》,北京语言大学出版社.
  • 6Song Rou, Jiang Yuru and Wang Jingyi 2010 On generalized-topic-based Chinese discourse structure, CIPS- SIGHAN Joint Conference on Chinese Language Processing (CLP2010), August 28, Beijing, China.
  • 7黄健传,宋柔.标点句标注研究[C]//第九届全国计算语言学学术会议论文集.北京:清华大学出版社,2007:350-355.
  • 8SONG R,JIANG Y,WANG J.On generalized-topic-based Chinese discourse structure[C]//S1GHAN 2010:Proceedings of CIPS-SIGHAN Joint Conference on Chinese Language Processing.Beijing:Tsinghua University Press,2010:23-33.
  • 9宋柔.汉语篇章广义话题结构研究[R].北京:北京语言大学,2012.
  • 10GILLELAND M.Levenshtein distance,in three flavors[EB/OL].[2013-02-04].http://people.cs.pitt.edu/-kirk/csl501/Pruhs/Spring2006/assiguments/editdistance/Levenshtein%20Distance.htm.

共引文献52

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部