小句识别所依赖的语段全局范围探究——基于预训练语言模型Bert的汉语小句识别被引量：2

Detecting the Global Range of Segments for Clause Recognition with Bert

下载PDF

导出

摘要小句识别是篇章信息处理的基础问题。在语言学上,判断一个语段是否为小句,不仅依赖其内部结构,也依赖其在对外全局中的功能。问题是,识别小句一般依赖多大范围语段全局为好。本文基于汉语小句识别,对此探索。汉语小句一般以标点标记首尾,但并非所有标点都标记小句。本文将小句识别当成标点分类问题,将小句识别所依赖的全局范围归结为标点前后的语段个数,探测该范围大小与识别效果间关系。本文基于预训练语言模型Bert提取标点两侧语段的文本特征进行小句识别。实验表明,语段个数增多,识别效果增强,标点前后语段各达到4个效果最好;对识别效果的贡献,标点前侧语段大于后侧语段,双侧语段大于单侧语段;通过全局长度与前后语段特征权重的优化,最优模型小句识别效果F1值为95.19%。 Clause recognition is a basic issue in discourse information processing.In linguistics,whether a paragraph is a clause depends not only on its internal structure,but also on its function in the overall external situation.The question is the range of the paragraph that the clauses generally depend on.This paper explores this question based on Chinese clause recognition.Chinese clauses usually mark the beginning and end with punctuation,but not all punctuation marks clauses.In this paper,clause recognition is regarded as a punctuation classification problem.The global range relied on by clause recognition is reduced to the number of paragraphs before and after punctuation.The relationship between the size of this range and the recognition effect is detected.Based on the pre-training language model Bert,this paper extracts the text features of the segments on both sides of punctuation for clause recognition.The experiment shows that with the increase of the number of paragraphs,the recognition effect is enhanced,and the effect is the best when the number of paragraphs before and after punctuation reaches four respectively.The contribution to the recognition effect is that the front segment of punctuation is greater than the back segment,and the bilateral segment is greater than the unilateral segment.By optimizing the global length and the feature weight of the front and back paragraphs,the F1 value of the optimal model clause recognition effect is 95.19%.

作者冯文贺高子雄张文娟 FENG Wenhe;GAO Zixiong;ZHANG Wenjuan

机构地区广东外语外贸大学外国语言学及应用语言学研究中心、语言工程与计算实验室广东外语外贸大学

出处《语言文字应用》 CSSCI 北大核心 2022年第2期111-121,共11页 Applied Linguistics

基金国家社科基金项目“汉语篇章结构的特征—依存描写机制及资源建设研究”(17BYY036)的资助。

关键词小句识别篇章分析语段全局范围中文信息处理 clause recognition discourse analysis global range of segments Chinese information processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1宋柔.汉语篇章广义话题结构的流水模型[J].中国语文,2013(6):483-494. 被引量：45
2苗国义,刘明童,陈钰枫,徐金安,张玉洁,冯文贺.融合小句对齐知识的汉英神经机器翻译[J].北京大学学报（自然科学版）,2022,58(1):61-68. 被引量：5
3李艳翠,冯文贺,周国栋,朱坤华.基于逗号的汉语子句识别研究[J].北京大学学报（自然科学版）,2013,49(1):7-14. 被引量：22
4胡韧奋,李绅,诸雨辰.基于深层语言模型的古汉语知识表示及自动断句研究[J].中文信息学报,2021,35(4):8-15. 被引量：16
5何晓文,罗智勇,胡紫娟,王瑞琦.基于小句复合体的句子边界自动识别研究[J].中文信息学报,2021,35(5):1-8. 被引量：2
6葛海柱,孔芳,周国栋.基于主述位理论的汉语基本篇章单元识别[J].中文信息学报,2019,33(8):20-27. 被引量：4
7冯文贺,陈伊琳,任亚峰,任函.汉语篇章小句关联结构的表示与识别[J].北京大学学报（自然科学版）,2020,56(1):23-30. 被引量：3
8王文格.现代汉语小句的研究现状及存在的问题[J].汉语学习,2010(1):67-76. 被引量：5
9宋柔,葛诗利,尚英,卢达威.面向文本信息处理的汉语句子和小句[J].中文信息学报,2017,31(2):18-24. 被引量：11
10宋柔,葛诗利.面向篇章机器翻译的英汉翻译单位和翻译模型研究[J].中文信息学报,2015,29(5):125-135. 被引量：15

二级参考文献92

1葛诗利,宋柔.基于成分共享的英汉小句对齐语料库标注体系研究[J].中文信息学报,2020(6):27-35. 被引量：2
2邓思颖.从生成语法学观点看“小句中枢说”[J].汉语学报,2005(1):56-63. 被引量：12
3詹卫东.以“计算”的眼光看汉语语法研究的“本位”问题[J].汉语学报,2005(1):64-73. 被引量：8
4黄忠廉.小句中枢全译说[J].汉语学报,2005(2):62-69. 被引量：9
5陈玉东.汉语韵律层级中小句的中枢地位和调节作用[J].汉语学报,2005(2):70-75. 被引量：4
6丁力.列项选择问中的三种管控现象[J].汉语学报,2005(2):76-80. 被引量：8
7徐杰.词组与小句之间的差异及其蕴含的理论意义[J].汉语学报,2005(3):51-64. 被引量：23
8郑远汉.从话语结构的制约看状语标记“地”的隐现[J].汉语学报,2005(3):65-72. 被引量：14
9陈世祥.汉语句法结构对学习汉语的重要性——以定语位置上的“小”为例[J].汉语学报,2005(3):73-77. 被引量：4
10邢欣.从X-阶标理论对小句的分析看小句中枢说[J].汉语学报,2005(4):58-64. 被引量：11

共引文献104

1沈家煊.动主名谓句——为朱德熙先生百年诞辰而作[J].中国语文,2021(1):3-17. 被引量：21
2邢富坤,孙晓迪.基于汉语标点句的汉英双语对齐语料库构建及对齐语序分析[J].语料库语言学,2021(2):136-147. 被引量：1
3许立群,沈家煊(指导).对话融合为流水句的过渡阶段——信息确认[J].世界汉语教学,2021(1):43-55. 被引量：3
4张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
5卢达威.新支话题的句法成分和语义角色研究[J].中文信息学报,2021,35(10):21-31.
6苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
7李艳翠,冯文贺,周国栋,朱坤华.基于逗号的汉语子句识别研究[J].北京大学学报（自然科学版）,2013,49(1):7-14. 被引量：22
8杨宇飞,戴齐,贾真,尹红风.基于弱监督的属性关系抽取方法[J].计算机应用,2014,34(1):64-68. 被引量：10
9冯文贺.汉英篇章结构平行语料库的对齐标注研究[J].中文信息学报,2013,27(6):158-164. 被引量：7
10贾真,杨宇飞,何大可,刘胜久,尹红风.面向中文网络百科的属性和属性值抽取[J].北京大学学报（自然科学版）,2014,50(1):41-47. 被引量：12

同被引文献31

1陆俭明.语言研究要多做些实事同时一定要有时代意识[J].语言文字应用,2021(1):2-7. 被引量：9
2陶红印.试论语体分类的语法学意义[J].当代语言学,1999,1(3):15-24. 被引量：211
3武晓春,黄萱菁,吴立德.基于语义分析的作者身份识别方法研究[J].中文信息学报,2006,20(6):61-68. 被引量：25
4肖天久,刘颖.基于聚类和分类的金庸与古龙小说风格分析[J].中文信息学报,2015,29(5):167-177. 被引量：12
5范敏.《论语》五译本译者风格研究——基于语料库的统计与分析[J].北京航空航天大学学报（社会科学版）,2016,29(6):81-88. 被引量：3
6程齐凯,李信,陆伟.基于情感词汇的科研论文写作风格演变研究——1994-2012年科研论文摘要中情感词汇使用情况的回顾性分析[J].图书情报知识,2016,33(6):62-68. 被引量：4
7Xiao Ye,Min-hua Dong.A review on different English versions of an ancient classic of Chinese medicine:Huang Di Nei Jing[J].Journal of Integrative Medicine,2017,15(1):11-18. 被引量：4
8黄水清,王东波.古文信息处理研究的现状及趋势[J].图书情报工作,2017,61(12):43-49. 被引量：31
9习近平.坚定文化自信,建设社会主义文化强国[J].求是,2019,0(12):4-12. 被引量：441
10刘海涛,王雅琴.当代小说句式特征的计量研究——《繁花》与其他10部茅盾文学奖作品对比[J].山西大学学报（哲学社会科学版）,2019,42(6):65-72. 被引量：7

引证文献2

1张逸勤,邓三鸿,胡昊天,王东波.预训练模型视角下的跨语言典籍风格计算研究[J].数据分析与知识发现,2023,7(10):50-62. 被引量：3
2周义凯,刘海涛.ChatGPT掌握现代汉语书面语的句长规律了吗?[J].语言文字应用,2024(2):124-134.

二级引证文献3

1吴梦成,林立涛,吴娜,许乾坤,王东波.融合不同语义知识的中国古代典籍机器翻译研究[J].情报资料工作,2024,45(2):97-104.
2朱丹浩,赵志枭,胡蝶,赵文华,孙光耀,王东波.领域大语言模型下的古籍词性标注应用研究[J].科技情报研究,2024,6(2):21-29. 被引量：2
3吴梦成,林立涛,胡蝶,刘畅,黄水清,孟凯,王东波.我国古代典籍时代特征视角下的机器翻译研究[J].图书馆论坛,2024,44(10):93-102.

1王品.古藏语作格的系统功能语言学分析[J].语言科学,2020,19(6):660-669.
2关于申报2022年中国中文信息学会科学技术奖--“钱伟长中文信息处理科学技术奖”的通知[J].中文信息学报,2022,36(4).
3朱丽师.国内外小句整合研究述评[J].外国语,2021,44(2):109-120. 被引量：5
4汪梦翔.基于规则的非典型有标被动句的语义角色自动标注研究[J].语言文字应用,2022(2):122-132.
5何伟,闫煜菲.汉英的主客融合及分离特质——以流水句及其英译为例[J].上海翻译,2022(1):34-39. 被引量：8
6魏文文.话语标记“你看吧”语用及篇章分析[J].现代语言学,2022,10(6):1390-1395.
7李翔宇.基于组合ResNet和InceptionNet的神经网络分类研究[J].计算机科学与应用,2022,12(6):1674-1684.
8何伟,仲伟.从语言元功能的编码方式看英汉语本质差异[J].当代修辞学,2021(5):26-36. 被引量：9
9闫超.论朝鲜语和汉语小句定语结构的显赫度[J].解放军外国语学院学报,2022,45(3):12-20.
10范晓光,刘金龙.计算社会学的基础问题及未来挑战[J].社会科学文摘,2022(3):97-99.

语言文字应用

2022年第2期

浏览历史

内容加载中请稍等...

小句识别所依赖的语段全局范围探究——基于预训练语言模型Bert的汉语小句识别被引量：2

参考文献10

二级参考文献92

共引文献104

同被引文献31

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

小句识别所依赖的语段全局范围探究——基于预训练语言模型Bert的汉语小句识别 被引量：2

参考文献10

二级参考文献92

共引文献104

同被引文献31

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

小句识别所依赖的语段全局范围探究——基于预训练语言模型Bert的汉语小句识别被引量：2