-
题名基于主述位理论的汉语基本篇章单元识别
被引量:4
- 1
-
-
作者
葛海柱
孔芳
周国栋
-
机构
苏州大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2019年第8期20-27,共8页
-
基金
国家自然科学基金(61876118)
人工智能应急项目(61751206)
国家重点研发计划子课题(2017YFB1002101)
-
文摘
基本篇章单元(Elementary Discourse Units,EDU)识别对篇章分析工作意义重大,是构建篇章结构的基础。从篇章衔接性视角看,每个EDU都由要表达信息的起始点--主位和要传达的新信息--述位两部分构成。该文结合已有研究和汉语实际情况,给出了一个基于主述位理论的汉语基本篇章单元识别方法。该方法将EDU识别转化为主述位识别问题,由主位、述位的位置间接地确定EDU的边界,最终完成EDU的识别。而主、述位间具有明显的信息序列化特征,因此可通过序列化标注方法进行。基于主述位理论的汉语基本篇章单元识别方法更关注EDU作为一个独立的篇章单元的内部构成,在汉语篇章话题结构语料库CDTC上的实验也进一步验证了该方法的有效性,EDU识别的性能F1值达到了89.46%。
-
关键词
基本篇章单元
主位
述位
序列化标注
-
Keywords
elementary discourse unit
theme
rheme
sequence label
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多任务学习的汉语基本篇章单元和主述位联合识别
被引量:4
- 2
-
-
作者
葛海柱
孔芳
-
机构
苏州大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2020年第1期71-79,共9页
-
基金
国家自然科学基金(61876118,61751206)。
-
文摘
基本篇章单元(elementary discourse units,EDU)识别是构建篇章结构的基础,对篇章分析意义重大。从篇章衔接性视角来看,篇章话题结构理论认为,每个EDU都由要表达信息的起始点(主位)和传达的新信息(述位)两部分构成。因此,EDU识别与主述位识别任务的关系密切。基于此,该文给出了一个基于多任务学习的汉语基本篇章单元和主述位联合识别方法。该方法利用双向长短时记忆网络和图卷积网络对基本单元进行序列化和结构化拓扑信息的表征,再利用多任务学习框架让两个任务共享参数,借助不同任务间的相关性来提升模型的性能。实验结果表明,基于多任务学习的EDU和主述位识别性能均优于单任务学习模型中各自的性能,其中基本篇章单元识别的F1值达到91.90%,主述位识别的F1值达到85.65%。
-
关键词
多任务学习
基本篇章单元
主位
述位
-
Keywords
multi-task
elementary discourse unit
theme
rheme
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名篇章视角的汉语零指代语料库构建
被引量:3
- 3
-
-
作者
孔芳
葛海柱
周国栋
-
机构
苏州大学
江苏省计算机信息处理技术重点实验室
-
出处
《软件学报》
EI
CSCD
北大核心
2021年第12期3782-3801,共20页
-
基金
国家自然科学基金(61876118,61751206)
江苏高校优势学科建设工程。
-
文摘
零指代是汉语中普遍存在的一个现象,在汉英机器翻译、文本摘要以及阅读理解等众多自然语言处理任务中都起着重要作用,目前已成为自然语言处理领域的一个研究热点.提出了篇章视角的汉语零指代表示体系,从服务于篇章分析的角度出发,首先以基本篇章单元为考察对象,判别其是否包含零元素;再根据零元素在基本篇章单元中承担的角色将零元素划分成主干类和修饰类两类;接着以段落对应的篇章修辞结构树为考察指代关系的基本单元,依据先行词与零元素间的位置关系将指代关系分成基本篇章单元内和基本篇章单元间两种,并针对基本篇章单元间的指代关系,根据零元素对应的先行词的状况将指代关系分成实体类、事件类、组合类和其他等4类;最后,基于篇章视角的汉语零指代表示体系,选取汉语树库CTB、连接词驱动的汉语篇章树库CDTB和Onto Notes语料中重叠的325篇文本进行了汉语零指代的标注,构建了服务于篇章分析的汉语零指代语料库.一方面,借助系统检测来说明所提出的表示体系合理有效,构造的语料库质量上乘;另一方面构建了完整的汉语零指代消解基准平台,从可计算的角度验证了所构建的汉语零指代语料库能够为篇章视角的汉语零指代研究提供必要的支撑.
-
关键词
零指代
语料库构建
篇章分析
基本篇章单元
零元素
-
Keywords
zero anaphora
corpus construction
discourse analysis
elementary discourse unit
zero pronouns
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名BETES:一种中文长文档抽取式摘要方法
被引量:3
- 4
-
-
作者
王宗辉
李宝安
吕学强
游新冬
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
北京信息科技大学计算机学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2022年第1期42-49,共8页
-
基金
国家自然科学基金项目(61671070)资助
国家语委重点项目(ZDI135-53)资助
+1 种基金
北京信息科技大学促进高校内涵发展科研水平提高项目(2019KYNH226)资助
北京信息科技大学“勤信人才”培育计划项目(QXTCP B201908)资助。
-
文摘
在自然语言处理领域是最重要的研究工作之一,并随着深度学习的兴起成为研究热点,而中文长文本的摘要抽取面临更大的挑战,存在长文本-摘要语料库不足、摘要抽取信息不准确、目标摘要冗余、摘要句缺失等问题.本文以中文长文本的摘要抽取为研究对象,提出一种BETES方法,基于规则和人工辅助筛选构建中文长文本-摘要语料库;利用Bert预处理模型进行文本向量化,更好地捕捉长文本上下文的语义,提升信息抽取的准确性;在识别中文长文本的基本篇章单元的基础上,以基本篇章单元为抽取对象,降低摘要抽取的冗余度;最后利用Transformer神经网络抽取模型,实现基本篇章单元的抽取,提升摘要句抽取的准确率.实验证明,提出的BETES方法在中文长文本的抽取式摘要过程中提高了准确性,降低了冗余度,并且ROUGE分数优于主流的摘要抽取方法.
-
关键词
文本摘要
抽取式摘要
Bert
基本篇章单元
TRANSFORMER
-
Keywords
text summarization
extractive summarization
Bert
elementary discourse units
Transformer
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-