-
题名基于注意力网络的语体多元特征挖掘
被引量:2
- 1
-
-
作者
吴海燕
刘颖
-
机构
清华大学人文学院
-
出处
《计算机应用》
CSCD
北大核心
2020年第8期2171-2181,共11页
-
基金
国家社会科学基金资助项目(18ZDA238)
教育部人文社科一般项目(17YJAZH056)
北京社会科学基金资助项目(16YYB021)。
-
文摘
针对大规模语料中不同语体的特征难以挖掘、需要大量专业知识和人力的问题,提出了一种自动挖掘能区分不同语体的特征的方法。首先,将语体表示成词、词类、标点符号、它们的2元、句法结构及多种组合特征;然后,使用注意力机制和多层感知机(MLP)的组合模型(如注意力网络)把语体分类成小说、新闻和课本,并在过程中自动地提取出能够帮助区分语体的重要特征;最后,通过对这些特征的进一步分析,可以得到不同语体的特点及一些语言学结论。实验结果显示,小说、新闻和课本在词、主题词、词的依存关系、词类、标点符号和句法结构都有显著的差异,进一步表明了人们在使用语言时因交际对象、目的、内容和环境的不同,对词汇、词类、标点和句法的运用上会自然地呈现出某种不同。
-
关键词
语体特征挖掘
语体特征区分度
注意力机制
多层感知机
-
Keywords
stylistic feature mining
discrimination measure of stylistic feature
attention mechanism
Multi-Layer Perception(MLP)
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-