结合BiLSTM+CRF和TextRank的句法边界分析

Syntactic Boundary Analysis Based on BiLSTM+CRF and TextRank

下载PDF

导出

摘要通过剖析短语结构层次句法分析的层次性和汉语结构特点,提出了一种把核心词作为词块的形式替换、层层进行词块组合的句法结构树.在句法边界分析的过程中,将词块识别和核心词提取分开进行.在词块识别模块,使用双向长短期记忆模型(Bi-directional Long Short-Term Memory,BiLSTM)和条件随机场(Conditional Random Field,CRF)结合的模型(BiLSTM+CRF)进行词块边界标记的识别,其中BiLSTM模型学习上下文特征,CRF模型学习输出标记序列结果的转移特征,达到预测标记序列联合解码的作用;在核心词提取模块,结合Word2vec词向量改进TextRank重要度排序算法,通过加入词语的相似度信息、位置信息、词性信息来提高识别准确度.实验对比了CRF、BiLSTM、BiLSTM+CRF词块识别分别与三种信息组合的TextRank核心词识别的句法边界分析效果,并对比了各句长下每种模型的识别情况.结果表明,使用BiLSTM+CRF联合改进的TextRank识别效果最好,相比于基线LR方法F1值提升了6.58个百分点,整句正确率提升了3.68个百分点,验证了模型的有效性和稳定性. By analyzing the hierarchical and the characteristics of Chinese structure with syntactic analysis of phrase structure,a syntactic structure tree that replaces the core words as the form of chunk and combines word blocks layer by layer is proposed.During syntactic boundary analysis,chunk recognition and core word extraction are performed separately.In the chunk recognition module,Bi-directional Long Short-Term Memory model and Conditional Random Field are used to recognize the chunk boundary markers,Where BiLSTM model learns the context features,and CRF learns the transfer features of the output mark sequence results,which achieves the role of predicting the joint decoding of the mark sequence.In the core word extraction module,combined with Word2vec,the TextRank importance factor is improved.Recognition accuracy is improved by adding word similarity information,location information,and part-of-speech information.The experiment compares the syntactic boundary analysis effects of CRF,BiLSTM,BiLSTM+CRF chunk recognition and TextRank core word recognition combined with three kinds of information,Then,compares the recognition situation of each model under each sentence length.The results show that the model recognition effect by using BiLSTM+CRF and improved TextRank is the best.Compared with the baseline LR method,the F1 value has increased by 6.58%,and the overall accuracy has increased by 3.68%,which verifies the effectiveness and stability of the model.

作者杨陈菊邵玉斌孙俊龙华皮乾东 YANG Chen-ju;SHAO Yu-bin;SUN Jun;LONG Hua;PI Qian-dong(College of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China;National Key Laboratory of Computer Science of Yunnan Province,Kunming University of Science and Technology,Kunming 650500,China)

机构地区昆明理工大学信息工程与自动化学院昆明理工大学云南省计算机国家重点实验室

出处《小型微型计算机系统》 CSCD 北大核心 2022年第7期1394-1400,共7页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61761025)资助.

关键词词块识别核心词提取条件随机场双向长短期记忆模型 TextRank chunk recognition core word extraction conditional random field bi-directional long short-term memory model TextRank

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1王衡军,司念文,宋玉龙,单义栋.结合全局向量特征的神经网络依存句法分析模型[J].通信学报,2018,39(2):53-64. 被引量：3
2谌志群,鞠婷,王冰.结合树形概率和双向长短期记忆的渐步性句法分析方法[J].厦门大学学报（自然科学版）,2019,58(2):243-248. 被引量：3
3谷波,王瑞波,李济洪,李国臣.基于RNN的中文二分结构句法分析[J].中文信息学报,2019,33(1):35-45. 被引量：15
4王闻慧,毕玉德,雷树杰.融入注意力机制的越南语组块识别方法[J].中文信息学报,2019,33(12):91-100. 被引量：1
5袁源,何云琪,钱龙华.基于深度学习的疾病命名实体识别[J].福建电脑,2019,35(3):39-42. 被引量：1
6陈伟,吴友政,陈文亮,张民.基于BiLSTM-CRF的关键词自动抽取[J].计算机科学,2018,45(B06):91-96. 被引量：29

二级参考文献12

1刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
2徐中一,胡谦,刘磊.基于CRF的中文组块分析[J].吉林大学学报（理学版）,2007,45(3):416-420. 被引量：7
3张芬,曲维光,赵红艳,周俊生.基于CRF和转换错误驱动学习的浅层句法分析[J].广西师范大学学报（自然科学版）,2011,29(3):147-150. 被引量：1
4吴伟成,周俊生,曲维光.基于统计学习模型的句法分析方法综述[J].中文信息学报,2013,27(3):9-19. 被引量：21
5刘芳,赵铁军,于浩,杨沐昀,方高林.基于统计的汉语组块分析[J].中文信息学报,2000,14(6):28-32. 被引量：27
6朱慕华,王会珍,朱靖波.向上学习方法改进移进-归约中文句法分析[J].中文信息学报,2015,29(2):33-39. 被引量：2
7张丹,周俏丽,张桂平.引入层次成分分析的依存句法分析[J].沈阳航空航天大学学报,2017,34(1):76-82. 被引量：1
8曾谁飞,张笑燕,杜晓峰,陆天波.基于神经网络的文本表示模型新方法[J].通信学报,2017,38(4):86-98. 被引量：18
9王衡军,司念文,宋玉龙,单义栋.结合全局向量特征的神经网络依存句法分析模型[J].通信学报,2018,39(2):53-64. 被引量：3
10王路路,艾山.吾买尔,吐尔根.依布拉音,买合木提.买买提,卡哈尔江.阿比的热西提.基于深度神经网络的维吾尔文命名实体识别研究[J].中文信息学报,2019,33(3):64-70. 被引量：10

共引文献45

1李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
2谌志群,鞠婷,王冰.结合树形概率和双向长短期记忆的渐步性句法分析方法[J].厦门大学学报（自然科学版）,2019,58(2):243-248. 被引量：3
3李振,董晓晓,周东岱,童婷婷.自适应学习系统中知识图谱的人机协同构建方法与应用研究[J].现代教育技术,2019,29(10):80-86. 被引量：22
4蒋明威,邓明舟,李振亚.结合全局与局部池化的多幅图像识别算法[J].信息通信,2019,0(8):9-10. 被引量：1
5刘作国,陈笑蓉.汉语句法分析中的论元关系模型研究[J].南京大学学报（自然科学版）,2019,55(6):1010-1019. 被引量：1
6朱晓霞,宋嘉欣,张晓缇.基于主题挖掘技术的文本情感分析综述[J].情报理论与实践,2019,42(11):156-163. 被引量：24
7黄炜,黄建桥,李岳峰.基于BiLSTM-CRF的涉恐信息实体识别模型研究[J].情报杂志,2019,38(12):149-156. 被引量：24
8吴俊,程垚,郝瀚,艾力亚尔·艾则孜,刘菲雪,苏亦坡.基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究[J].情报学报,2020,39(4):409-418. 被引量：52
9皮乾东,邵玉斌,龙华,杜庆治,杨陈菊.汉语语句算式化融合句法分析[J].电子测量技术,2020,43(6):123-127. 被引量：3
10刘海姣,秦亮曦,秦川,苏永秀.基于Bi-LSTM的芒果产量预测[J].电子技术与软件工程,2020(8):188-189. 被引量：1

1张凤,张微,魏金花.基于BERT和层次化Attention的恶意域名检测[J].中国电子科学研究院学报,2022,17(3):290-296. 被引量：3
2张雨,苏旭,刘玉萍,刘涛,郑长远,苏丹丹,王亚男,吕婷.喜马红景天叶绿体基因组特征及其系统发育分析[J].植物研究,2022,42(4):602-612. 被引量：9
3张韬,贾倩,辛月杰.基于无监督特征对齐的滚动轴承故障诊断[J].机械强度,2022,44(3):547-553. 被引量：2
4黎胜.打通考场作文结构关[J].新读写,2022(7):78-87.
5王天旻,杜琦,马骏.新冠肺炎疫情影响下山东省干线公路网交通量变化特征分析[J].运输经理世界,2021(20):156-159.
6宫凡舒.法院诉讼服务中心公共法律服务功能优化研究——基于组织效率边界分析[J].山东法官培训学院学报,2022,38(3):175-188.
7张一丁,蒋昕怡,史晓颖.感知词性信息的动作检测在视频描述中的应用[J].福建电脑,2022,38(6):95-98.
8靳丹丹.小学英语词汇教学中“词块记忆策略”的运用[J].好日子,2022(20):49-51.
9侯振瑜,张仰森,苏振江,谢少辉,胡昌秀.军事知识图谱的构建和检索方法研究[J].北京信息科技大学学报（自然科学版）,2022,37(3):82-87.
10李婷.词块教学法在大学英语阅读教学中的问题思考研究[J].海外英语,2022(10):126-127.

小型微型计算机系统

2022年第7期

浏览历史

内容加载中请稍等...

结合BiLSTM+CRF和TextRank的句法边界分析

参考文献6

二级参考文献12

共引文献45

相关作者

相关机构

相关主题

浏览历史