基于文本化简的实体属性抽取方法被引量：2

Entity Attributes Extraction Based on Text Simplification

下载PDF

导出

摘要研究了非结构化中文文本的实体属性抽取方法。引入文本化简作为抽取的预处理过程,解决传统信息抽取方法因为长难句的存在和自然语言表述多样性导致抽取效果不佳的问题。其中,文本化简被建模为一个序列到序列(seq2seq)的翻译过程,并用机器翻译领域的seq2seq-RNN模型进行实现。为了提升模型的化简效果,进行了不同层面的优化,包括使用预训练词向量、收集常用词汇表、引入词性标注和设计化简评分函数,这些优化使模型专注于化简过程中句法转换的学习。针对化简后的文本,设计基于简洁规则的方法进行信息元组和实体属性抽取。实验表明,对seq2seq-RNN的改进能提升文本化简的效果,而且在化简文本上抽取的信息数量比在原始文本上的多,信息也比较精确。 In this paper,the method of entity attributes extraction on unstructured Chinese text is studied.Text Simplification(TS)is introduced as the pretreatment process of extraction to solve the problem that traditional information extraction methods are ineffective because of the existence of long and difficult sentences and the diversity of natural language expressions.TS is modeled as a sequence to sequence(seq2seq)procedure,and is implemented with the seq2seq-RNN model in the machine translation field.To improve the model,several strategies,including pre-trained word vectors,common vocabulary,POS tagging and simplifying scoring function,are introduced to make the model focus more on syntax transformation during TS.For the simplified text,a simple rule-based method is used to perform information tuple extraction,and later entity attributes are extracted from those tuples.The experimental results show that the improvements on seq2seq-RNN achieve better performance on text simplification,and the amount of information extracted from the simplified text is more than the original text,while the information is more accurate.

作者吴呈王朝坤王沐贤 WU Cheng;WANG Chaokun;WANG Muxian(School of Software,Tsinghua University,Beijing 100084,China;School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)

机构地区清华大学软件学院哈尔滨工业大学计算机学院

出处《计算机工程与应用》 CSCD 北大核心 2020年第21期115-122,共8页 Computer Engineering and Applications

基金国家自然科学基金(No.61872207) 国家重点研发计划(No.2017YFC0820402)。

关键词文本化简信息抽取实体属性自然语言处理神经网络 text simplification information extraction entity attributes natural language processing neural network

分类号 TP183 [自动化与计算机技术—控制理论与控制工程] TP274 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

同被引文献11

1韩萌,李蔚清.基于特征增强的中文STEM课程知识的关系抽取[J].计算机应用研究,2020,37(S01):40-42. 被引量：3
2唐焕玲,林正奎,鲁明羽.基于差异性评估对Co-training文本分类算法的改进[J].电子学报,2008,36(B12):138-143. 被引量：4
3郭茂盛,张宇,刘挺.文本蕴含关系识别与知识获取研究进展及展望[J].计算机学报,2017,40(4):889-910. 被引量：27
4侯强,侯瑞丽.机器翻译方法研究与发展综述[J].计算机工程与应用,2019,55(10):30-35. 被引量：25
5唐焕玲,窦全胜,于立萍,宋英杰,鲁明羽.有监督主题模型的SLDA-TC文本分类新方法[J].电子学报,2019,47(6):1300-1308. 被引量：10
6张志昌,曾扬扬,庞雅丽.融合语义角色和自注意力机制的中文文本蕴含识别[J].电子学报,2020,48(11):2162-2169. 被引量：9
7马燕,郭惠芬,张永儒.基于知识图谱的智慧教育热点研究[J].数字教育,2021,7(1):15-20. 被引量：2
8蒋禹飞,唐烨伟,孙宏志.基于学科知识图谱的智慧课堂教学问题设计方法及举隅[J].天津市教科院学报,2021,33(3):71-76. 被引量：6
9Sheng-Luan Hou,Xi-Kun Huang,Chao-Qun Fei,Shu-Han Zhang,Yang-Yang Li,Qi-Lin Sun,Chuan-Qing Wang.A Survey of Text Summarization Approaches Based on Deep Learning[J].Journal of Computer Science & Technology,2021,36(3):633-663. 被引量：1
10江洋洋,金伯,张宝昌.深度学习在自然语言处理领域的研究进展[J].计算机工程与应用,2021,57(22):1-14. 被引量：22

引证文献2

1唐焕玲,卫红敏,王育林,朱辉,窦全胜.结合LDA与Word2vec的文本语义增强方法[J].计算机工程与应用,2022,58(13):135-145. 被引量：20
2杨泽森,田秀霞,赵红成.面向C++学科文本的三元组抽取系统仿真[J].计算机仿真,2023,40(5):312-317. 被引量：1

二级引证文献21

1洪海蓝,李文林,杨涛,李玥,梅文静.基于知识图谱的海洋中药智能问答系统的设计与实现[J].世界科学技术-中医药现代化,2023(6):1935-1941. 被引量：4
2赵训新,王卫玉,马泽宁,陈启卷.基于知识图谱的水电机组主动维护体系探讨[J].水电与新能源,2022,36(8):23-27. 被引量：3
3杨益兴,许洪波.基于语义相似度与PROMETHEE的生鲜电商服务质量评价[J].昆明理工大学学报（社会科学版）,2023,23(2):109-118. 被引量：1
4邹丽强,何月顺.多特征融合的文本相似度方法[J].现代电子技术,2023,46(11):103-108. 被引量：1
5周志刚,窦路遥.基于专利视角的企业潜在竞争与合作关系预测——以钙钛矿型太阳能电池为例[J].科技管理研究,2023,43(10):136-145. 被引量：2
6张霁阳,张鹏,李思佳,刘静,窦云莲,兰月新.基于实时社会网络分析的突发舆情事件动态意见领袖识别方法研究[J].情报杂志,2023,42(9):109-116. 被引量：3
7于诗睿,李爱花,林紫洛,陈逸菲,唐小利.基于主题模型的科技文献主题演化及优化方法研究综述[J].医学信息学杂志,2023,44(8):31-36.
8黄婵.社交媒体热点事件挖掘与传播机制研究——基于事件网络文本表示模型[J].互联网周刊,2023(20):18-20. 被引量：2
9尹杰,倪鹏锐.基于深度学习的网站类型识别研究[J].电子设计工程,2023,31(21):42-46.
10陈克院,邱天.危险的恋爱:婚恋类社交App个人信息保护现状研究[J].新媒体研究,2023,9(14):40-46.

1侯玉兵.基于注意机制的短文本分类方法[J].电脑知识与技术,2020,16(28):185-186. 被引量：2
2郭雯璇.新媒体环境下的广播电视新闻采编技巧探讨[J].传播力研究,2020,4(24):73-74. 被引量：12
3殷小庆,严竞新,冉隆思,王西萍.基于DEM的等高线自动生成方法研究[J].测绘标准化,2019,35(4):13-15. 被引量：1
4李思锐.基于BERT的子词级中文文本分类方法[J].计算机科学与应用,2020,10(6):1075-1086. 被引量：1
5姚晓莉.浅析对外汉语教材中词性标注的不一致现象--以《中文》(初中版)第一册为例[J].新闻研究导刊,2020,11(21):211-212.
6温连发,张华,丁金挺.基于蛇模型的等深线化简质量定量调控方法[J].海洋测绘,2020,40(1):49-52. 被引量：2
7聂丽丽,陈妍妍,任宇飞,陈勇飞,叶庆.互联网医院全流程诊疗服务系统构建:以武汉同济医院为例[J].中华医院管理杂志,2020,36(10):833-836. 被引量：20
8尉桢楷,程梦,周夏冰,李志峰,邹博伟,洪宇,姚建民.基于类卷积交互式注意力机制的属性抽取研究[J].计算机研究与发展,2020,57(11):2456-2466. 被引量：9
9刘敏,陆秀英.释意理论视角下法庭口译汉英术语翻译方法探究[J].海外英语,2020(19):171-172.
10范紫薇.图书馆微信公众号的传播对策研究[J].传播力研究,2020,4(22):54-55.

计算机工程与应用

2020年第21期

浏览历史

内容加载中请稍等...

基于文本化简的实体属性抽取方法被引量：2

同被引文献11

引证文献2

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于文本化简的实体属性抽取方法 被引量：2

同被引文献11

引证文献2

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于文本化简的实体属性抽取方法被引量：2