篇章级并列关系文本块识别方法研究被引量：1

Identifying Coordinate Text Blocks in Discourses

导出

摘要【目的】识别出科技论文中分布在不同段落、在语义及版面视觉上具有并列关系的文本块,捕捉并列关系文本特征,为并列关系知识对象识别提供预训练模型。【方法】以段落为处理单元,在字符向量和词向量的基础上附加版面视觉特征,对不同层级具有并列关系的文本进行多维特征表征,利用卷积神经网络(Convolutional Neural Networks, CNN)模型对标注数据进行文本分类训练,得到并列关系文本块识别模型。【结果】在人工标注的科技论文数据集上展开实验,对并列关系文本块分类准确率达96%,比基准模型高出约3%,召回率高出约2%。【局限】仅适用于HTML网页文本数据,对于其他格式的文本数据还有待进一步研究和实验。【结论】以段落为处理单元,综合多种特征后利用卷积神经网络模型能够高效识别篇章级并列关系文本块,可以作为并列关系知识对象识别预训练模型。 [Objective] This paper proposes a method to identify the coordinate text blocks by semantic and layout features, which are distributed in different paragraphs. It also provides a pre-trained model for these knowledge objects.[Methods] First, we used each paragraph as a processing unit and added the layout features based on the character and word vectors. Then, we concatenated multi-dimensional features to represent each paragraph. Third, we employed the convolutional neural network(CNN) model to train the annotated data and obtained the recognition model for coordinate relationship text blocks.[Results] The proposed approach achieved a precision of 96% with manually annotated scientific papers, which was 3% higher than those of the baseline model. The recall was also improved by 2%.[Limitations] Our model can only work with HTML files. More research is needed to examine it with other data formats.[Conclusions] The proposed method is able to effectively identify coordinate text blocks in discourses, which can be used as a pre-trained model for coordinate knowledge objects.

作者裴晶晶乐小虬 Pei Jingjing;Le Xiaoqiu(National Science Library,Chinese Academy of Sciences,Beijing 100190,China;Department of Library,Information and Archives Management,School of Economics and Management, University of Chinese Academy of Sciences,Beijing 100190,China)

机构地区中国科学院文献情报中心中国科学院大学经济与管理学院图书情报与档案管理系

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第5期51-56,共6页 Data Analysis and Knowledge Discovery

关键词并列关系文本表示文本块深度学习 Coordinate Relationship Text Representation Text Block Deep Learning

分类号 G250.76 [文化科学—图书馆学]

引文网络
相关文献

参考文献6

1昝红英,张静杰,娄鑫坡.汉语虚词用法在依存句法分析中的应用研究[J].中文信息学报,2013,27(5):35-42. 被引量：4
2王东波.基于规则的单层单标记联合结构自动识别[J].文教资料,2008(9):29-31. 被引量：6
3郑略省,吕学强,刘坤,林进.汉语并列关系的识别研究[J].北京大学学报（自然科学版）,2013,49(1):20-24. 被引量：7
4石翠,王杨,杨彬,姚晔.面向中文专利文献的单层并列结构识别[J].现代图书情报技术,2014(10):76-83. 被引量：3
5苗艳军,李军辉,周国栋.统计和规则相结合的并列结构自动识别[J].计算机应用研究,2009,26(9):3403-3406. 被引量：10
6张庆辉,万晨霞.卷积神经网络综述[J].中原工学院学报,2017,28(3):82-86. 被引量：23

二级参考文献49

1吴云芳.V+V形成的并列结构[J].语言研究,2004,24(3):45-51. 被引量：4
2董振东,董强.面向信息处理的词汇语义研究中的若干问题[J].语言文字应用,2001(3):27-32. 被引量：35
3吴云芳.动词性并列结构的结构平行[J].语言科学,2004,3(6):57-66. 被引量：4
4吴云芳.“和”“与”“并”“而”连接谓词性成分时的区别[J].语文研究,2005(1):13-16. 被引量：8
5吴云芳.并列成分中心语语义相似性考察[J].当代语言学,2005,7(4):305-315. 被引量：14
6周强.汉语语料库的短语自动划分和标注研究[D].北京:北京大学,2002.
7吴云芳.并列结构的外部句法特征:A集[c]//机器翻译研究进展—2002年全国机器翻译研讨会论文集.北京:电子工业出版社.2002.
8HOGAN D. Coordinate noun phrase disambiguation in a generative parsing model[ C ]//Proc of the 45th Annual Meeting of the Association of Computational Linguistics. 2007:680-687.
9段湘煜,赵军,徐波.基于动作建模的中文依存句法分析[J].中文信息学报,2007,21(5):25-30. 被引量：11
10俞士汶朱学锋刘云.现代汉语广义虚词知识库的建设.汉语语言与计算学报,2003,(1):89-98.

共引文献37

1雷慧静.卷积神经网络综述[J].中国科技纵横,2018,0(16):44-47. 被引量：1
2王东波,谢靖.基于清华汉语树库的有标记联合结构统计分析[J].现代图书情报技术,2010(4):12-17. 被引量：5
3石翠.面向中文专利文献的单层并列结构识别[J].软件,2014,35(3):68-71. 被引量：2
4王杨.并列结构识别研究综述[J].电脑与信息技术,2014,22(3):38-40.
5石翠,王杨,杨彬,姚晔.面向中文专利文献的单层并列结构识别[J].现代图书情报技术,2014(10):76-83. 被引量：3
6田雪,黄德根.一种混合的汉语简单名词短语识别方法[J].小型微型计算机系统,2017,38(4):749-754. 被引量：1
7韩丽国.现代汉语虚词“等”的功能视角研究[J].辽宁广播电视大学学报,2016(4):122-124.
8温锁林.当代新兴构式“我A,我B”研究[J].当代修辞学,2018(1):82-91. 被引量：6
9陈勇涛,郭晓颖,陶慧杰.基于深度学习的图像识别模型研究综述[J].电子世界,2018,0(4):65-66. 被引量：5
10刘小蝶,朱筠,晋耀红.中文专利中有标记并列结构的自动识别研究[J].计算机工程,2018,44(6):162-168. 被引量：5

同被引文献4

1刘洋,崔雷.引文上下文在文献内容分析中的信息价值研究[J].图书情报工作,2014,58(6):101-104. 被引量：13
2刘盛博,王博,唐德龙,马翔,丁堃.基于引用内容的论文影响力研究——以诺贝尔奖获得者论文为例[J].图书情报工作,2015,59(24):109-114. 被引量：27
3雷声伟,陈海华,黄永,陆伟.学术文献引文上下文自动识别研究[J].图书情报工作,2016,60(17):78-87. 被引量：20
4MA Feng,WU Yishan.A survey study on motivations for citation:A case study on periodicals research and library and information science community in China[J].Chinese Journal of Library and Information Science,2009(3):28-43. 被引量：1

引证文献1

1Xiaoqiu Le,Jingdan Chu,Siyi Deng,Qihang Jiao,Jingjing Pei,Liya Zhu,Junliang Yao.CiteOpinion: Evidence-based Evaluation Tool for Academic Contributions of Research Papers Based on Citing Sentences[J].Journal of Data and Information Science,2019,4(4):26-41. 被引量：8

二级引证文献8

1谢珍,马建霞,胡文静.学术代表作评价:方法述评与研究展望[J].情报理论与实践,2021,44(12):190-196. 被引量：19
2Murtuza Shahzad,Hamed Alhoori.Public Reaction to Scientific Research via Twitter Sentiment Prediction[J].Journal of Data and Information Science,2022,7(1):97-124.
3乐小虬,赵建,朱丽雅,王露,江雅仁,常远,沈凌云.中国数学学科突破性引用评价论文循证分析[J].科学观察,2022,17(1):68-78.
4王露,乐小虬.科技论文引用内容分析研究进展[J].数据分析与知识发现,2022,6(4):1-15. 被引量：9
5唐晓波,向莉丽,牟昊.基于研究问题与研究方法贡献的论文学术价值早期识别方法[J].情报科学,2022,40(9):3-11. 被引量：9
6马瑞敏,刘志芳,吕宇涵,冯玉梅.基于引用评论加权的论文代表作遴选研究[J].情报学报,2023,42(3):279-288. 被引量：1
7蔡乐,罗卓然,陆伟.学术论文科研贡献类型自动识别研究[J].情报理论与实践,2023,46(6):168-175. 被引量：1
8马瑞敏,冯玉梅,宋国庆.引用评论证据视角下高水平论文遴选研究[J].情报学报,2024,43(7):789-801.

1袁建平,陈晓龙,陈显龙,何恩杰,张加其,高宇豆.基于文本与视觉信息的细粒度图像分类[J].图学学报,2019,40(3):503-512. 被引量：4
2林璐.基于京东电商平台热水器的消费者需求及产品数据挖掘分析[J].电脑知识与技术,2019,15(6Z):303-304.
3李耀锋,李佳佳,张余慧.社会工作介入新型职业农民培育的价值空间与促进机制[J].经济与社会发展,2019,17(1):70-74. 被引量：4
4黄少丰.核心素养下电磁感应中能量问题的模型构建[J].中学理科园地,2019,15(3):59-60. 被引量：1
5刘月锟,颛孙盈,徐贝宁,沈碧荷.森林在递归算法分析中的应用[J].计算机科学与应用,2019,9(7):1398-1405.
6李冠林,薛璇.AR媒介视域下的广告接触点虚拟化模态分析[J].出版广角,2019(12):76-78. 被引量：1
7张金柱,胡一鸣.融合表示学习与机器学习的专利科学引文标题自动抽取研究[J].数据分析与知识发现,2019,3(5):68-76. 被引量：1
8刘长占,李爱红,关荐伊,温守东,牛桂玲.工业废水由集中式处理向分散式处理的改造研究[J].承德石油高等专科学校学报,2019,21(3):27-31. 被引量：3
9李万理,唐婧尧,薛云,胡晓晖,张涛.基于点互信息的全局词向量模型[J].山东大学学报（理学版）,2019,54(7):100-105. 被引量：3
10赵靖.实验考试系统中的基于词频代码反剽窃技术[J].现代计算机,2019,25(19):28-31.

数据分析与知识发现

2019年第5期

浏览历史

内容加载中请稍等...

篇章级并列关系文本块识别方法研究被引量：1

参考文献6

二级参考文献49

共引文献37

同被引文献4

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

篇章级并列关系文本块识别方法研究 被引量：1

参考文献6

二级参考文献49

共引文献37

同被引文献4

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

篇章级并列关系文本块识别方法研究被引量：1