期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于摘要文本的专利快速自动分类方法 被引量:13
1
作者 缪建明 贾广威 张运良 《情报理论与实践》 CSSCI 北大核心 2016年第8期103-105,91,共4页
随着我国专利申请数量的迅猛发展,对受理专利实现快速分类的需求也越来越迫切。作为专业性知识极强的科技文献,专利自动分类的正确率远高于普通文本的分类效果。基于专利摘要进行快速自动分类的方法,充分考虑专利类别的层次结构特性,建... 随着我国专利申请数量的迅猛发展,对受理专利实现快速分类的需求也越来越迫切。作为专业性知识极强的科技文献,专利自动分类的正确率远高于普通文本的分类效果。基于专利摘要进行快速自动分类的方法,充分考虑专利类别的层次结构特性,建立不同层次的类别特征中心向量,采用经典的类中心向量分类算法实现专利的快速自动分类。实验结果表明:该方法在专利不同层次上的分类效果明显,时效性大大提高,能够满足专利快速分类的实际需求。 展开更多
关键词 文本分类 专利分类 自动分类
下载PDF
基于Rule-Faster-RCNN的多语科技论文PDF文档结构框架元素解析
2
作者 何彦青 陈光云 +2 位作者 兰天 李岩 郭航程 《情报科学》 CSSCI 北大核心 2023年第4期51-61,共11页
【目的/意义】PDF文档能够如实地保存原文档的内容和外观,但是也给文档的解析带来了很大的困难。为了更为全面、自动地挖掘多语科技论文的文本信息,本文对多语论文PDF文档的有效解析和知识抽取方法进行了探究。【方法/过程】本文提出一... 【目的/意义】PDF文档能够如实地保存原文档的内容和外观,但是也给文档的解析带来了很大的困难。为了更为全面、自动地挖掘多语科技论文的文本信息,本文对多语论文PDF文档的有效解析和知识抽取方法进行了探究。【方法/过程】本文提出一种基于Rule-Faster-RCNN的多语科技论文PDF文档结构框架元素的解析方法,将科技论文全文的结构框架元素分为文本元素和图表元素,采用规则辅以Faster-RCNN深度学习方法分别进行提取,其中规则方法利用论文行文版式特点识别文字框架元素和图表元素,深度学习方法将图表识别看作目标检测构建Faster-RCNN网络来补充规则方法的不足。【结果/结论】经过实验验证了本文提出的PDF解析方法优于基准方法,成功地获取了科技论文的有效全文知识。【创新/局限】本文采用规则辅以深度学习方法更为精细地将多语科技论文的全文文档结构框架元素进行了提取,并验证了方法的有效性;然而限于PDF文档的复杂程度,表元素仅作为图片进行了提取,未能深入到表格内部的文本信息。 展开更多
关键词 多语科技论文 PDF文档 结构框架元素 图表解析 Rule-Faster-RCNN
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部