期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于CATIA二次开发的文档交互式提取方法
1
作者 陈伟武 方文熙 张德晖 《贵州大学学报(自然科学版)》 2014年第2期84-87,99,共5页
针对CATIA工程装配中大量文档普遍存在的管理散乱的特点,提出了基于CATIA二次开发的文档交互式提取方法,利用CATIA提供的API接口函数以及VB编程技术,设计了友好的人机交互界面,采用递归遍历装配结构树的方法,实现了文档的快速提取功能,... 针对CATIA工程装配中大量文档普遍存在的管理散乱的特点,提出了基于CATIA二次开发的文档交互式提取方法,利用CATIA提供的API接口函数以及VB编程技术,设计了友好的人机交互界面,采用递归遍历装配结构树的方法,实现了文档的快速提取功能,提取测试结果表明该方法操作简单、快捷、效率高、实用可靠。 展开更多
关键词 CATIA 二次开发 装配 文档提取 交互式
下载PDF
Word服务器的接口解析与文档属性提取 被引量:6
2
作者 汤克明 陈崚 《计算机工程与应用》 CSCD 北大核心 2008年第28期79-82,共4页
论述了对Office对象库分析的必要性;以Word软件为例,对Word服务器进行了概述,给出了构建Word服务器的7个组件接口以及对应的实现类,并对主要接口对象之间的层次关系进行了说明;介绍了Word文档属性的提取方法,通过Word文档分析工具的实... 论述了对Office对象库分析的必要性;以Word软件为例,对Word服务器进行了概述,给出了构建Word服务器的7个组件接口以及对应的实现类,并对主要接口对象之间的层次关系进行了说明;介绍了Word文档属性的提取方法,通过Word文档分析工具的实现证明所给方法是正确并且可行的。 展开更多
关键词 Word服务器 接口解析 文档属性提取
下载PDF
基于超文本标记语言的文档信息自动提取技术研究 被引量:4
3
作者 佘俊 余少锋 +2 位作者 周宇鹏 廖崇阳 罗勇 《粘接》 CAS 2020年第8期80-84,共5页
文章研究探索了如何使用文档分解(文档结构研究),文档标记(具有可扩展标记语言(XML)),超文本标记语言(HML)和可伸缩矢量图形(SVG),以及多方面的分类机制。文档内容提取是通过计算机编程(使用Java)实现的。在这项研究中开发的文档信息自... 文章研究探索了如何使用文档分解(文档结构研究),文档标记(具有可扩展标记语言(XML)),超文本标记语言(HML)和可伸缩矢量图形(SVG),以及多方面的分类机制。文档内容提取是通过计算机编程(使用Java)实现的。在这项研究中开发的文档信息自动提取技术证明:作为信息提供者,可以使信息用户(包括工程师)以更易于访问的方式制作文档内容。 展开更多
关键词 文档信息自动提取 超文本标记语言 分解方案 文档标记 分面分类
下载PDF
基于MapReduce并行计算提取文档特征Textrank算法研究
4
作者 孙龙 李彦 《现代信息科技》 2018年第10期80-83,共4页
Textrank相比词袋模型有独特的优势,但需要进行多轮迭代和递归运算,常规串行化算法无法满足大数据环境下文档处理的需求。必须借助大数据的分布式处理、并行化计算技术来应对这一挑战。本文学习研究了大数据平台Hadoop的分布式处理方式... Textrank相比词袋模型有独特的优势,但需要进行多轮迭代和递归运算,常规串行化算法无法满足大数据环境下文档处理的需求。必须借助大数据的分布式处理、并行化计算技术来应对这一挑战。本文学习研究了大数据平台Hadoop的分布式处理方式,并在MapReduce框架下实现并行了Textrank并行提取文档特征的算法。同时,本文就Textrank中关键的投票算法提出了MapReduce迭代实现。经在Hadoop集群上验证,在计算节点增加的情况下,该模式可有效提升Textrank算法效率。 展开更多
关键词 MAPREDUCE Textrank 文档特征提取
下载PDF
文本信息深度提取及多关键词并行匹配技术研究 被引量:2
5
作者 王文奇 李勇 关云云 《计算机工程》 CAS CSCD 北大核心 2018年第12期281-287,共7页
目前文本信息提取与检索无法适应复杂环境、受用户权限限制以及面临存储器容量大的问题。为此,通过对各种文档文本信息的特征分析,建立基于并行的深度文本信息分析系统。基于XML细粒度表达的不同类型文档提取文本信息,采用基于多核的并... 目前文本信息提取与检索无法适应复杂环境、受用户权限限制以及面临存储器容量大的问题。为此,通过对各种文档文本信息的特征分析,建立基于并行的深度文本信息分析系统。基于XML细粒度表达的不同类型文档提取文本信息,采用基于多核的并行技术根据关键词检索分析提取的文本信息,最后输出信息分析结果。实验结果表明,该系统能够细粒度地深入分析不同类型文本信息,在检索词数量较多时,可以快速提取完整信息。 展开更多
关键词 XML细粒度表达 磁盘信息提取 文档文本信息提取 内存管理算法 并行搜索算法
下载PDF
基于语义的中文文本关键词提取算法 被引量:48
6
作者 王立霞 淮晓永 《计算机工程》 CAS CSCD 2012年第1期1-4,共4页
为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明,与基... 为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明,与基于统计特征的关键词提取算法相比,SKE算法提取的关键词能体现文档的主题,更符合人们的感知逻辑,且算法性能较优。 展开更多
关键词 提取算法相比 SKE算法提取的关键词能体现文档的主题 更符合人们的感知逻辑 且算法性能较优.关键词:关键词提取 语义相似度 词语语义相似度网络 居间度 中文文本
下载PDF
基于Word2vec的文档分类方法 被引量:10
7
作者 陈杰 陈彩 梁毅 《计算机系统应用》 2017年第11期159-164,共6页
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征... 文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高. 展开更多
关键词 文档向量 文档特征提取 文档分类 TF-IDF word2vec
下载PDF
不依赖LIS系统接口的医院报告在线浏览系统
8
作者 巴武龙 楚治良 +3 位作者 王珊 孟晓东 吉萍 赵光 《实用医药杂志》 2020年第12期1145-1147,共3页
利用电子文档提取技术提取电子版报告内数据,并以MTV模式架构网站实现报告院内浏览。该方法可以作为LIS系统的补充,同时,在实现检验报告院内浏览方面具有更加简单便捷的开发途径,可解决医院内存在的“信息孤岛”问题,提高医院院内数据... 利用电子文档提取技术提取电子版报告内数据,并以MTV模式架构网站实现报告院内浏览。该方法可以作为LIS系统的补充,同时,在实现检验报告院内浏览方面具有更加简单便捷的开发途径,可解决医院内存在的“信息孤岛”问题,提高医院院内数据共享程度。 展开更多
关键词 医学检验 LIS 电子文档提取技术
下载PDF
WEB文本分类技术在企业竞争情报分析中的应用 被引量:8
9
作者 薛燕波 《情报科学》 CSSCI 北大核心 2004年第3期378-380,384,共4页
笔者在实际竞争情报工作过程中发现了现有竞争情报工作中存在的问题——竞争情报的搜集和分析主要依靠人工来完成 ,效率低下 ;针对这一问题 ,本文提出了把 web文本分类技术应用到企业竞争情报搜集和分析中去 。
关键词 WEB文本 分类技术 企业竞争 竞争情报分析 情报搜集 文档特征提取 情报源
下载PDF
本体知识理论在海相油气地质专业的应用研究 被引量:2
10
作者 宋付英 唐先明 李媛媛 《现代工业经济和信息化》 2015年第19期31-34,共4页
以海相中文文本为处理对象,首次将本体知识理论引入海相油气地质专业,介绍了本体知识获取过程中对文本信息的处理方法,还介绍了对文档特征进行提取的TF-IDF算法的改进和修正过程,为有效地生成文档特征向量空间,构建海相油气地质专业知识... 以海相中文文本为处理对象,首次将本体知识理论引入海相油气地质专业,介绍了本体知识获取过程中对文本信息的处理方法,还介绍了对文档特征进行提取的TF-IDF算法的改进和修正过程,为有效地生成文档特征向量空间,构建海相油气地质专业知识库,最终形成本体知识库提供具体方法。同时基于本体知识管理技术,根据海相油气地质领域知识获取与共享,利用三元组表示法构造海相油气概念本体知识,建立了海相油气地质专业知识库及相应的管理系统,有效促进了海相油气地质专业知识的推广与应用。 展开更多
关键词 海相 油气地质 本体知识 文档特征提取 TF-IDF算法
下载PDF
基于LDA的大V与草根用户微博主题模型构建 被引量:1
11
作者 张钰莎 罗莉霞 《现代计算机》 2019年第2期3-6,11,共5页
针对微博划分的草根用户与大V用户两个群体。通过LDA主题模型对用户的微博语料进行训练,分别得出两类用户微博关注的主题分布,从而分析其中的差异和交集。利用训练的主题模型结果,使用分类算法进行新输入文档的主题分布判断。
关键词 LDA模型 网络爬虫 文档特征提取 文本生成模型
下载PDF
Meaningful String Extraction Based on Clustering for Improving Webpage Classification
12
作者 Chen Jie Tan Jianlong +1 位作者 Liao Hao Zhou Yanquan 《China Communications》 SCIE CSCD 2012年第3期68-77,共10页
Since webpage classification is different from traditional text classification with its irregular words and phrases,massive and unlabeled features,which makes it harder for us to obtain effective feature.To cope with ... Since webpage classification is different from traditional text classification with its irregular words and phrases,massive and unlabeled features,which makes it harder for us to obtain effective feature.To cope with this problem,we propose two scenarios to extract meaningful strings based on document clustering and term clustering with multi-strategies to optimize a Vector Space Model(VSM) in order to improve webpage classification.The results show that document clustering work better than term clustering in coping with document content.However,a better overall performance is obtained by spectral clustering with document clustering.Moreover,owing to image existing in a same webpage with document content,the proposed method is also applied to extract image meaningful terms,and experiment results also show its effectiveness in improving webpage classification. 展开更多
关键词 webpage classification meaningfulstring extraction document clustering term cluste-ring K-MEANS spectral clustering
下载PDF
Enhancing Domain Knowledge with Semantic Models of Web Documents
13
作者 Anna Rozeva 《Journal of Mathematics and System Science》 2013年第7期319-326,共8页
The paper considers the problem of semantic processing of web documents by designing an approach, which combines extracted semantic document model and domain- related knowledge base. The knowledge base is populated wi... The paper considers the problem of semantic processing of web documents by designing an approach, which combines extracted semantic document model and domain- related knowledge base. The knowledge base is populated with learnt classification rules categorizing documents into topics. Classification provides for the reduction of the dimensio0ality of the document feature space. The semantic model of retrieved web documents is semantically labeled by querying domain ontology and processed with content-based classification method. The model obtained is mapped to the existing knowledge base by implementing inference algorithm. It enables models of the same semantic type to be recognized and integrated into the knowledge base. The approach provides for the domain knowledge integration and assists the extraction and modeling web documents semantics. Implementation results of the proposed approach are presented. 展开更多
关键词 Semantic model knowledge base document classification domain ontology knowledge integration.
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部