期刊文献+
共找到51篇文章
< 1 2 3 >
每页显示 20 50 100
电网OA系统非结构化文档内容自动化识别技术
1
作者 冯光璐 欧阳静 +2 位作者 李然 倪凡 曾路 《信息技术》 2024年第1期104-109,114,共7页
针对电网OA系统内存在大量的非结构化文档难以识别的问题,研究电网OA系统非结构化文档内容自动化识别技术。采用非直接转换方法,将非结构化数据先转换为采用XML文件承载的不完全结构化数据,利用SAX解析工具解析不完全结构化数据,采用Sim... 针对电网OA系统内存在大量的非结构化文档难以识别的问题,研究电网OA系统非结构化文档内容自动化识别技术。采用非直接转换方法,将非结构化数据先转换为采用XML文件承载的不完全结构化数据,利用SAX解析工具解析不完全结构化数据,采用Simhash算法对文本信息进行去重处理;采用TextRank算法提取文本内的关键词,根据关键词识别电网OA系统非结构化文档内容。测试结果显示,在海明距离与相似度阈值分别为10和70的条件下可获取较好的去重效果,关键词提取效果较好,具有推广价值。 展开更多
关键词 结构化文档 非直接转换 自动化识别 关键词提取 去重算法
下载PDF
基于贝叶斯网络的结构化文档检索模型 被引量:1
2
作者 赵爽 徐建民 《计算机工程与应用》 CSCD 北大核心 2007年第21期180-183,共4页
研究表明合理考虑术语之间的关系可以提高检索系统的性能。采用共现分析的方法从文档集合中学习得到术语之间的关系,并应用到结构化文档检索中,提出了一个基于贝叶斯网络的结构化文档检索模型,给出了其拓扑结构、概率估计以及推理过程... 研究表明合理考虑术语之间的关系可以提高检索系统的性能。采用共现分析的方法从文档集合中学习得到术语之间的关系,并应用到结构化文档检索中,提出了一个基于贝叶斯网络的结构化文档检索模型,给出了其拓扑结构、概率估计以及推理过程。实验表明该模型的检索性能要优于没有考虑术语之间关系的模型。 展开更多
关键词 贝叶斯网络 结构化文档 结构化文档检索 共现分析
下载PDF
基于行为的结构化文档多级访问控制 被引量:17
3
作者 熊金波 姚志强 +2 位作者 马建峰 李凤华 李琦 《计算机研究与发展》 EI CSCD 北大核心 2013年第7期1399-1408,共10页
针对当前云计算环境中因缺乏多级安全机制而使结构化文档容易产生信息泄露和非授权访问等问题,提出基于行为的多级访问控制(action-based multilevel access control model,AMAC)模型并给出策略的形式化描述.利用信息流中的不干扰理论建... 针对当前云计算环境中因缺乏多级安全机制而使结构化文档容易产生信息泄露和非授权访问等问题,提出基于行为的多级访问控制(action-based multilevel access control model,AMAC)模型并给出策略的形式化描述.利用信息流中的不干扰理论建立AMAC不干扰模型,并证明AMAC模型中多级访问控制策略的安全性.与已有访问控制模型的比较与分析表明,AMAC模型既可以利用角色、上下文和用户访问行为以提高访问控制策略的灵活性,还可以依据用户,用户访问行为和结构化文档的安全等级实现多级安全机制. 展开更多
关键词 多级安全 多级访问控制 结构化文档 不干扰理论 云计算 访问行为
下载PDF
半结构化文档集的结构模式提取的研究与实现 被引量:5
4
作者 杨建武 陈晓鸥 《计算机工程》 CAS CSCD 北大核心 2001年第10期19-21,113,共4页
提出了通过结构模式提取,在信息源对缺失信息进行恢复与重构的思想,给出了结构模式提取模型,并讨论了实现该模型的关键步骤与算法,最后结合基于该模型实现的系统对半结构化文档集的结构模式提取及其应用进行了总结。该研究成果已成功应... 提出了通过结构模式提取,在信息源对缺失信息进行恢复与重构的思想,给出了结构模式提取模型,并讨论了实现该模型的关键步骤与算法,最后结合基于该模型实现的系统对半结构化文档集的结构模式提取及其应用进行了总结。该研究成果已成功应用于实际系统中。 展开更多
关键词 结构化文档 结构模式提取 WEB INTERNET
下载PDF
一种用于结构化文档检索的贝叶斯网络 被引量:4
5
作者 徐建民 陈振亚 《计算机工程》 CAS CSCD 北大核心 2011年第13期43-45,共3页
分析结构化文档的表示方法及检索特点,对一种用于结构化文档检索的贝叶斯网络进行研究。讨论该贝叶斯网络的构造方法、概率估计及推理过程。用网络节点表示文档索引术语和结构单元,用弧表示术语和结构单元的隶属关系,根据TF-IDF方法估... 分析结构化文档的表示方法及检索特点,对一种用于结构化文档检索的贝叶斯网络进行研究。讨论该贝叶斯网络的构造方法、概率估计及推理过程。用网络节点表示文档索引术语和结构单元,用弧表示术语和结构单元的隶属关系,根据TF-IDF方法估计各节点的先验概率,当给定一个查询时,通过计算每个结构单元的条件概率得到该结构单元的相关值。实例验证了该贝叶斯网络的有效性。 展开更多
关键词 贝叶斯网络 结构化文档 信息检索 先验概率估计
下载PDF
云计算环境中结构化文档形式化建模 被引量:2
6
作者 熊金波 姚志强 金彪 《计算机应用》 CSCD 北大核心 2013年第5期1267-1270,共4页
结构化文档是云计算环境中实现信息交互与传播的载体,针对已有研究工作缺乏能够描述这种载体的结构化文档模型的问题,在深入分析云计算环境中结构化文档特征的基础上,对文档元素、原子文档元素、连接、文档片段、复杂文档元素等进行形... 结构化文档是云计算环境中实现信息交互与传播的载体,针对已有研究工作缺乏能够描述这种载体的结构化文档模型的问题,在深入分析云计算环境中结构化文档特征的基础上,对文档元素、原子文档元素、连接、文档片段、复杂文档元素等进行形式化定义,建立能够满足这种特征的结构化文档形式化模型。最后,指出云计算环境中结构化文档进一步的研究方向。 展开更多
关键词 云计算 结构化文档模型 形式化方法 文档元素
下载PDF
一种结构化文档自动生成方法的研究与实现 被引量:2
7
作者 张卫祥 吴欣 刘文红 《飞行器测控学报》 2007年第6期91-94,共4页
介绍了一种结构化文档的自动生成方法,该方法基于Microsoft Office的COM对象和自定义的word域,便于生成舍有文本、表格、图片、OLE对象等各种文档元素的具有固定公文格式的word文档。为方便读者领会和实践,还给出了以C#语言描述的部... 介绍了一种结构化文档的自动生成方法,该方法基于Microsoft Office的COM对象和自定义的word域,便于生成舍有文本、表格、图片、OLE对象等各种文档元素的具有固定公文格式的word文档。为方便读者领会和实践,还给出了以C#语言描述的部分核心代码。 展开更多
关键词 结构化文档 自动生成 COM对象 WORD域 C#. NET
下载PDF
Word域在结构化文档管理中的应用 被引量:1
8
作者 黄龙军 俞杭女 《绍兴文理学院学报(自然科学版)》 2004年第9期45-48,共4页
作者把Word域和数据库结合,运用VBA编程,把数据库中的数据插入到文档中,解决了结构化文档的管理问题.
关键词 结构化文档 数据库 数据插入 VBA编程 作者 管理问题 应用
下载PDF
基于Lucene的非结构化文档全文检索系统研究与实现 被引量:4
9
作者 刘东君 李德泉 +1 位作者 周勇 周峥嵘 《软件导刊》 2013年第10期100-102,共3页
如何在海量的非结构文档内容中准确、快捷找到自己所需要的信息,是信息检索技术的研究重点。全文检索是现代信息检索技术一个非常重要的分支,是解决非结构化数据检索需求的重要技术手段。以已发布的各类通信业务管理规范的全文检索需求... 如何在海量的非结构文档内容中准确、快捷找到自己所需要的信息,是信息检索技术的研究重点。全文检索是现代信息检索技术一个非常重要的分支,是解决非结构化数据检索需求的重要技术手段。以已发布的各类通信业务管理规范的全文检索需求为切入点,设计并实现了适用于国家级气象信息化业务管理的非结构化文档全文检索系统。该系统基于Java技术,并采用Lucene技术框架,对业务规范信息进行了分析和重新数据组织,确保良好的检索时效与准确率。系统应用后能快速应对业务变化,在已有的大量的规定、规范、标准和公文函件中迅速、准确、全面地查找有关资料信息,帮助用户准确把握气象信息化发展脉络。 展开更多
关键词 结构化文档 全文检索 LUCENE 索引文件
下载PDF
面向多级安全的结构化文档描述模型
10
作者 苏铓 李凤华 +1 位作者 史国振 李莉 《通信学报》 EI CSCD 北大核心 2012年第S1期222-227,共6页
面向多要素访问控制和多级安全需求,为了解决网络环境的开放性、多样化所带来的安全问题,基于现有的结构化文档描述模型及访问控制模型,提出了一种面向多级安全的结构化文档描述模型和描述方法,并给出安全属性的描述结构及其对应的可扩... 面向多要素访问控制和多级安全需求,为了解决网络环境的开放性、多样化所带来的安全问题,基于现有的结构化文档描述模型及访问控制模型,提出了一种面向多级安全的结构化文档描述模型和描述方法,并给出安全属性的描述结构及其对应的可扩展标识语言(XML)实例,最后对提出的模型进行了安全性分析。 展开更多
关键词 结构化文档 访问控制 多级安全 可扩展标识语言 描述方法
下载PDF
一种基于内容权值的结构化文档检索方法
11
作者 范轶彦 朱利群 郭国强 《辽宁工学院学报》 2004年第6期18-21,共4页
结构化文档由标题、章节、段落等逻辑结构组成。利用文本文档中自然层次结构的优点,提出了一种新的相似度查找方法,用问题回答系统来实现。主要任务就是从底层的结构化文档集合中找到用户需要的最合适的答案。这种方法可以提供多粒度的... 结构化文档由标题、章节、段落等逻辑结构组成。利用文本文档中自然层次结构的优点,提出了一种新的相似度查找方法,用问题回答系统来实现。主要任务就是从底层的结构化文档集合中找到用户需要的最合适的答案。这种方法可以提供多粒度的文档内容的检索,包括从单词、短语到段落或者章节。用微软百科全书Encarta作为测试集,实验结果表明本文的方法能获得更加准确、简短的答案,同时提供更多关于问题的上下文信息,从而更好地理解答案。 展开更多
关键词 结构化文档 基于内容 文本文档 文档内容 权值 相似度 上下文 答案 检索方法 百科全书
下载PDF
基于结构化文档的钓鱼网站检测算法 被引量:3
12
作者 刘博文 王雨琪 林果园 《计算机工程与设计》 北大核心 2019年第10期2791-2798,共8页
为利用网站设计的视觉原则并降低钓鱼者修改网页代码组织方式对钓鱼检测的影响,提出基于网页主视觉区域的结构化文档DMVA (document based on main visual area)检测钓鱼网站。提出子间归并算法生成网页的视觉分块;基于用户的视觉行为,... 为利用网站设计的视觉原则并降低钓鱼者修改网页代码组织方式对钓鱼检测的影响,提出基于网页主视觉区域的结构化文档DMVA (document based on main visual area)检测钓鱼网站。提出子间归并算法生成网页的视觉分块;基于用户的视觉行为,结合层DOM树的分层结构,提出主视觉区域的思想,获取网页的分层主视觉区域中文本信息,构造DMVA;提出相关网站集,计算待测网站和相关网站集中网页间的DMVA的相似性,检测钓鱼网站。实验结果表明,基于DMVA检测钓鱼网站算法钓鱼检测方法具有较好的准确度。 展开更多
关键词 钓鱼检测 结构化文档 视觉分块 视觉行为 分层结构
下载PDF
基于结构化文档的测试需求分析自动化提取研究 被引量:2
13
作者 马康 《信息化研究》 2015年第1期1-3,共3页
随着软件工程化的发展,软件文档的描述越来越结构化。文章分析了结构化文档的数据,并基于结构化文档探讨了测试需求分析自动化提取的架构以及设计实现,对比分析了自动辅助提取与手工提取之间的效率和准确性。
关键词 结构化文档 自动化测试 测试需求分析
下载PDF
基于XML技术的结构化文档编辑器研究 被引量:5
14
作者 李红飞 姜海森 《软件》 2014年第5期114-118,共5页
本文主要对以XML技术为基础的结构化文档编辑器所使用的主要技术、以及功能框架进行研究和探讨。研究结果表明:以XML技术为基础的结构化文档编辑器特性突出,适用于复杂类结构化文档的编写、样式调整、文件发布。
关键词 结构化文档编辑器 XML技术 特性
下载PDF
一种支持互操作的非结构化文档管理技术
15
作者 王东临 张常有 《重庆邮电大学学报(自然科学版)》 2007年第B06期109-110,120,共3页
非结构化信息在计算机信息中占了大量份额。非结构化信息分为书面文档信息和流媒体两种,其中书面文档是主要表现形式之一。提出了一种实现可扩展的,支持互操作的非结构化文档管理平台SEP(Sursen ex- changeable platform)。SEP是针对书... 非结构化信息在计算机信息中占了大量份额。非结构化信息分为书面文档信息和流媒体两种,其中书面文档是主要表现形式之一。提出了一种实现可扩展的,支持互操作的非结构化文档管理平台SEP(Sursen ex- changeable platform)。SEP是针对书面文档的描述、存储、处理、管理、安全的基础技术平台,是非结构化信息处理技术领域中的核心技术。SEP是第一个支持UOML(unstructured operation markup language)标准的非结构化文档管理系统。 展开更多
关键词 结构化文档 互操作 SEP文档 安全
下载PDF
一种结构化Web文档的联合聚类算法 被引量:1
16
作者 邓冬梅 龙际珍 尹湘舟 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第5期1871-1876,共6页
为了对网上多媒体信息进行有效检索和过滤,提出一种基于文本和图片相似性融合的联合聚类算法。首先通过相似性计算得到文本相似性和图片相似性,然后,将所得文本相似性矩阵和图片相似性矩阵进行水平拼接融合,经奇异值分解后,进行k-means... 为了对网上多媒体信息进行有效检索和过滤,提出一种基于文本和图片相似性融合的联合聚类算法。首先通过相似性计算得到文本相似性和图片相似性,然后,将所得文本相似性矩阵和图片相似性矩阵进行水平拼接融合,经奇异值分解后,进行k-means联合聚类,使得聚类后的结果融合文本信息和图片信息。研究结果表明:与单一图像联合聚类方法相比,采用联合聚类算法所得每一簇的F-Measure值都有明显提高,与单一文本联合聚类在第1,2,3和7簇的F-Measure值也有所提高。 展开更多
关键词 联合聚类 相似性融合 结构化文档
下载PDF
基于Lucene的非结构化电子病历文档解析的实现 被引量:1
17
作者 彭红波 陈衍 +3 位作者 张铭 葛煦 蔡宏伟 韩晟 《中国医疗设备》 2013年第1期49-51,共3页
本文针对非结构化电子病历文档解析进行了细致的描述,并结合医生对病历检索的要求,提出了基于Lucene搜索引擎的全文检索手段,为非结构化电子病历文档查询提供了一种构建思路。
关键词 电子病历 结构化文档 结构化文档 LUCENE
下载PDF
企业非结构化文档数据治理探究 被引量:8
18
作者 张宁 冷秀斌 梁帆 《档案学研究》 CSSCI 北大核心 2020年第6期97-103,共7页
非结构化文档数据是企业文档数据的重要组成部分。但目前企业普遍缺乏对于非结构化文档数据的专门治理,极大阻碍了数据资产价值的实现。本文通过对案例企业的深度调研,提出由顶层设计、数据治理环境、数据治理域和数据治理过程四部分组... 非结构化文档数据是企业文档数据的重要组成部分。但目前企业普遍缺乏对于非结构化文档数据的专门治理,极大阻碍了数据资产价值的实现。本文通过对案例企业的深度调研,提出由顶层设计、数据治理环境、数据治理域和数据治理过程四部分组成的企业非结构化文档数据治理的总体规划,并以分级分类为治理思路,从平台化、智能化和安全化三个方向入手提出实施高效非结构化文档数据治理的方法。 展开更多
关键词 结构化文档数据 企业
原文传递
结构化文档检索模型的改进研究
19
作者 赵爽 吕震宇 林永民 《情报科学》 CSSCI 北大核心 2010年第11期1706-1709,共4页
针对已有的基于贝叶斯网络的结构化文档检索模型存在的偏好小结构单元的问题,提出了一种改进的检索模型推理算法,算法考虑了结构单元对查询术语的覆盖程度,避免了在推理过程中只使用相关概率排序带来的问题。实验表明检索模型应用该推... 针对已有的基于贝叶斯网络的结构化文档检索模型存在的偏好小结构单元的问题,提出了一种改进的检索模型推理算法,算法考虑了结构单元对查询术语的覆盖程度,避免了在推理过程中只使用相关概率排序带来的问题。实验表明检索模型应用该推理算法能有效提高结构化文档的检索性能。 展开更多
关键词 结构化文档 贝叶斯网络 信息检索
原文传递
非结构化表格文档数据抽取与组织模型研究 被引量:12
20
作者 张元鸣 陈苗 +2 位作者 陆佳炜 徐俊 肖刚 《浙江工业大学学报》 CAS 北大核心 2016年第5期487-494,共8页
针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括... 针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括逻辑结构抽取、文档预处理、数据抽取和数据组织等主要步骤,设计实现了单值区域与多值区域数据抽取算法;从文档中抽取的数据被组织成适合于MapReduce分析的结构化数据模型,该模型能够为大数据分析提供模型支持.实验结果表明:该抽取方法具有较高的准确率与召回率,数据组织模型也能够有效地支持大数据分析. 展开更多
关键词 结构化表格文档 数据抽取 结构化数据模型 数据分析
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部