期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
Web文档清洗技术 被引量:3
1
作者 张波 王继成 +1 位作者 王强 张福炎 《计算机科学》 CSCD 北大核心 2002年第6期52-54,共3页
1引言 随着Internet在全球的迅速发展,WWW(World WideWeb)已经发展成为一个包含多种信息资源、站点遍布全球的巨大信息服务网络,为用户提供了一个极具价值的信息源,并已成为世界范围内信息共享和信息传播的最主要渠道之一.WWW系统一经出... 1引言 随着Internet在全球的迅速发展,WWW(World WideWeb)已经发展成为一个包含多种信息资源、站点遍布全球的巨大信息服务网络,为用户提供了一个极具价值的信息源,并已成为世界范围内信息共享和信息传播的最主要渠道之一.WWW系统一经出现,就得到了迅猛的发展,无论是WWW站点数还是WWW用户数,都是以每年5~10倍的速度呈指数形式增长.目前仅中国的Internet用户就已经达到了2500万. 展开更多
关键词 web Internet WWW 信息资源 信息挖掘 文档清洗 计算机网络 信息检索
下载PDF
直推式支持向量机在Web信息抽取中的应用研究 被引量:6
2
作者 肖建鹏 张来顺 任星 《计算机工程与应用》 CSCD 北大核心 2009年第2期147-149,共3页
直推式支持向量机是一种直接从已知样本出发对特定的未知样本进行识别的分类技术。在分析直推式支持向量机分类原理的基础上,提出一种基于直推式支持向量机的Web信息抽取方法,直接从分类的角度抽取Web信息。只需要提供少量标记样本就可... 直推式支持向量机是一种直接从已知样本出发对特定的未知样本进行识别的分类技术。在分析直推式支持向量机分类原理的基础上,提出一种基于直推式支持向量机的Web信息抽取方法,直接从分类的角度抽取Web信息。只需要提供少量标记样本就可以实现对大量未标注样本的分类标注,从而以分类的方式完成Web数据抽取任务。实验结果表明,使用这种方法进行Web信息抽取是有效性。 展开更多
关键词 web信息抽取 分类学习 直推式支持向量机
下载PDF
Web图像清洗技术的研究与实现 被引量:1
3
作者 张波 王继成 +1 位作者 王强 张福炎 《计算机研究与发展》 EI CSCD 北大核心 2002年第11期1484-1490,共7页
目前 Web文档中充斥着各种图像 ,因此 ,对 Web上的图像进行清洗就显得非常必要 .提出了 Web图像清洗的概念 ,给出了一种基于机器学习的 Web图像清洗方案 ,并实现了基于此方案的系统 .将图像特征的提取建立在 Web文档的 DOM结构之上 ,并... 目前 Web文档中充斥着各种图像 ,因此 ,对 Web上的图像进行清洗就显得非常必要 .提出了 Web图像清洗的概念 ,给出了一种基于机器学习的 Web图像清洗方案 ,并实现了基于此方案的系统 .将图像特征的提取建立在 Web文档的 DOM结构之上 ,并在决策树算法的基础上对多种特征表示及组合进行了实验和评估 .实验结果表明 ,提出的 Web图像清洗方案切实可行 ,清洗方法具有较快的速度和准确性 . 展开更多
关键词 web 图像清洗 机器学习 特征提取 决策树 图像处理 图像过滤
下载PDF
一种基于SVM的Web信息自动化抽取方法
4
作者 王亚利 李晓静 《东莞理工学院学报》 2012年第5期53-57,共5页
针对传统的Web信息抽取方法运算量大、自动化程度低的问题,提出了一种基于SVM的WEB信息自动化抽取方法。利用SVM优秀的分类性能将网页中有用数据和无用数据分类标注,有效地完成Web信息抽取任务,准确地抽取出所需信息,实现数据抽取的自... 针对传统的Web信息抽取方法运算量大、自动化程度低的问题,提出了一种基于SVM的WEB信息自动化抽取方法。利用SVM优秀的分类性能将网页中有用数据和无用数据分类标注,有效地完成Web信息抽取任务,准确地抽取出所需信息,实现数据抽取的自动化。实验结果表明,该方法可以有效地获取网页信息特征,具有较高的召回率和准确率。 展开更多
关键词 支持向量机 信息抽取 分类学习
下载PDF
基于全局语义匹配的篇章级事件抽取方法 被引量:1
5
作者 高兵 皇甫楠 +1 位作者 邹启杰 秦静 《计算机技术与发展》 2023年第7期154-159,共6页
作为自然语言处理领域中经典的信息抽取任务,事件抽取方法可以帮助人们从海量文本数据中快速准确地获取结构化事件信息,在事理图谱构建、舆情监控、态势感知等多个方面都起着举足轻重的作用。而由于事件组成的复杂性,文档中会包含多个... 作为自然语言处理领域中经典的信息抽取任务,事件抽取方法可以帮助人们从海量文本数据中快速准确地获取结构化事件信息,在事理图谱构建、舆情监控、态势感知等多个方面都起着举足轻重的作用。而由于事件组成的复杂性,文档中会包含多个相关的事件句,如果在对文档进行事件抽取时仅针对单个句子,从句子层面进行事件抽取,则很难将一个事件分散在整个文档中的事件信息抽取完整,得到完整的事件信息。为了解决这些问题,该文提出了基于全局语义匹配的篇章级事件抽取方法。首先,使用基于长短期记忆网络—条件随机场的序列标注模型进行句子级事件抽取;其次,在句子级事件抽取的基础上,采用所提全局语义匹配方法进行事件共指判断,通过融合句子级事件信息完成事件信息的完整抽取;最后,在MUC-4事件抽取数据集对所提模型进行验证,结果表明所提方法对文档中分散的事件元素有更准确抽取效果,在F1值上也有明显提升。 展开更多
关键词 事件抽取 篇章级事件抽取 全局语义匹配 论元识别 信息融合 机器学习
下载PDF
欧美科技政策文本扫描与监测系统实现 被引量:1
6
作者 于达海 常奥飞 +2 位作者 化柏林 王宏光 郑文蛟 《科技情报研究》 2023年第1期43-57,共15页
[目的/意义]科技政策对科技事业的发展具有指导作用,科技政策是否高效合理,对科学技术能否快速发展具有重要的影响。为了帮助决策者更快捷地掌握国际最新科技布局、规划与政策引领,特别是跟踪并分析欧美主要发达国家的科技政策,实时抓... [目的/意义]科技政策对科技事业的发展具有指导作用,科技政策是否高效合理,对科学技术能否快速发展具有重要的影响。为了帮助决策者更快捷地掌握国际最新科技布局、规划与政策引领,特别是跟踪并分析欧美主要发达国家的科技政策,实时抓取相应的科技政策文本并进行分析挖掘,在当前的国际环境下具有重要意义。[方法/过程]本研究设计并实现了欧美科技政策文本扫描与监测系统,主要包括数据库层、数据实体层、业务逻辑层和界面层4层体系架构,实现了定期采集、翻译、关键词抽取、技术实体抽取、自动摘要、政策文本分类以及演化分析等功能,为科技政策的制定与规划提供了重要的决策支持。[结果/结论]欧美科技政策文本扫描与监测系统有助于第一时间监测欧美科技政策最新动态,把握欧美科技政策的演化进程与趋势,及时窥探欧美科技政策的规划与布局,为我国科技政策的制定、规划与完善提供完备的信息支撑与决策参考。 展开更多
关键词 科技政策 网络爬虫 机器学习 文本挖掘 信息抽取
下载PDF
基于本体关系匹配的信息抽取 被引量:13
7
作者 何召卫 陈俊亮 《计算机工程》 CAS CSCD 北大核心 2007年第21期207-209,共3页
目前,稳定可靠的信息抽取是一个有待解决的问题,该文提出了基于本体关系匹配信息抽取算法,应用语义Web把信息抽取目标文档描述为特殊的本体格式,采用机器学习理论对本体进行分析和处理。测试数据集的实验结果显示,本体关系集匹配算法优... 目前,稳定可靠的信息抽取是一个有待解决的问题,该文提出了基于本体关系匹配信息抽取算法,应用语义Web把信息抽取目标文档描述为特殊的本体格式,采用机器学习理论对本体进行分析和处理。测试数据集的实验结果显示,本体关系集匹配算法优于其他4种信息抽取算法。 展开更多
关键词 信息抽取 语义web 机器学习
下载PDF
一种基于Markov逻辑网的中文地理名称实体解析方法 被引量:2
8
作者 胡宜敏 宋良图 +2 位作者 陈鹏 魏圆圆 苏雅茹 《模式识别与人工智能》 EI CSCD 北大核心 2013年第1期114-122,共9页
根据Markov逻辑网融合一阶谓词逻辑和概率图模型的复杂性及不确定性处理能力的优点,提出将Markov逻辑网和基于本体与WEB搜索的属性抽取算法相结合的命名实体解析方法(MLN_AENER),解决一般基于Markov逻辑网的实体解析方法对非结构化的命... 根据Markov逻辑网融合一阶谓词逻辑和概率图模型的复杂性及不确定性处理能力的优点,提出将Markov逻辑网和基于本体与WEB搜索的属性抽取算法相结合的命名实体解析方法(MLN_AENER),解决一般基于Markov逻辑网的实体解析方法对非结构化的命名实体解析效果不佳的问题,并将该方法针对中文地理名称解析问题进行相应设计和实验.实验结果表明该方法具有较好的解析效果. 展开更多
关键词 马尔科夫逻辑网络 命名实体解析 统计关系学习 机器学习 web属性抽取
下载PDF
隐马尔可夫模型解决信息抽取问题的仿真研究 被引量:5
9
作者 史西兵 王浩鸣 《计算机仿真》 CSCD 北大核心 2010年第5期132-135,共4页
研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的,为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔... 研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的,为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔可夫模型在处理规则知识上的优势对每个页面构建HTML树,并利用Shannon熵来定位数据域,再用Maxi-mum Likelihood方法实现隐马尔可夫模型的构建,实现对Web信息的抽取。仿真结果表明,通过对大量学术论文头部结构信息的抽取,应用算法可以使信息抽取在召回率和准确率方面有明显的提高。 展开更多
关键词 隐马尔可夫模型 信息抽取 极大似然 机器学习
下载PDF
基于混合机器学习模型的多文档自动摘要 被引量:8
10
作者 唐晓波 翟夏普 《情报理论与实践》 CSSCI 北大核心 2019年第2期145-150,共6页
[目的/意义]信息过载是当前社会面临的普遍性问题,如何从大量的信息中提取有价值的内容,已成为研究的一个重点,目前自动摘要技术成为解决此问题的一种途径。[方法/过程]为了解决多文档摘要信息不全面、冗余度高的问题,文章提出了针对中... [目的/意义]信息过载是当前社会面临的普遍性问题,如何从大量的信息中提取有价值的内容,已成为研究的一个重点,目前自动摘要技术成为解决此问题的一种途径。[方法/过程]为了解决多文档摘要信息不全面、冗余度高的问题,文章提出了针对中文文本的多文档自动摘要混合模型,并对该模型所包含的句子向量化、分类器分类、句群划分和句子重组四个部分做了详细说明。该混合模型在摘要提取的过程不仅考虑了句子的形式特征,还融合了句子的深层语义,最后采用基于改进的PageRank算法对摘要句进行重组。[结果/结论]当摘要句为30时,该模型的ROUGE-1得分平均值为0.2074,明显高于TextRank (0.0728)和基于聚类的算法(0.1074)。实验结果表明该模型在多主题的中文长文本上是有效的。[局限]由于中文语料的限制,本实验的数据量相对较小,模型的适应能力未在大数据集上验证。 展开更多
关键词 混合机器学习 多文档摘要 语义结构模型 信息抽取
下载PDF
中文专利文档关键词自动提取方法研究进展 被引量:1
11
作者 马运运 孙志一 +1 位作者 刘海波 彭勇 《世界科学技术-中医药现代化》 2015年第1期29-34,共6页
专利是一种包含学术、商业、法律等信息的科技文献,记录了大量新颖、实用的研究成果,近年来关注度不断提高。利用共词分析、文本聚类等方法对专利文献进行信息分析时,往往需要借助关键词提取技术达到降低数据复杂度、过滤噪声的目的。... 专利是一种包含学术、商业、法律等信息的科技文献,记录了大量新颖、实用的研究成果,近年来关注度不断提高。利用共词分析、文本聚类等方法对专利文献进行信息分析时,往往需要借助关键词提取技术达到降低数据复杂度、过滤噪声的目的。关键词提取技术多数基于统计规律。本文对基于词频、关联信息和多特征的关键词提取方法研究进展进行了总结,介绍了常用的分别以TF-IDF、熵、词汇链、Text Rank、遗传算法、决策树学习、朴素贝叶斯分类器、支持向量机等为主导的方法。另外,本文还总结了在专利文档关键词提取中可能用到的词频、位置、语义、关联、自身等方面的特征。实际应用中,关键词自动提取技术可作为一种有力的辅助手段,降低数据处理过程中的人力和时间成本。 展开更多
关键词 中文专利文档 关键词提取 TF-IDF 关联信息 机器学习
下载PDF
发现与切分复杂网页中的数据对象
12
作者 成奋华 叶施仁 《计算机工程与应用》 CSCD 北大核心 2005年第18期179-183,共5页
提出了一种从复杂网页中发现和切分有用的数据对象的自动方法。文章比较来自于同一网站的相似网页,从而发现其内容的组织和结构。首先,通过剔除页面中无关的部件,获得干净的数据区,它覆盖了数据对象的描述。其次,我们切分数据区中属于... 提出了一种从复杂网页中发现和切分有用的数据对象的自动方法。文章比较来自于同一网站的相似网页,从而发现其内容的组织和结构。首先,通过剔除页面中无关的部件,获得干净的数据区,它覆盖了数据对象的描述。其次,我们切分数据区中属于不同数据对象的结点,并由此构造结构良好、具备自我解释能力的XML输出文件,其中每一个文件恰包含一个数据对象。用户可以很方便地进一步从这些文件中提取数据到数据库和模板。实验结果表明该方法是有效的。 展开更多
关键词 信息抽取 web采掘 机器学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部