期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
12
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
Web文档清洗技术
被引量:
3
1
作者
张波
王继成
+1 位作者
王强
张福炎
《计算机科学》
CSCD
北大核心
2002年第6期52-54,共3页
1引言 随着Internet在全球的迅速发展,WWW(World WideWeb)已经发展成为一个包含多种信息资源、站点遍布全球的巨大信息服务网络,为用户提供了一个极具价值的信息源,并已成为世界范围内信息共享和信息传播的最主要渠道之一.WWW系统一经出...
1引言 随着Internet在全球的迅速发展,WWW(World WideWeb)已经发展成为一个包含多种信息资源、站点遍布全球的巨大信息服务网络,为用户提供了一个极具价值的信息源,并已成为世界范围内信息共享和信息传播的最主要渠道之一.WWW系统一经出现,就得到了迅猛的发展,无论是WWW站点数还是WWW用户数,都是以每年5~10倍的速度呈指数形式增长.目前仅中国的Internet用户就已经达到了2500万.
展开更多
关键词
web
Internet
WWW
信息资源
信息挖掘
文档清洗
计算机网络
信息检索
下载PDF
职称材料
直推式支持向量机在Web信息抽取中的应用研究
被引量:
6
2
作者
肖建鹏
张来顺
任星
《计算机工程与应用》
CSCD
北大核心
2009年第2期147-149,共3页
直推式支持向量机是一种直接从已知样本出发对特定的未知样本进行识别的分类技术。在分析直推式支持向量机分类原理的基础上,提出一种基于直推式支持向量机的Web信息抽取方法,直接从分类的角度抽取Web信息。只需要提供少量标记样本就可...
直推式支持向量机是一种直接从已知样本出发对特定的未知样本进行识别的分类技术。在分析直推式支持向量机分类原理的基础上,提出一种基于直推式支持向量机的Web信息抽取方法,直接从分类的角度抽取Web信息。只需要提供少量标记样本就可以实现对大量未标注样本的分类标注,从而以分类的方式完成Web数据抽取任务。实验结果表明,使用这种方法进行Web信息抽取是有效性。
展开更多
关键词
web
信息抽取
分类学习
直推式支持向量机
下载PDF
职称材料
Web图像清洗技术的研究与实现
被引量:
1
3
作者
张波
王继成
+1 位作者
王强
张福炎
《计算机研究与发展》
EI
CSCD
北大核心
2002年第11期1484-1490,共7页
目前 Web文档中充斥着各种图像 ,因此 ,对 Web上的图像进行清洗就显得非常必要 .提出了 Web图像清洗的概念 ,给出了一种基于机器学习的 Web图像清洗方案 ,并实现了基于此方案的系统 .将图像特征的提取建立在 Web文档的 DOM结构之上 ,并...
目前 Web文档中充斥着各种图像 ,因此 ,对 Web上的图像进行清洗就显得非常必要 .提出了 Web图像清洗的概念 ,给出了一种基于机器学习的 Web图像清洗方案 ,并实现了基于此方案的系统 .将图像特征的提取建立在 Web文档的 DOM结构之上 ,并在决策树算法的基础上对多种特征表示及组合进行了实验和评估 .实验结果表明 ,提出的 Web图像清洗方案切实可行 ,清洗方法具有较快的速度和准确性 .
展开更多
关键词
web
图像清洗
机器学习
特征提取
决策树
图像处理
图像过滤
下载PDF
职称材料
一种基于SVM的Web信息自动化抽取方法
4
作者
王亚利
李晓静
《东莞理工学院学报》
2012年第5期53-57,共5页
针对传统的Web信息抽取方法运算量大、自动化程度低的问题,提出了一种基于SVM的WEB信息自动化抽取方法。利用SVM优秀的分类性能将网页中有用数据和无用数据分类标注,有效地完成Web信息抽取任务,准确地抽取出所需信息,实现数据抽取的自...
针对传统的Web信息抽取方法运算量大、自动化程度低的问题,提出了一种基于SVM的WEB信息自动化抽取方法。利用SVM优秀的分类性能将网页中有用数据和无用数据分类标注,有效地完成Web信息抽取任务,准确地抽取出所需信息,实现数据抽取的自动化。实验结果表明,该方法可以有效地获取网页信息特征,具有较高的召回率和准确率。
展开更多
关键词
支持向量机
信息抽取
分类学习
下载PDF
职称材料
基于全局语义匹配的篇章级事件抽取方法
被引量:
1
5
作者
高兵
皇甫楠
+1 位作者
邹启杰
秦静
《计算机技术与发展》
2023年第7期154-159,共6页
作为自然语言处理领域中经典的信息抽取任务,事件抽取方法可以帮助人们从海量文本数据中快速准确地获取结构化事件信息,在事理图谱构建、舆情监控、态势感知等多个方面都起着举足轻重的作用。而由于事件组成的复杂性,文档中会包含多个...
作为自然语言处理领域中经典的信息抽取任务,事件抽取方法可以帮助人们从海量文本数据中快速准确地获取结构化事件信息,在事理图谱构建、舆情监控、态势感知等多个方面都起着举足轻重的作用。而由于事件组成的复杂性,文档中会包含多个相关的事件句,如果在对文档进行事件抽取时仅针对单个句子,从句子层面进行事件抽取,则很难将一个事件分散在整个文档中的事件信息抽取完整,得到完整的事件信息。为了解决这些问题,该文提出了基于全局语义匹配的篇章级事件抽取方法。首先,使用基于长短期记忆网络—条件随机场的序列标注模型进行句子级事件抽取;其次,在句子级事件抽取的基础上,采用所提全局语义匹配方法进行事件共指判断,通过融合句子级事件信息完成事件信息的完整抽取;最后,在MUC-4事件抽取数据集对所提模型进行验证,结果表明所提方法对文档中分散的事件元素有更准确抽取效果,在F1值上也有明显提升。
展开更多
关键词
事件抽取
篇章级事件抽取
全局语义匹配
论元识别
信息融合
机器学习
下载PDF
职称材料
欧美科技政策文本扫描与监测系统实现
被引量:
1
6
作者
于达海
常奥飞
+2 位作者
化柏林
王宏光
郑文蛟
《科技情报研究》
2023年第1期43-57,共15页
[目的/意义]科技政策对科技事业的发展具有指导作用,科技政策是否高效合理,对科学技术能否快速发展具有重要的影响。为了帮助决策者更快捷地掌握国际最新科技布局、规划与政策引领,特别是跟踪并分析欧美主要发达国家的科技政策,实时抓...
[目的/意义]科技政策对科技事业的发展具有指导作用,科技政策是否高效合理,对科学技术能否快速发展具有重要的影响。为了帮助决策者更快捷地掌握国际最新科技布局、规划与政策引领,特别是跟踪并分析欧美主要发达国家的科技政策,实时抓取相应的科技政策文本并进行分析挖掘,在当前的国际环境下具有重要意义。[方法/过程]本研究设计并实现了欧美科技政策文本扫描与监测系统,主要包括数据库层、数据实体层、业务逻辑层和界面层4层体系架构,实现了定期采集、翻译、关键词抽取、技术实体抽取、自动摘要、政策文本分类以及演化分析等功能,为科技政策的制定与规划提供了重要的决策支持。[结果/结论]欧美科技政策文本扫描与监测系统有助于第一时间监测欧美科技政策最新动态,把握欧美科技政策的演化进程与趋势,及时窥探欧美科技政策的规划与布局,为我国科技政策的制定、规划与完善提供完备的信息支撑与决策参考。
展开更多
关键词
科技政策
网络爬虫
机器学习
文本挖掘
信息抽取
下载PDF
职称材料
基于本体关系匹配的信息抽取
被引量:
13
7
作者
何召卫
陈俊亮
《计算机工程》
CAS
CSCD
北大核心
2007年第21期207-209,共3页
目前,稳定可靠的信息抽取是一个有待解决的问题,该文提出了基于本体关系匹配信息抽取算法,应用语义Web把信息抽取目标文档描述为特殊的本体格式,采用机器学习理论对本体进行分析和处理。测试数据集的实验结果显示,本体关系集匹配算法优...
目前,稳定可靠的信息抽取是一个有待解决的问题,该文提出了基于本体关系匹配信息抽取算法,应用语义Web把信息抽取目标文档描述为特殊的本体格式,采用机器学习理论对本体进行分析和处理。测试数据集的实验结果显示,本体关系集匹配算法优于其他4种信息抽取算法。
展开更多
关键词
信息抽取
语义
web
机器学习
下载PDF
职称材料
一种基于Markov逻辑网的中文地理名称实体解析方法
被引量:
2
8
作者
胡宜敏
宋良图
+2 位作者
陈鹏
魏圆圆
苏雅茹
《模式识别与人工智能》
EI
CSCD
北大核心
2013年第1期114-122,共9页
根据Markov逻辑网融合一阶谓词逻辑和概率图模型的复杂性及不确定性处理能力的优点,提出将Markov逻辑网和基于本体与WEB搜索的属性抽取算法相结合的命名实体解析方法(MLN_AENER),解决一般基于Markov逻辑网的实体解析方法对非结构化的命...
根据Markov逻辑网融合一阶谓词逻辑和概率图模型的复杂性及不确定性处理能力的优点,提出将Markov逻辑网和基于本体与WEB搜索的属性抽取算法相结合的命名实体解析方法(MLN_AENER),解决一般基于Markov逻辑网的实体解析方法对非结构化的命名实体解析效果不佳的问题,并将该方法针对中文地理名称解析问题进行相应设计和实验.实验结果表明该方法具有较好的解析效果.
展开更多
关键词
马尔科夫逻辑网络
命名实体解析
统计关系学习
机器学习
web
属性抽取
下载PDF
职称材料
隐马尔可夫模型解决信息抽取问题的仿真研究
被引量:
5
9
作者
史西兵
王浩鸣
《计算机仿真》
CSCD
北大核心
2010年第5期132-135,共4页
研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的,为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔...
研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的,为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔可夫模型在处理规则知识上的优势对每个页面构建HTML树,并利用Shannon熵来定位数据域,再用Maxi-mum Likelihood方法实现隐马尔可夫模型的构建,实现对Web信息的抽取。仿真结果表明,通过对大量学术论文头部结构信息的抽取,应用算法可以使信息抽取在召回率和准确率方面有明显的提高。
展开更多
关键词
隐马尔可夫模型
信息抽取
极大似然
机器学习
下载PDF
职称材料
基于混合机器学习模型的多文档自动摘要
被引量:
8
10
作者
唐晓波
翟夏普
《情报理论与实践》
CSSCI
北大核心
2019年第2期145-150,共6页
[目的/意义]信息过载是当前社会面临的普遍性问题,如何从大量的信息中提取有价值的内容,已成为研究的一个重点,目前自动摘要技术成为解决此问题的一种途径。[方法/过程]为了解决多文档摘要信息不全面、冗余度高的问题,文章提出了针对中...
[目的/意义]信息过载是当前社会面临的普遍性问题,如何从大量的信息中提取有价值的内容,已成为研究的一个重点,目前自动摘要技术成为解决此问题的一种途径。[方法/过程]为了解决多文档摘要信息不全面、冗余度高的问题,文章提出了针对中文文本的多文档自动摘要混合模型,并对该模型所包含的句子向量化、分类器分类、句群划分和句子重组四个部分做了详细说明。该混合模型在摘要提取的过程不仅考虑了句子的形式特征,还融合了句子的深层语义,最后采用基于改进的PageRank算法对摘要句进行重组。[结果/结论]当摘要句为30时,该模型的ROUGE-1得分平均值为0.2074,明显高于TextRank (0.0728)和基于聚类的算法(0.1074)。实验结果表明该模型在多主题的中文长文本上是有效的。[局限]由于中文语料的限制,本实验的数据量相对较小,模型的适应能力未在大数据集上验证。
展开更多
关键词
混合机器学习
多文档摘要
语义结构模型
信息抽取
下载PDF
职称材料
中文专利文档关键词自动提取方法研究进展
被引量:
1
11
作者
马运运
孙志一
+1 位作者
刘海波
彭勇
《世界科学技术-中医药现代化》
2015年第1期29-34,共6页
专利是一种包含学术、商业、法律等信息的科技文献,记录了大量新颖、实用的研究成果,近年来关注度不断提高。利用共词分析、文本聚类等方法对专利文献进行信息分析时,往往需要借助关键词提取技术达到降低数据复杂度、过滤噪声的目的。...
专利是一种包含学术、商业、法律等信息的科技文献,记录了大量新颖、实用的研究成果,近年来关注度不断提高。利用共词分析、文本聚类等方法对专利文献进行信息分析时,往往需要借助关键词提取技术达到降低数据复杂度、过滤噪声的目的。关键词提取技术多数基于统计规律。本文对基于词频、关联信息和多特征的关键词提取方法研究进展进行了总结,介绍了常用的分别以TF-IDF、熵、词汇链、Text Rank、遗传算法、决策树学习、朴素贝叶斯分类器、支持向量机等为主导的方法。另外,本文还总结了在专利文档关键词提取中可能用到的词频、位置、语义、关联、自身等方面的特征。实际应用中,关键词自动提取技术可作为一种有力的辅助手段,降低数据处理过程中的人力和时间成本。
展开更多
关键词
中文专利文档
关键词提取
TF-IDF
关联信息
机器学习
下载PDF
职称材料
发现与切分复杂网页中的数据对象
12
作者
成奋华
叶施仁
《计算机工程与应用》
CSCD
北大核心
2005年第18期179-183,共5页
提出了一种从复杂网页中发现和切分有用的数据对象的自动方法。文章比较来自于同一网站的相似网页,从而发现其内容的组织和结构。首先,通过剔除页面中无关的部件,获得干净的数据区,它覆盖了数据对象的描述。其次,我们切分数据区中属于...
提出了一种从复杂网页中发现和切分有用的数据对象的自动方法。文章比较来自于同一网站的相似网页,从而发现其内容的组织和结构。首先,通过剔除页面中无关的部件,获得干净的数据区,它覆盖了数据对象的描述。其次,我们切分数据区中属于不同数据对象的结点,并由此构造结构良好、具备自我解释能力的XML输出文件,其中每一个文件恰包含一个数据对象。用户可以很方便地进一步从这些文件中提取数据到数据库和模板。实验结果表明该方法是有效的。
展开更多
关键词
信息抽取
web
采掘
机器学习
下载PDF
职称材料
题名
Web文档清洗技术
被引量:
3
1
作者
张波
王继成
王强
张福炎
机构
南京大学软件新技术国家重点实验室计算机科学与技术系
出处
《计算机科学》
CSCD
北大核心
2002年第6期52-54,共3页
基金
国家自然科学基金(编号:600730307)
日本富士通研究所"Web文档清洗"项目
文摘
1引言 随着Internet在全球的迅速发展,WWW(World WideWeb)已经发展成为一个包含多种信息资源、站点遍布全球的巨大信息服务网络,为用户提供了一个极具价值的信息源,并已成为世界范围内信息共享和信息传播的最主要渠道之一.WWW系统一经出现,就得到了迅猛的发展,无论是WWW站点数还是WWW用户数,都是以每年5~10倍的速度呈指数形式增长.目前仅中国的Internet用户就已经达到了2500万.
关键词
web
Internet
WWW
信息资源
信息挖掘
文档清洗
计算机网络
信息检索
Keywords
web document cleaning. machine learning
,
information extraction
分类号
TP393.4 [自动化与计算机技术—计算机应用技术]
G354 [文化科学—情报学]
下载PDF
职称材料
题名
直推式支持向量机在Web信息抽取中的应用研究
被引量:
6
2
作者
肖建鹏
张来顺
任星
机构
中国人民解放军信息工程大学电子技术学院
出处
《计算机工程与应用》
CSCD
北大核心
2009年第2期147-149,共3页
文摘
直推式支持向量机是一种直接从已知样本出发对特定的未知样本进行识别的分类技术。在分析直推式支持向量机分类原理的基础上,提出一种基于直推式支持向量机的Web信息抽取方法,直接从分类的角度抽取Web信息。只需要提供少量标记样本就可以实现对大量未标注样本的分类标注,从而以分类的方式完成Web数据抽取任务。实验结果表明,使用这种方法进行Web信息抽取是有效性。
关键词
web
信息抽取
分类学习
直推式支持向量机
Keywords
web
information extraction
classification
learning
Transductive Support Vector
machine
(TSVM)
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
Web图像清洗技术的研究与实现
被引量:
1
3
作者
张波
王继成
王强
张福炎
机构
南京大学软件新技术国家重点实验室
南京大学计算机科学与技术系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2002年第11期1484-1490,共7页
基金
国家自然科学基金 ( 6 0 0 730 30 )
日本富士通研究所"Web文档清洗技术研究"项目资助
文摘
目前 Web文档中充斥着各种图像 ,因此 ,对 Web上的图像进行清洗就显得非常必要 .提出了 Web图像清洗的概念 ,给出了一种基于机器学习的 Web图像清洗方案 ,并实现了基于此方案的系统 .将图像特征的提取建立在 Web文档的 DOM结构之上 ,并在决策树算法的基础上对多种特征表示及组合进行了实验和评估 .实验结果表明 ,提出的 Web图像清洗方案切实可行 ,清洗方法具有较快的速度和准确性 .
关键词
web
图像清洗
机器学习
特征提取
决策树
图像处理
图像过滤
Keywords
web
, image
cleaning
,
machine
learning
,
information extraction
, decision tree
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于SVM的Web信息自动化抽取方法
4
作者
王亚利
李晓静
机构
济源职业技术学院
出处
《东莞理工学院学报》
2012年第5期53-57,共5页
文摘
针对传统的Web信息抽取方法运算量大、自动化程度低的问题,提出了一种基于SVM的WEB信息自动化抽取方法。利用SVM优秀的分类性能将网页中有用数据和无用数据分类标注,有效地完成Web信息抽取任务,准确地抽取出所需信息,实现数据抽取的自动化。实验结果表明,该方法可以有效地获取网页信息特征,具有较高的召回率和准确率。
关键词
支持向量机
信息抽取
分类学习
Keywords
support vector
machine
web
information extraction
classification
learning
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于全局语义匹配的篇章级事件抽取方法
被引量:
1
5
作者
高兵
皇甫楠
邹启杰
秦静
机构
大连大学信息工程学院
大连大学大连市智慧医疗与健康重点实验室
大连大学软件工程学院
出处
《计算机技术与发展》
2023年第7期154-159,共6页
基金
国家自然科学基金青年科学基金项目(62002038)
辽宁省科学研究经费项目(LJKZ1180)。
文摘
作为自然语言处理领域中经典的信息抽取任务,事件抽取方法可以帮助人们从海量文本数据中快速准确地获取结构化事件信息,在事理图谱构建、舆情监控、态势感知等多个方面都起着举足轻重的作用。而由于事件组成的复杂性,文档中会包含多个相关的事件句,如果在对文档进行事件抽取时仅针对单个句子,从句子层面进行事件抽取,则很难将一个事件分散在整个文档中的事件信息抽取完整,得到完整的事件信息。为了解决这些问题,该文提出了基于全局语义匹配的篇章级事件抽取方法。首先,使用基于长短期记忆网络—条件随机场的序列标注模型进行句子级事件抽取;其次,在句子级事件抽取的基础上,采用所提全局语义匹配方法进行事件共指判断,通过融合句子级事件信息完成事件信息的完整抽取;最后,在MUC-4事件抽取数据集对所提模型进行验证,结果表明所提方法对文档中分散的事件元素有更准确抽取效果,在F1值上也有明显提升。
关键词
事件抽取
篇章级事件抽取
全局语义匹配
论元识别
信息融合
机器学习
Keywords
event
extraction
document
level event
extraction
global semantic match
argument identification
information
fusion
machine
learning
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
欧美科技政策文本扫描与监测系统实现
被引量:
1
6
作者
于达海
常奥飞
化柏林
王宏光
郑文蛟
机构
北京大学信息管理系
香港大学经管学院
出处
《科技情报研究》
2023年第1期43-57,共15页
基金
国家社会科学基金项目“基于多源数据融合的情报用户需求探测研究”(编号:17BTQ066)。
文摘
[目的/意义]科技政策对科技事业的发展具有指导作用,科技政策是否高效合理,对科学技术能否快速发展具有重要的影响。为了帮助决策者更快捷地掌握国际最新科技布局、规划与政策引领,特别是跟踪并分析欧美主要发达国家的科技政策,实时抓取相应的科技政策文本并进行分析挖掘,在当前的国际环境下具有重要意义。[方法/过程]本研究设计并实现了欧美科技政策文本扫描与监测系统,主要包括数据库层、数据实体层、业务逻辑层和界面层4层体系架构,实现了定期采集、翻译、关键词抽取、技术实体抽取、自动摘要、政策文本分类以及演化分析等功能,为科技政策的制定与规划提供了重要的决策支持。[结果/结论]欧美科技政策文本扫描与监测系统有助于第一时间监测欧美科技政策最新动态,把握欧美科技政策的演化进程与趋势,及时窥探欧美科技政策的规划与布局,为我国科技政策的制定、规划与完善提供完备的信息支撑与决策参考。
关键词
科技政策
网络爬虫
机器学习
文本挖掘
信息抽取
Keywords
science and technology policy
web
crawler
machine
learning
text mining
information extraction
分类号
C356 [社会学]
下载PDF
职称材料
题名
基于本体关系匹配的信息抽取
被引量:
13
7
作者
何召卫
陈俊亮
机构
北京邮电大学网络与交换技术国家重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第21期207-209,共3页
基金
国家自然科学基金资助项目(60432010)
文摘
目前,稳定可靠的信息抽取是一个有待解决的问题,该文提出了基于本体关系匹配信息抽取算法,应用语义Web把信息抽取目标文档描述为特殊的本体格式,采用机器学习理论对本体进行分析和处理。测试数据集的实验结果显示,本体关系集匹配算法优于其他4种信息抽取算法。
关键词
信息抽取
语义
web
机器学习
Keywords
information extraction
semantic
web
machine
learning
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
一种基于Markov逻辑网的中文地理名称实体解析方法
被引量:
2
8
作者
胡宜敏
宋良图
陈鹏
魏圆圆
苏雅茹
机构
中国科学院合肥智能机械研究所智能信息系统研究中心
中国科学技术大学信息科学与技术学院
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2013年第1期114-122,共9页
基金
国家自然基金项目(No.31171456)
中国科学院知识创新工程青年人才领域专项项目资助
文摘
根据Markov逻辑网融合一阶谓词逻辑和概率图模型的复杂性及不确定性处理能力的优点,提出将Markov逻辑网和基于本体与WEB搜索的属性抽取算法相结合的命名实体解析方法(MLN_AENER),解决一般基于Markov逻辑网的实体解析方法对非结构化的命名实体解析效果不佳的问题,并将该方法针对中文地理名称解析问题进行相应设计和实验.实验结果表明该方法具有较好的解析效果.
关键词
马尔科夫逻辑网络
命名实体解析
统计关系学习
机器学习
web
属性抽取
Keywords
Markov Logic Network, Named Entity Resolution, Statistical Relational
learning
,
machine
learning
,
web
information extraction
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
隐马尔可夫模型解决信息抽取问题的仿真研究
被引量:
5
9
作者
史西兵
王浩鸣
机构
西安财经学院信息学院
出处
《计算机仿真》
CSCD
北大核心
2010年第5期132-135,共4页
基金
陕西省自然科学基金资助项目(2007F25)
西安财经学院科研基金资助项目(07XCK04)
陕西省教育厅专项科研计划项目(09JK440)
文摘
研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的,为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔可夫模型在处理规则知识上的优势对每个页面构建HTML树,并利用Shannon熵来定位数据域,再用Maxi-mum Likelihood方法实现隐马尔可夫模型的构建,实现对Web信息的抽取。仿真结果表明,通过对大量学术论文头部结构信息的抽取,应用算法可以使信息抽取在召回率和准确率方面有明显的提高。
关键词
隐马尔可夫模型
信息抽取
极大似然
机器学习
Keywords
Hidden markov model
web
information extraction
Maximum likelihood
machine
learning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于混合机器学习模型的多文档自动摘要
被引量:
8
10
作者
唐晓波
翟夏普
机构
武汉大学信息管理学院
武汉大学信息资源研究中心
出处
《情报理论与实践》
CSSCI
北大核心
2019年第2期145-150,共6页
基金
国家自然科学基金项目"基于文本和Web语义分析的智能咨询服务研究"的成果之一
项目编号:71673209
文摘
[目的/意义]信息过载是当前社会面临的普遍性问题,如何从大量的信息中提取有价值的内容,已成为研究的一个重点,目前自动摘要技术成为解决此问题的一种途径。[方法/过程]为了解决多文档摘要信息不全面、冗余度高的问题,文章提出了针对中文文本的多文档自动摘要混合模型,并对该模型所包含的句子向量化、分类器分类、句群划分和句子重组四个部分做了详细说明。该混合模型在摘要提取的过程不仅考虑了句子的形式特征,还融合了句子的深层语义,最后采用基于改进的PageRank算法对摘要句进行重组。[结果/结论]当摘要句为30时,该模型的ROUGE-1得分平均值为0.2074,明显高于TextRank (0.0728)和基于聚类的算法(0.1074)。实验结果表明该模型在多主题的中文长文本上是有效的。[局限]由于中文语料的限制,本实验的数据量相对较小,模型的适应能力未在大数据集上验证。
关键词
混合机器学习
多文档摘要
语义结构模型
信息抽取
Keywords
hybrid
machine
learning
multi-
document
summarization
semantic structure model
information extraction
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
中文专利文档关键词自动提取方法研究进展
被引量:
1
11
作者
马运运
孙志一
刘海波
彭勇
机构
中国医学科学院北京协和医学院药用植物研究所
国家中医药管理局传统药物专利信息资源重点研究室
北京东方灵盾科技有限公司
出处
《世界科学技术-中医药现代化》
2015年第1期29-34,共6页
基金
北京科委"首都市民健康项目培育"项目(Z131100006813045):生物药物专利信息服务系统研发
负责人:孙瑞阳
文摘
专利是一种包含学术、商业、法律等信息的科技文献,记录了大量新颖、实用的研究成果,近年来关注度不断提高。利用共词分析、文本聚类等方法对专利文献进行信息分析时,往往需要借助关键词提取技术达到降低数据复杂度、过滤噪声的目的。关键词提取技术多数基于统计规律。本文对基于词频、关联信息和多特征的关键词提取方法研究进展进行了总结,介绍了常用的分别以TF-IDF、熵、词汇链、Text Rank、遗传算法、决策树学习、朴素贝叶斯分类器、支持向量机等为主导的方法。另外,本文还总结了在专利文档关键词提取中可能用到的词频、位置、语义、关联、自身等方面的特征。实际应用中,关键词自动提取技术可作为一种有力的辅助手段,降低数据处理过程中的人力和时间成本。
关键词
中文专利文档
关键词提取
TF-IDF
关联信息
机器学习
Keywords
Chinese Patent
document
ation, Keyword
extraction
, TF-IDF, Associated
information
,
machine
learning
分类号
G202 [文化科学—传播学]
G306.0 [文化科学]
下载PDF
职称材料
题名
发现与切分复杂网页中的数据对象
12
作者
成奋华
叶施仁
机构
湖南科技职院
株洲工学院
出处
《计算机工程与应用》
CSCD
北大核心
2005年第18期179-183,共5页
文摘
提出了一种从复杂网页中发现和切分有用的数据对象的自动方法。文章比较来自于同一网站的相似网页,从而发现其内容的组织和结构。首先,通过剔除页面中无关的部件,获得干净的数据区,它覆盖了数据对象的描述。其次,我们切分数据区中属于不同数据对象的结点,并由此构造结构良好、具备自我解释能力的XML输出文件,其中每一个文件恰包含一个数据对象。用户可以很方便地进一步从这些文件中提取数据到数据库和模板。实验结果表明该方法是有效的。
关键词
信息抽取
web
采掘
机器学习
Keywords
information extraction
,
web
mining,
machine
learning
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
Web文档清洗技术
张波
王继成
王强
张福炎
《计算机科学》
CSCD
北大核心
2002
3
下载PDF
职称材料
2
直推式支持向量机在Web信息抽取中的应用研究
肖建鹏
张来顺
任星
《计算机工程与应用》
CSCD
北大核心
2009
6
下载PDF
职称材料
3
Web图像清洗技术的研究与实现
张波
王继成
王强
张福炎
《计算机研究与发展》
EI
CSCD
北大核心
2002
1
下载PDF
职称材料
4
一种基于SVM的Web信息自动化抽取方法
王亚利
李晓静
《东莞理工学院学报》
2012
0
下载PDF
职称材料
5
基于全局语义匹配的篇章级事件抽取方法
高兵
皇甫楠
邹启杰
秦静
《计算机技术与发展》
2023
1
下载PDF
职称材料
6
欧美科技政策文本扫描与监测系统实现
于达海
常奥飞
化柏林
王宏光
郑文蛟
《科技情报研究》
2023
1
下载PDF
职称材料
7
基于本体关系匹配的信息抽取
何召卫
陈俊亮
《计算机工程》
CAS
CSCD
北大核心
2007
13
下载PDF
职称材料
8
一种基于Markov逻辑网的中文地理名称实体解析方法
胡宜敏
宋良图
陈鹏
魏圆圆
苏雅茹
《模式识别与人工智能》
EI
CSCD
北大核心
2013
2
下载PDF
职称材料
9
隐马尔可夫模型解决信息抽取问题的仿真研究
史西兵
王浩鸣
《计算机仿真》
CSCD
北大核心
2010
5
下载PDF
职称材料
10
基于混合机器学习模型的多文档自动摘要
唐晓波
翟夏普
《情报理论与实践》
CSSCI
北大核心
2019
8
下载PDF
职称材料
11
中文专利文档关键词自动提取方法研究进展
马运运
孙志一
刘海波
彭勇
《世界科学技术-中医药现代化》
2015
1
下载PDF
职称材料
12
发现与切分复杂网页中的数据对象
成奋华
叶施仁
《计算机工程与应用》
CSCD
北大核心
2005
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部