期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于标签路径特征融合的在线Web新闻内容抽取 被引量:23
1
作者 吴共庆 胡骏 +4 位作者 李莉 徐喆昊 刘鹏程 胡学钢 吴信东 《软件学报》 EI CSCD 北大核心 2016年第3期714-735,共22页
精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例... 精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法 CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在Clean Eval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法. 展开更多
关键词 内容抽取 web新闻 标签路径特征 组合特征选择 特征融合
下载PDF
面向Web新闻的事件多要素检索方法 被引量:11
2
作者 仲兆满 李存华 +1 位作者 刘宗田 戴红伟 《软件学报》 EI CSCD 北大核心 2013年第10期2366-2378,共13页
针对用户获取事件类信息的需求,在分析Web新闻特征、事件多要素检索特点的基础上,研究了面向Web新闻的事件多要素检索方法.首先,提出了面向Web新闻的事件多要素检索模型;然后,使用BNF(BackusNaur form)形式化定义了事件多要素查询项;最... 针对用户获取事件类信息的需求,在分析Web新闻特征、事件多要素检索特点的基础上,研究了面向Web新闻的事件多要素检索方法.首先,提出了面向Web新闻的事件多要素检索模型;然后,使用BNF(BackusNaur form)形式化定义了事件多要素查询项;最后,结合事件的动作要素、Web新闻标题的重要性及事件项与约束项之间的距离,提出了事件查询项与文档相关性的计算方法.设置了16个事件多要素查询项,基于Baidu搜索引擎对P@n指标进行了实验分析,所提方法得到的平均P@10结果为0.87,平均P@20结果为0.83.对16个事件查询主题,通过人工标注语料的方法对F-measure指标进行了实验分析,所提方法得到的平均F-measure为0.74.结果表明,所提方法对事件多要素的检索较为有效. 展开更多
关键词 事件多要素检索 web新闻 事件检索模型 相关性计算
下载PDF
突发事件Web新闻中时间信息分析及抽取 被引量:11
3
作者 蔡华利 刘鲁 +1 位作者 刘志明 杨跃翔 《计算机工程与应用》 CSCD 北大核心 2010年第34期107-110,共4页
为了更深入地挖掘突发事件Web新闻并应用于应急管理,提出了突发事件Web新闻时间抽取方法。首先引入中文的时间关系理论;然后从突发事件Web新闻的时间构成、时间位置特征以及时间常用词三个方面分析了突发事件Web新闻的表达特征;基于此,... 为了更深入地挖掘突发事件Web新闻并应用于应急管理,提出了突发事件Web新闻时间抽取方法。首先引入中文的时间关系理论;然后从突发事件Web新闻的时间构成、时间位置特征以及时间常用词三个方面分析了突发事件Web新闻的表达特征;基于此,提出突发事件Web新闻的时间抽取方法,通过统计学习,正确率较理想;最后,基于已抽取到的事件发生时间信息,程序实现了突发事件Web新闻排序。 展开更多
关键词 突发事件 发生时间 web新闻排序 信息抽取
下载PDF
Web新闻自动采集发布系统的设计与实现 被引量:7
4
作者 张春元 康耀红 伍小芹 《计算机技术与发展》 2009年第9期250-252,F0003,共4页
针对新闻网站通过人工方式采集发布来自其它网站的Web新闻费时费力、易重采与漏采这一问题,综合运用Web信息采集技术、网页去噪技术、文本文档消重技术以及文本自动分类技术设计并实现了一种基于网络爬虫的Web新闻自动采集发布系统。在... 针对新闻网站通过人工方式采集发布来自其它网站的Web新闻费时费力、易重采与漏采这一问题,综合运用Web信息采集技术、网页去噪技术、文本文档消重技术以及文本自动分类技术设计并实现了一种基于网络爬虫的Web新闻自动采集发布系统。在给出系统总体结构的基础上,对其各个模块的功能、设计与实现方法进行了详细介绍。实验表明,该系统设计合理,具有采集效率高、消重准确、集成方便、运行费用低等优点,可作为新闻网站的采编工具加以推广使用。 展开更多
关键词 网络爬虫 网页去噪 文档消重 web新闻发布
下载PDF
基于进化模糊规则的Web新闻文本挖掘与分类方法 被引量:6
5
作者 史玉珍 吕琼帅 《湘潭大学自然科学学报》 CAS 北大核心 2016年第2期99-103,共5页
针对现有Web新闻文本分类方法准确率低且不能适应文本类型变化的问题,提出一种基于进化模糊规则的Web新闻文本挖掘和分类方法.首先,对每篇Web文本进行术语提取,并利用词频-逆向文档频率(TF-IDF)算法过滤掉一些具有较低描述能力的术语.然... 针对现有Web新闻文本分类方法准确率低且不能适应文本类型变化的问题,提出一种基于进化模糊规则的Web新闻文本挖掘和分类方法.首先,对每篇Web文本进行术语提取,并利用词频-逆向文档频率(TF-IDF)算法过滤掉一些具有较低描述能力的术语.然后,基于计算收集到的新的新闻文本内容与类别之间的余弦距离,利用eClass0分类器创建和更新模糊规则的数量和属性.最后,根据模糊规则推理和余弦距离进行文本分类.实验结果表明,该方法具有较高的正确分类率,且能够自适应Web新闻文本类别的变化. 展开更多
关键词 web新闻 文本分类 进化模糊规则 余弦距离 词频-逆向文档频率算法
下载PDF
一种高效的Web新闻发表时间提取方法
6
作者 仲兆满 李存华 +2 位作者 乔磊 张文艳 管燕 《小型微型计算机系统》 CSCD 北大核心 2013年第9期2085-2089,共5页
Web网页的发表时间在Web搜索中起到重要的作用,因为用户获取的结果往往是与时间密切相关的.本文围绕Web新闻发表时间的提取,提出了一种高效的Web新闻发表时间提取方法.该方法考虑到了Web新闻网页URL地址隐含时间信息的特性,信息发表时... Web网页的发表时间在Web搜索中起到重要的作用,因为用户获取的结果往往是与时间密切相关的.本文围绕Web新闻发表时间的提取,提出了一种高效的Web新闻发表时间提取方法.该方法考虑到了Web新闻网页URL地址隐含时间信息的特性,信息发表时间与新闻标题的距离约束.在主流的7个中文搜索引擎,使用了30个关键字,共获取3827篇Web新闻信息进行了提取时间的准确率及时间消耗的实验分析与比较,结果显示本文提出方法的准确率为95.5%,时间消耗为88秒. 展开更多
关键词 信息抽取 发表时间抽取 web新闻 高效方法
下载PDF
基于统计的自动化Web新闻正文抽取 被引量:6
7
作者 林子熠 沈备军 《计算机应用与软件》 CSCD 2010年第12期232-235,共4页
目前有多种Web新闻正文抽取算法,其中,基于树编辑距离的算法需要假设整个网页有统一模板,基于包装器的算法需要大量训练集,面向感知的提取算法适应性强,但是效率相对较低。提出了基于统计的Web新闻正文自动抽取方法,能自动检测分割网页... 目前有多种Web新闻正文抽取算法,其中,基于树编辑距离的算法需要假设整个网页有统一模板,基于包装器的算法需要大量训练集,面向感知的提取算法适应性强,但是效率相对较低。提出了基于统计的Web新闻正文自动抽取方法,能自动检测分割网页功能模块的HTML标签,然后基于该标签解析网页,找出正文。方法不需要大量训练集,不需要假设有统一的网页模板,有较高的抽取速度,能较好地满足大多数新闻搜索服务应用的需求。 展开更多
关键词 web新闻 正文抽取 自动化标签检测
下载PDF
基于Web新闻的案(事)件时空信息解析方法
8
作者 吴镇城 吴升 卢毅敏 《福州大学学报(自然科学版)》 CAS 北大核心 2017年第1期127-132,共6页
探讨基于词库与规则相结合的案(事)件新闻文本时空信息解析方法.通过构建时间词库和表达规则、派出所和地名等词库以及"触发词-案事件类型"二元分类器,实现对案(事)件新闻中的案发时间、案发地点、案(事)件类型和出警派出所... 探讨基于词库与规则相结合的案(事)件新闻文本时空信息解析方法.通过构建时间词库和表达规则、派出所和地名等词库以及"触发词-案事件类型"二元分类器,实现对案(事)件新闻中的案发时间、案发地点、案(事)件类型和出警派出所信息的抽取,并引用设计规范化规则,实现时空信息的规范化输出.实验分别选取本文解析盗窃案件数据和2014年1月至2015年3月福州市四个中心行政城区的公安盗窃案件数据进行比较,利用核密度估计算法研究犯罪集聚区,得到的集聚结果基本一致,发现福州市盗窃犯罪集聚发生于茶亭派出所、东街派出所和瀛洲派出所等辖区. 展开更多
关键词 时空信息 信息抽取 案(事)件 核密度估计 web新闻
下载PDF
Web新闻语料分词和标注错误分析 被引量:4
9
作者 张永奎 张彦 +1 位作者 安增波 刘睿 《计算机工程与应用》 CSCD 北大核心 2007年第15期166-169,共4页
通过分析Web突发事件语料库文本的加工统计得出11类错误类型,并对其中的一些错误提出了解决方案。研究结果不仅对语料库加工初期分词、标注方法的改进有启发作用,而且对中文的自动校对方法,提供一定的借鉴。
关键词 中文信息处理 分词 词性标注 错误类型 web突发事件新闻语料库
下载PDF
基于Web新闻的案(事)件抽取与时空分析系统
10
作者 吴镇城 卢毅敏 《测绘与空间地理信息》 2016年第5期45-47,51,共4页
新闻,自古以来便是人们了解社会动态的重要途径,大数据时代,由于Web新闻自身所具有的客观性和真实性,其蕴含的数据价值凸显。针对新闻网站中案(事)件信息丰富、易采集等优点,研究开发一套基于Web新闻的案(事)件抽取与时空分析系统,抓取... 新闻,自古以来便是人们了解社会动态的重要途径,大数据时代,由于Web新闻自身所具有的客观性和真实性,其蕴含的数据价值凸显。针对新闻网站中案(事)件信息丰富、易采集等优点,研究开发一套基于Web新闻的案(事)件抽取与时空分析系统,抓取各个新闻网站对发生于福州的案(事)件相关信息的报道,对新闻信息进行判别清洗与解析,采用支持向量机进行案(事)件类别分类,多类别分类精度达75%,抽取经分类处理之后的案(事)件文本中的案(事)件时空信息并进行时空分析,以毒品案(事)件为例,将解析结果与公安毒品案(事)件分别做核密度估计,结果表明,福州毒品事件集中发生于茶园派出所和象园派出所等辖区。该系统有利于分析福州社会动态,也为公安部门提供了信息辅助。 展开更多
关键词 web新闻 案(事)件 自然语言处理 支持向量机 核密度分析
下载PDF
基于WEB新闻内容的信息抽取方法研究
11
作者 沈娜 《江西科技学院学报》 2015年第3期25-29,39,共6页
伴随着互联网的飞速发展,网络上的信息资源呈现出井喷态势,如何从海量的信息中抽取出自己需要的信息已经变得越发的困难。在研究网页结构特性、分析HTMLDOM树结构的基础上,设计了一种基于文本标签属性的Web新闻信息抽取模型,针对由... 伴随着互联网的飞速发展,网络上的信息资源呈现出井喷态势,如何从海量的信息中抽取出自己需要的信息已经变得越发的困难。在研究网页结构特性、分析HTMLDOM树结构的基础上,设计了一种基于文本标签属性的Web新闻信息抽取模型,针对由网页脚本动态生成的内容的抽取,设计了一种脚本动态生成的网页信息抽取模型。主要对两种Web信息抽取技术的算法模型进行了描述,给出了信息抽取的具体实现过程,并选取了主流的新闻网站进行了抽取实验,验证了算法的可行性。 展开更多
关键词 HTML DOM树 文本标签属性 web新闻 信息抽取
下载PDF
基于块密度加权标签路径特征的Web新闻在线抽取 被引量:3
12
作者 吴共庆 刘鹏程 +1 位作者 胡骏 胡学钢 《中国科学:信息科学》 CSCD 北大核心 2017年第8期1078-1094,共17页
Web新闻内容抽取是众多"大数据"和"大知识"应用的基础,也是一个开放性问题.标签路径特征和文本块密度特征是目前解决该问题的两类优良特征.标签路径特征能较好地区分全网页的内容与噪声,但难以识别内容块中的噪声... Web新闻内容抽取是众多"大数据"和"大知识"应用的基础,也是一个开放性问题.标签路径特征和文本块密度特征是目前解决该问题的两类优良特征.标签路径特征能较好地区分全网页的内容与噪声,但难以识别内容块中的噪声和噪声块中的内容;文本块密度特征能较好地识别高密度的内容块,但鲁棒性不足.因此,本文提出了一种可有效结合标签路径特征和文本块密度特征的Web信息抽取模型CEDP,结合两种特征的优点,设计了一种基于文本块密度加权的标签路径特征,并设计了基于该特征的Web新闻抽取算法CEDP-NLTD.CEDP-NLTD是一种快速的、通用的、无需训练的在线Web新闻内容抽取算法,适用于Web大数据环境下的多种来源、多种风格、多种语言的异构Web新闻网页抽取任务.在Clean Eval等测试数据集上的实验结果表明,CEDP-NLTD方法优于CETR,CETD,CEPR,CEPF等在线抽取方法,且优于基于CEDP模型直接使用CETD方法设计的3种块密度特征所形成的算法CEDP-TD,CEDP-CTD,CEDP-DSum. 展开更多
关键词 内容抽取 web新闻 文本块密度 标签路径特征 在线算法
原文传递
基于Web Service架构的新闻服务研究 被引量:3
13
作者 杜向华 曾广周 王晓琳 《计算机工程与应用》 CSCD 北大核心 2004年第19期139-141,共3页
Internet特有的时效性,使得网络新闻出版和服务正在步入一个快车道。尽管基于HTTP/HTML架构的Web新闻服务方式在新闻的时空性方面超越了传统媒体,但它的交互性还不足以满足个性化新闻定制和阅读的需求。该文提出了一种基于WebService架... Internet特有的时效性,使得网络新闻出版和服务正在步入一个快车道。尽管基于HTTP/HTML架构的Web新闻服务方式在新闻的时空性方面超越了传统媒体,但它的交互性还不足以满足个性化新闻定制和阅读的需求。该文提出了一种基于WebService架构和NewsML置标语言的新闻服务系统框架,讨论了新闻服务提供端、新闻注册端和新闻发现/阅读客户端的工作原理和关键技术。基于WebService架构和新闻语言NewsML的新闻服务系统,支持个性化的新闻定制和服务。 展开更多
关键词 web新闻服务 web SERVICE NEWSML
下载PDF
基于Web的新闻文本自动摘要研究 被引量:1
14
作者 张筱丹 胡学钢 《阜阳师范学院学报(自然科学版)》 2009年第1期41-43,共3页
研究了一种基于统计的Web新闻文本自动摘要生成方法.首先,根据Web新闻文本的特点,对词汇和句子赋予不同的权重,然后根据权重大小按给定的比例挑选句子,并进行平滑处理,生成文字流畅的摘要.
关键词 web新闻文本 自动摘要 分词 权重
下载PDF
突发事件Web新闻发生时间的抽取与时间粒度分析 被引量:1
15
作者 崔爽纯 杨小平 《信息与电脑(理论版)》 2015年第8期57-60,共4页
突发事件就是意外地突然发生的重大或敏感事件,通常事件爆发后会出现一系列相关新闻,引起人们的持续关注。在新闻报道中,时间、地点、人物、事件是新闻内容的几大要素,如何准确定位新闻事件的发生时间也成为读者准确、清晰、全面理解新... 突发事件就是意外地突然发生的重大或敏感事件,通常事件爆发后会出现一系列相关新闻,引起人们的持续关注。在新闻报道中,时间、地点、人物、事件是新闻内容的几大要素,如何准确定位新闻事件的发生时间也成为读者准确、清晰、全面理解新闻内容的关键。目前的新闻分析通常都是针对Web新闻的发表时间,而由于不同网站的时效性不同,发表时间相对于新闻事件的发生时间有不同程度的延迟,所以如何从文章内容中抽取出事件的发生时间是目前急需解决的问题。 展开更多
关键词 突发事件 web新闻 时间粒度 时间抽取
原文传递
基于Web的《新闻专业英语》教学初探 被引量:2
16
作者 吴志红 李青林 《价值工程》 2010年第23期177-179,共3页
笔者根据在美国大学利用Web(网络)教学的经历,试图探讨在中国利用公共网络资源进行《新闻专业英语》教学的途径。在建立好一个教学网络平台后,通过一系列能产生教学效能的环节和过程,达到基于Web的多元教学方法在多媒体教室的立体整合,... 笔者根据在美国大学利用Web(网络)教学的经历,试图探讨在中国利用公共网络资源进行《新闻专业英语》教学的途径。在建立好一个教学网络平台后,通过一系列能产生教学效能的环节和过程,达到基于Web的多元教学方法在多媒体教室的立体整合,并期待这种方法能被中国学生所接受。 展开更多
关键词 web 新闻英语教学 基于web新闻英语教学
下载PDF
基于RSS技术的新闻发布系统研究 被引量:1
17
作者 向征 蔡先发 陈兴华 《电脑知识与技术》 2009年第3X期2140-2141,共2页
该文提出的基于RSS技术的新闻发布系统不仅包括一般的新闻载入,浏览,检索和栏目管理功能,还可以根据新闻模板自动生产新闻文件,发表新闻评论,使用关键字搜索并显示相关新闻,使用RSS阅读新闻等。本系统能够节省新闻发布的成本,提高新闻... 该文提出的基于RSS技术的新闻发布系统不仅包括一般的新闻载入,浏览,检索和栏目管理功能,还可以根据新闻模板自动生产新闻文件,发表新闻评论,使用关键字搜索并显示相关新闻,使用RSS阅读新闻等。本系统能够节省新闻发布的成本,提高新闻发布的效率,体现新闻的时效性,因此具有很高的实用价值。 展开更多
关键词 web新闻发布系统 ASP.NET RSS
下载PDF
新闻管理系统设计与实现 被引量:1
18
作者 张再萍 王向阳 钟乐海 《福建电脑》 2006年第11期138-139,共2页
利用ASP技术开发的网站,实现了网站动态管理,使得对信息的管理更加及时、高效,提高了工作效率。本文以网站的新闻管理系统为例,介绍了新闻管理系统的开发原理、系统的功能特点和设计方案。
关键词 ASP 后台数据库 web新闻
下载PDF
基于关联分类的中文新闻主题追踪系统
19
作者 陈志雄 《内江科技》 2007年第9期25-26,共2页
本文设计和实现了一个中文新闻主题追踪系统TDTSystem,采用构成新闻事件的四个要素"人物、地点、时间、关键词"作为文档/事件模型,并提出了一个基于信息增益的关联分类算法(ACBIG),结合信息增益与FoilGain来提高文字的分类有... 本文设计和实现了一个中文新闻主题追踪系统TDTSystem,采用构成新闻事件的四个要素"人物、地点、时间、关键词"作为文档/事件模型,并提出了一个基于信息增益的关联分类算法(ACBIG),结合信息增益与FoilGain来提高文字的分类有效性。实验分析结果表明,采用这种文档/事件模型和ACBIG分类算法的TDTSystem取得了超过90%的主题追踪准确率。 展开更多
关键词 关联分类 主题追踪 信息增益 web新闻文本
下载PDF
基于事件分析的Web地震新闻时空信息挖掘研究 被引量:1
20
作者 樊红 李怀远 +1 位作者 杜武 杨继文 《武汉大学学报(工学版)》 CAS CSCD 北大核心 2018年第2期183-188,共6页
针对Web地震新闻挖掘的需求,采用网络爬虫抓取新闻文本作为研究语料,采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)算法对语料集进行文本训练,选取权值较大的特征词初步识别地震类文档;采用特征词构成要素描述地震事... 针对Web地震新闻挖掘的需求,采用网络爬虫抓取新闻文本作为研究语料,采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)算法对语料集进行文本训练,选取权值较大的特征词初步识别地震类文档;采用特征词构成要素描述地震事件,构建了地震事件的知识框架;基于框架的要素特征词匹配从地震类文档中获取候选事件语句,对候选事件语句进行句法分析,总结出地震要素出现形式和规律,构造抽取规则,编写抽取算法,完成了地震事件识别和提取实验,并对地震事件提取的精度进行分析和评价,验证了该方法具有较高的地震事件识别和提取精度,是一种有前景的Web专题事件挖掘的途径. 展开更多
关键词 web地震新闻 信息挖掘 事件框架 文本分析
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部