期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
Web News Extraction via Tag Path Feature Fusion Using DS Theory 被引量:4
1
作者 Gong-Qing Wu Lei Li Xindong Wu 《Journal of Computer Science & Technology》 SCIE EI CSCD 2016年第4期661-672,共12页
Contents, layout styles, and parse structures of web news pages differ greatly from one page to another. In addition, the layout style and the parse structure of a web news page may change from time to time. For these... Contents, layout styles, and parse structures of web news pages differ greatly from one page to another. In addition, the layout style and the parse structure of a web news page may change from time to time. For these reasons, how to design features with excellent extraction performances for massive and heterogeneous web news pages is a challenging issue. Our extensive case studies indicate that there is potential relevancy between web content layouts and their tag paths. Inspired by the observation, we design a series of tag path extraction features to extract web news. Because each feature has its own strength, we fuse all those features with the DS (Dempster-Shafer) evidence theory, and then design a content extraction method CEDS. Experimental results on both CleanEval datasets and web news pages selected randomly from well-known websites show that the Fl-score with CEDS is 8.08% and 3.08% higher than existing popular content extraction methods CETR and CEPR-TPR respectively. 展开更多
关键词 content extraction web news tag path extraction feature Dempster-Shafer (DS) theory
原文传递
建鲤自交及与黄河鲤正反杂交子代的生长比较和通径分析 被引量:32
2
作者 佟雪红 袁新华 +4 位作者 董在杰 缪为民 苏志烽 岳春梅 林连升 《水产学报》 CAS CSCD 北大核心 2008年第2期182-189,共8页
以建鲤、黄河鲤为亲本,建立了建鲤自交JL(建鲤♀×建鲤♂)、正交JH(建鲤♀×黄河鲤♂)、反交HJ(黄河鲤♀×建鲤♂)3个试验组合,PIT标记后在养殖157、398、598d时测定生长参数。结果表明:(1)157、398d时增重率均为HJ>JH&g... 以建鲤、黄河鲤为亲本,建立了建鲤自交JL(建鲤♀×建鲤♂)、正交JH(建鲤♀×黄河鲤♂)、反交HJ(黄河鲤♀×建鲤♂)3个试验组合,PIT标记后在养殖157、398、598d时测定生长参数。结果表明:(1)157、398d时增重率均为HJ>JH>JL,HJ与JL差异显著(P<0.05);598d时JL>JH>HJ,子代差异不显著(P>0.05)。(2)体长、体重的变异系数在157、398d时HJ>JH>JL,598d时JL>HJ>JH。体长的变异系数小于体重的变异系数。(3)肥满度随养殖时间增加而增长,JL的肥满度最高并与JH、HJ差异显著;(4)雌、雄鱼生长差异显著,雌鱼生长始终快于JL;雄鱼仅在157d时有优势,398、598d时杂种优势衰退。(5)在对体重的决定系数上,398d时子代均以体长的决定系数占主导;598d时HJ(♀)、JL(♀)中体高的决定系数占主导,JL(♂)、HJ(♂)、JH(♀)中体长的决定系数占主导,JH(♂)中体长、体高对体重的决定系数差异很小。(6)养殖时间对体重的差异显著性、绝对增重率无显著影响(P>0.05),对体长、绝对增长率、特定生长率、体重变异系数、生长指标及肥满度有极显著影响(P<0.01);鱼的不同交配组合和不同性别对上述生长参数均有极显著影响。 展开更多
关键词 建鲤 子代 生长参数 杂交优势 PIT标记 通径分析
下载PDF
基于标签路径特征融合的在线Web新闻内容抽取 被引量:23
3
作者 吴共庆 胡骏 +4 位作者 李莉 徐喆昊 刘鹏程 胡学钢 吴信东 《软件学报》 EI CSCD 北大核心 2016年第3期714-735,共22页
精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例... 精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法 CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在Clean Eval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法. 展开更多
关键词 内容抽取 WEB新闻 标签路径特征 组合特征选择 特征融合
下载PDF
基于扩展标记图的网页信息重组技术 被引量:3
4
作者 朱征宇 王亮 +1 位作者 赵银春 程代杰 《计算机科学》 CSCD 北大核心 2004年第5期56-60,64,共6页
本文介绍一种基于扩展标记图ETG(Extended Tag Graph)的网页信息抽取与重组新技术,引入了扩展标记图操作和重构概念,提出了作为用户接口的标记查询语言TagSQL。用户通过类标准SQL的语言描述,即可方便地实现对网页信息的灵活抽取和重组... 本文介绍一种基于扩展标记图ETG(Extended Tag Graph)的网页信息抽取与重组新技术,引入了扩展标记图操作和重构概念,提出了作为用户接口的标记查询语言TagSQL。用户通过类标准SQL的语言描述,即可方便地实现对网页信息的灵活抽取和重组操作。 展开更多
关键词 扩展标记图 网页信息 重组技术 ETG 抽取 标记查询语言 tagSQL
下载PDF
基于标签路径的Web结构化数据自动抽取 被引量:3
5
作者 李贵 陈成 +3 位作者 李征宇 韩子扬 孙平 孙焕良 《计算机科学》 CSCD 北大核心 2013年第06A期141-144,165,共5页
提出了一种基于标签路径的Web结构化数据自动抽取方法。该方法通过对网页DOM树的解析获取完整标签路径集合,并依据路径相似度测量方法来聚类标签路径,实现目标数据区域的定位,然后通过标签节点坐标位置的特性来分离各个数据项,过滤冗余... 提出了一种基于标签路径的Web结构化数据自动抽取方法。该方法通过对网页DOM树的解析获取完整标签路径集合,并依据路径相似度测量方法来聚类标签路径,实现目标数据区域的定位,然后通过标签节点坐标位置的特性来分离各个数据项,过滤冗余数据,最终完成数据抽取。实验结果表明,与MDR方法相比,该方法在处理拥有结构化数据的网页时,有更高的查全率和查准率。 展开更多
关键词 标签路径 结构化数据抽取 聚类
下载PDF
中文分词和词性标注模型 被引量:11
6
作者 刘遥峰 王志良 王传经 《计算机工程》 CAS CSCD 北大核心 2010年第4期17-19,共3页
构造一种中文分词和词性标注的模型,在分词阶段确定N个最佳结果作为候选集,通过未登录词识别和词性标注,从候选结果集中选优得到最终结果,并基于该模型实现一个中文自动分词和词性自动标注的中文词法分析器。经不同大小训练集下的测试证... 构造一种中文分词和词性标注的模型,在分词阶段确定N个最佳结果作为候选集,通过未登录词识别和词性标注,从候选结果集中选优得到最终结果,并基于该模型实现一个中文自动分词和词性自动标注的中文词法分析器。经不同大小训练集下的测试证明,该分析器的分词准确率和词性标注准确率分别达到98.34%和96.07%,证明了该方法的有效性。 展开更多
关键词 分词 词性标注 最短路径
下载PDF
基于文本块密度和标签路径覆盖率的网页正文抽取 被引量:5
7
作者 刘鹏程 胡骏 吴共庆 《计算机应用研究》 CSCD 北大核心 2018年第6期1645-1650,共6页
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征... 大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。 展开更多
关键词 正文抽取 文本块密度 标签路径覆盖率 特征融合
下载PDF
中文分词及词性标注一体化模型研究 被引量:10
8
作者 佟晓筠 宋国龙 +2 位作者 刘强 张俐 姜伟 《计算机科学》 CSCD 北大核心 2007年第9期174-175,212,共3页
本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自... 本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自动分词和词性自动标注一体化处理的中文词法分析器。初步的开放测试证明,该分析器的分词准确率和词性标注准确率分别达到98.1%和95.07%。 展开更多
关键词 中文分词 词性标注 N-最短路径法
下载PDF
基于读写器功率扫描的无线射频识别定位 被引量:3
9
作者 李晓银 闫连山 +3 位作者 潘炜 罗斌 郭振 郭庆峰 《计算机工程》 CAS CSCD 2013年第8期277-280,共4页
针对无线射频识别(RFID)的室内定位问题,提出一种基于读写器功率扫描的超高频射频识别标签定位方案。通过自由空间的电磁波路径损耗经验模型和Friis传输方程,建立读写器天线功率与当前功率感测范围直径的关系模型。分别使用多个天线进... 针对无线射频识别(RFID)的室内定位问题,提出一种基于读写器功率扫描的超高频射频识别标签定位方案。通过自由空间的电磁波路径损耗经验模型和Friis传输方程,建立读写器天线功率与当前功率感测范围直径的关系模型。分别使用多个天线进行定位比较,并分析影响系统定位精度的因素。实验结果表明,与使用2个天线相比,使用3个天线可将平均定位误差由57 cm减小到18 cm,且定位误差小于25 cm的概率大于90%。同时,减小读写器功率变化的步长也可显著降低定位误差。 展开更多
关键词 无线射频识别 超高频射频识别 标签 定位 路径损耗 功率-感测直径模型 读取范围 相交区域
下载PDF
植物三酰甘油合成相关基因研究进展 被引量:9
10
作者 陶芬芳 邢蔓 +1 位作者 岳宁燕 邬贤梦 《作物研究》 2017年第3期330-336,共7页
三酰甘油是植物油脂的主要组成部分,在植物生长发育过程中发挥着重要作用。提高三酰甘油的含量并改良其品质,是油料作物育种的重要目标之一。系统介绍了与植物脂肪酸及三酰甘油合成相关基因的研究现状,以期为今后进一步深入开展相关研... 三酰甘油是植物油脂的主要组成部分,在植物生长发育过程中发挥着重要作用。提高三酰甘油的含量并改良其品质,是油料作物育种的重要目标之一。系统介绍了与植物脂肪酸及三酰甘油合成相关基因的研究现状,以期为今后进一步深入开展相关研究提供借鉴。 展开更多
关键词 植物 三酰甘油 合成途径 基因
下载PDF
基于电子标签的物流路径跟踪系统研究 被引量:3
11
作者 谢勇 王红卫 李再进 《物流技术》 2005年第12期27-30,46,共5页
阐述了基于电子标签的物流路径跟踪系统的基本原理,并对其结构和功能进行了分析,设计、开发了应用电子标签识别技术的物流路径跟踪系统,大大提高物流管理的信息化和自动化水平,为查询产品的来源和流向提供即时的信息支持和科学的决策依据。
关键词 电子标签 物流 路径跟踪 XML
下载PDF
基于单DOM树特征预分类的自适应Web信息抽取方法 被引量:4
12
作者 彭艳兵 谢馨庭 《电子设计工程》 2017年第19期56-59,63,共5页
在传统的舆情中多为基于模板采集模式,基于减少人工维护的目的,文中提出一种基于单DOM树特征预分类的自适应Web信息抽取方法,分为链接预分类与信息抽取两个部分。链接预分类采用SVM分类算法,提取信息超链接在页面中的特征进行分类学习,... 在传统的舆情中多为基于模板采集模式,基于减少人工维护的目的,文中提出一种基于单DOM树特征预分类的自适应Web信息抽取方法,分为链接预分类与信息抽取两个部分。链接预分类采用SVM分类算法,提取信息超链接在页面中的特征进行分类学习,再对分类结果进行同源的Web信息提取。实验表明,此方法预分类结果准确率可达94.48%,召回率为94.77%。 展开更多
关键词 DOM树 标签路径 信息抽取 SVM
下载PDF
基于标签路径聚类的文本信息抽取算法 被引量:1
13
作者 刘云峰 《计算机工程》 CAS CSCD 北大核心 2010年第12期83-84,87,共3页
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根... 针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。 展开更多
关键词 标签路径 网页分割 信息抽取 聚类 阈值
下载PDF
物流车货源信息自动抽取系统研究与实现 被引量:1
14
作者 马汉达 曹瑞 谢诗帧 《信息技术》 2018年第10期40-44,共5页
针对物流车货源信息自动抽取方法匮乏,手工构建繁琐且难于维护,物流信息抽取冗余且效率低下的问题,文中根据车货源页面结构特点,通过标签路径识别页面主体元素,并通过元素CLASS选择器自动构建抽取规则,提出了基于标签路径及CSS选择器的... 针对物流车货源信息自动抽取方法匮乏,手工构建繁琐且难于维护,物流信息抽取冗余且效率低下的问题,文中根据车货源页面结构特点,通过标签路径识别页面主体元素,并通过元素CLASS选择器自动构建抽取规则,提出了基于标签路径及CSS选择器的全自动抽取模板的构建方法,在一定程度上实现了物流车货源信息的自动化采集工作,降低了人工构建包装器的成本,保证了抽取规则的准确度,并通过搭建基于Scrapy-redis的分布式爬虫,实现物流信息的高效抽取,并将抽取的数据存储在MongoDB数据库中。实验表明自动生成的抽取规则可以替代人工构建的抽取模板,分布式抽取方式与传统单机抽取方法在抽取效率上有明显的提升。 展开更多
关键词 WEB信息抽取 分布式爬虫 标签路径 CSS选择器
下载PDF
基于视觉信息和标签路径的数据抽取
15
作者 张巍 邹晓明 谈凤真 《中国海洋大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第5期114-119,共6页
结合网页的视觉信息和DOM树结构,研究从Deep Web查询结果页面中抽取半结构化数据的问题。通过视觉块与整个网页的面积比定位数据区域。根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度... 结合网页的视觉信息和DOM树结构,研究从Deep Web查询结果页面中抽取半结构化数据的问题。通过视觉块与整个网页的面积比定位数据区域。根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度去除噪音节点。根据xpath属性将各条数据记录的数据项对齐。对整个抽取过程生成模板,可以使抽取效率得到很大提高。对8个Deep Web网站进行了抽取数据实验,结果表明本文方法是有效的。 展开更多
关键词 DEEP WEB数据抽取 视觉信息 标签路径
下载PDF
一种自适应识别RFID标签的方法 被引量:4
16
作者 穆兰 《计算机测量与控制》 CSCD 北大核心 2011年第11期2807-2809,共3页
铁路标签分为机车标签和货车标签,两种标签被读写器发射的射频能量激活后,将连续不断、周而复始地返回标签中的数据帧给读写器,但两种标签返回的信号波形是不同的;利用机车标签帧头(特征值为0xE6D)与货车标签帧头(特征值为0x555555A)的... 铁路标签分为机车标签和货车标签,两种标签被读写器发射的射频能量激活后,将连续不断、周而复始地返回标签中的数据帧给读写器,但两种标签返回的信号波形是不同的;利用机车标签帧头(特征值为0xE6D)与货车标签帧头(特征值为0x555555A)的不同,可转入不同的解码程序,达到自适应地识别出机车标签数据或货车标签数据;当列车运动时,货车标签返回给读写器的信号受多径效应的影响,出现衰落现象,使读写器不能正确识别标签数据,而且标签信号出现衰落的时间是随机的;利用同步特征信号可以采集到残缺的数据,并利用三帧残缺的数据拼接出一帧完整的标签数据。即使列车速度达到80km/h,也能正确识别出标签数据。 展开更多
关键词 单片机 射频识别 铁路标签 波形特征 残缺数据 多径效应
下载PDF
基于射频相位的两步测距法 被引量:1
17
作者 赵阳 黄建尧 +2 位作者 刘德亮 刘开华 马永涛 《计算机应用》 CSCD 北大核心 2015年第7期1833-1836,共4页
针对多径传播造成基于射频信号相位信息测距不准确问题,提出了一种基于双标签的两步测距法。每一待定位目标上附着两个标签。在单频副载波调幅调制方式下,首先,提取载波信号的卷叠相位信息,计算标签在载波半波长范围内与阅读器的距离值... 针对多径传播造成基于射频信号相位信息测距不准确问题,提出了一种基于双标签的两步测距法。每一待定位目标上附着两个标签。在单频副载波调幅调制方式下,首先,提取载波信号的卷叠相位信息,计算标签在载波半波长范围内与阅读器的距离值,得到细测距估计值;然后,提取副载波信号的展开相位信息,根据展开相位估计标签与阅读器相距距离中包含的载波半波长的整倍数;其次,计算两个标签对应整倍数的平均值,将该平均值倍的载波半波长距离作为两个标签与阅读器之间距离的粗测距估计值;最后,将粗测距与细测距的估计值相叠加得到双标签最终的测距估计值。另外,为了降低硬件设施成本,提出了基于单阅读器和双标签的几何定位方法。仿真实验结果表明,在复杂多径传播环境中,与直接基于副载波信号相位信息测距相比,基于双标签的两步测距法平均测距误差约降低了35%,最终平均定位误差约为0.43 m,最大误差约为1 m,有效提高了相位法在定位技术中的精度,并降低了硬件成本。 展开更多
关键词 超高频射频识别 射频相位 整周期模糊 多径传播环境 双标签
下载PDF
面向监控的井下无人机集群系统与关键技术 被引量:5
18
作者 杨维 单春艳 刘俊波 《工矿自动化》 北大核心 2019年第4期6-12,共7页
井下监控系统通常是固定布设且布设范围有限,难以完全满足井下安全生产的动态监控需求,且井下单架无人机因无线通信距离有限,导致其监控能力较弱。针对上述问题,提出了一种面向监控的井下无人机集群系统,并从井下无人机集群飞行与规避... 井下监控系统通常是固定布设且布设范围有限,难以完全满足井下安全生产的动态监控需求,且井下单架无人机因无线通信距离有限,导致其监控能力较弱。针对上述问题,提出了一种面向监控的井下无人机集群系统,并从井下无人机集群飞行与规避协同控制、数据链组网、矿井巷道环境地图创建、井下无人机姿态与位置估计、动态障碍物检测、路径规划等方面详细介绍了系统实现的关键技术。地面调度中心通过设置在井下监控分站的网关节点向井下无人机集群发布调度命令,井下无人机编队采用"一"字形队列沿矿井巷道集群飞行,在进入指定区域后通过所搭载的视频传感器与环境监测传感器对井下指定区域进行监控,并通过多无人机协作方式将所监测的视频信息与环境参数传输到井下监控分站,实现对井下目标区域的自主动态监控。井下无人机集群系统具有覆盖范围广、监测能力强等优点,通过协同控制多架井下无人机提高了监控效率,通过无线多跳的方式解决了井下无人机单架平台无线通信距离受限的问题,有利于监测与控制信息的传递。 展开更多
关键词 矿井 井下无人机集群编队 自组织飞行策略 协同控制 姿态检测 路径规划 引导反光标识牌
下载PDF
高速公路联网收费系统中的多义性路径识别 被引量:8
19
作者 刘涛 《科技情报开发与经济》 2010年第12期105-106,共2页
以高速公路网建设为背景,针对路网中存在的多义性路径问题,介绍了判别车辆行驶路径的几种常用方法,并对比分析了其优缺点及适用范围,讨论了如何将各种方法应用到联网收费中。
关键词 高速公路联网收费系统 多义性路径识别 车牌识别 电子标签
下载PDF
基于文本块密度与标签路径等特征的正文提取 被引量:1
20
作者 杨贤 唐超兰 李航 《广东工业大学学报》 CAS 2018年第2期51-56,共6页
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法.首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽... 为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法.首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容.该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理.从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法. 展开更多
关键词 正文抽取 文本块 标签路径 文本密度
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部