期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
基于特征标签的电力计量大数据深度挖掘研究
1
作者 王奕萱 李翼铭 +2 位作者 徐二强 李会君 李明亮 《电子设计工程》 2023年第24期186-189,195,共5页
深度挖掘与分析电力计量大数据,提取有价值的信息,对于电网正常运行具有重要意义。而当前方法在数据挖掘过程中容易受到噪音影响,导致挖掘准确率较低,因此提出了基于特征标签的电力计量大数据深度挖掘方法。利用模糊C-均值聚类算法生成... 深度挖掘与分析电力计量大数据,提取有价值的信息,对于电网正常运行具有重要意义。而当前方法在数据挖掘过程中容易受到噪音影响,导致挖掘准确率较低,因此提出了基于特征标签的电力计量大数据深度挖掘方法。利用模糊C-均值聚类算法生成特征标签,通过特征标签对电力计量大数据进行改善,结合云计算平台搭建基于特征标签的电力计量大数据挖掘架构,通过编辑预处理后的数据与建模完成对于电力计量大数据的深度挖掘。实验结果表明,基于特征标签的电力计量大数据深度挖掘方法在挖掘过程中的稳定性极好,挖掘准确率能够达到99%,实际应用效果好。 展开更多
关键词 特征标签 电力计量 计量大数据 大数据挖掘 深度挖掘
下载PDF
融合特征标签与用户相似性的考试资源协同过滤推荐研究
2
作者 卿军 周润苗 +1 位作者 李诗曼 颜婉颉 《新潮电子》 2023年第11期244-246,共3页
为顺利通过考试,在各种线上考试学习社区进行学习已成为一种常见的考生学习形态,随着社区中考试资源量的急速增长,给考试者带来了寻找有效信息的迷茫。针对如何对考试学习者推荐心仪考试资源的问题,本文提出了一种融合特征标签与用户相... 为顺利通过考试,在各种线上考试学习社区进行学习已成为一种常见的考生学习形态,随着社区中考试资源量的急速增长,给考试者带来了寻找有效信息的迷茫。针对如何对考试学习者推荐心仪考试资源的问题,本文提出了一种融合特征标签与用户相似性的考试资源协同过滤推荐算法,融合考试资源特征标签对考试资源进行评分及考试用户相似性的计算,实现考试资源的有效推荐,通过实际数据的验证,该算法具有较好的实用性。 展开更多
关键词 特征标签 协同过滤 用户相似性考试资源推荐
下载PDF
基于依存句法与情感极性融合的商品评论特征标签抽取研究 被引量:1
3
作者 许建飞 《江苏科技信息》 2019年第13期36-40,共5页
文章以京东商城手机、电脑、美妆、食品4类商品的13218条评论数据为数据源,通过将依存语法分析与情感极性分析相融合提出一种新的商品评论特征标签抽取方法,不仅解决了抽取算法的鲁棒性不高问题,还提高了抽取结果的准确性。通过实验可知... 文章以京东商城手机、电脑、美妆、食品4类商品的13218条评论数据为数据源,通过将依存语法分析与情感极性分析相融合提出一种新的商品评论特征标签抽取方法,不仅解决了抽取算法的鲁棒性不高问题,还提高了抽取结果的准确性。通过实验可知,本文采取的抽取方法的准确率稳定在0.7,召回率和F值均稳定在0.8,总体结果理想,但对于匹配字典的依赖、标签抽取范围狭窄问题有待进一步的研究。 展开更多
关键词 依存句法 情感分析 特征标签
下载PDF
基于多维特征标签标记的手机文档排序查找方法
4
作者 张靖 郑文广 李玉坤 《天津理工大学学报》 2022年第4期25-31,共7页
人们经常需要查找以前保存在其手机中的文档,在搜索文档时,用户有时无法回忆起文档的确切名称,但可以记住其中的一些对象,例如文档中插入的图片、表格或数学式,以及文档的来源或文档的主题内容等。因此,将文档名称与其所包含的多种对象... 人们经常需要查找以前保存在其手机中的文档,在搜索文档时,用户有时无法回忆起文档的确切名称,但可以记住其中的一些对象,例如文档中插入的图片、表格或数学式,以及文档的来源或文档的主题内容等。因此,将文档名称与其所包含的多种对象相关联,能够提升文档查找效率。然而,现有的手机管理软件无法实现此项功能。文中主要研究如何从文档信息中提取出符合用户记忆的内容并转换为标签标记并用于查找,提出一种基于多维特征标签的排序查找方法,用于查找手机中的文档。在对个人手机中的文档标记并进行查找的试验证明了这种方法的有效性和高效性。 展开更多
关键词 特征标签 手机文档标记 排序 查找效率
下载PDF
基于特征集重构与多标签分类模型的谐波源定位方法
5
作者 邵振国 林潇 +2 位作者 张嫣 陈飞雄 林洪洲 《电力自动化设备》 EI CSCD 北大核心 2024年第2期147-154,共8页
传统基于谐波状态估计的谐波源定位方法需要专门的同步相量量测装置,工程应用受到限制。为此,基于电能质量监测装置所采集的非同步量测数据,提出了基于特征集重构与多标签分类模型的谐波源定位方法。利用监测数据的充分统计量来挖掘量... 传统基于谐波状态估计的谐波源定位方法需要专门的同步相量量测装置,工程应用受到限制。为此,基于电能质量监测装置所采集的非同步量测数据,提出了基于特征集重构与多标签分类模型的谐波源定位方法。利用监测数据的充分统计量来挖掘量测时段的谐波信息,同时利用标签特定特征学习算法重构特征集,从而消除冗余特征以及无关特征对于谐波源定位精度的影响;提出基于邻接矩阵以及灵敏度分析的测点配置方法,结合电路网络拓扑信息实现测点的优化配置;提出基于改进极限学习机的谐波源定位方法,该方法以重构特征集为输入,建立多标签分类模型,实现谐波源定位。通过仿真与算例分析,验证了所提方法的可行性及有效性。 展开更多
关键词 电能质量 谐波源定位 非同步谐波监测数据 极限学习机 标签特定特征学习算法
下载PDF
类不平衡的公共和标签特定特征多标签分类
6
作者 张海翔 李培培 胡学钢 《计算机技术与发展》 2024年第2期46-52,共7页
多标签分类主要解决实例数据对应多个标签问题,现有多标签方法大多利用所有特征组成的相同数据表示来区分所有标签,由于每个标签自身特点不同,统一的特征不能完全区分标签,给模型训练带来负面作用和时间成本增加,如何利用对每个标签而... 多标签分类主要解决实例数据对应多个标签问题,现有多标签方法大多利用所有特征组成的相同数据表示来区分所有标签,由于每个标签自身特点不同,统一的特征不能完全区分标签,给模型训练带来负面作用和时间成本增加,如何利用对每个标签而言最具有辨别力的特征来提高模型分类性能成为一种难题,此外现实中类不平衡问题同样会导致多标签学习模型的性能下降。基于此,提出一种类不平衡的公共和标签特定特征多标签分类方法。首先,找到种子实例的最近邻居,然后通过插值技术得到合成实例的特征来解决类不平衡问题;其次,为了找出对每个标签最具代表性的特征,引入l1,l2,1正则化约束系数矩阵提取标签的特定特征和公共特征;最后,使用标签相关性实现关联标签的模型输出相似,实例相关性保证关联特征共享对应标签分布信息提高分类性能。实验表明所提方法与其他多标签分类方法相比获得了更好的分类精度。 展开更多
关键词 标签分类 类不平衡 公共特征 标签特定特征 标签相关性
下载PDF
基于标签相关性的标签特定特征多标签学习
7
作者 王进 梁晨 +2 位作者 孙开伟 陈乔松 邓欣 《江苏大学学报(自然科学版)》 CAS 北大核心 2023年第5期554-563,576,共11页
针对标签特定特征多标签学习算法(multi-label learning with label-specific features,LIFT)未能在聚类以及分类阶段考虑标签相关性问题,提出一种基于标签相关性的标签特定特征多标签学习算法(multi-label learning with label-specifi... 针对标签特定特征多标签学习算法(multi-label learning with label-specific features,LIFT)未能在聚类以及分类阶段考虑标签相关性问题,提出一种基于标签相关性的标签特定特征多标签学习算法(multi-label learning with label-specific features via label correlations,LFLC).将标签空间加入特征空间进行聚类构建分类模型,采用考虑标签相关性的聚类集成技术为每个标签构造标签特定特征,使用相关性矩阵构建无向完全图并挖掘图中标签集合相关性,通过树集成表达标签间多种不同结构的强相关性.在试验部分,采用涵盖不同领域的10个数据集,以Hamming Loss、Ranking Loss、One-error、Coverage、Average Precision和macroAUC为评估指标,进行了参数敏感性分析和统计假设检验.结果表明:结合聚类集成与标签间强相关性的LFLC算法较其他对比多标签算法整体上能取得较好的效果. 展开更多
关键词 标签学习 标签特定特征 聚类集成 标签相关性 无向完全图 最小生成树
下载PDF
结合标签集语义结构的多标签特征选择算法 被引量:1
8
作者 潘敏澜 孙占全 +1 位作者 王朝立 曹高宇 《小型微型计算机系统》 CSCD 北大核心 2023年第1期90-96,共7页
多标签特征选择是针对多标签学习的一种有效的降维技术.传统的基于互信息的多标签特征选择算法大多未考虑标签之间的相关性或只考虑标签和标签之间的两两相关性,未探讨标签集内在的语义结构.针对以上不足,本文利用标签之间的互信息与熵... 多标签特征选择是针对多标签学习的一种有效的降维技术.传统的基于互信息的多标签特征选择算法大多未考虑标签之间的相关性或只考虑标签和标签之间的两两相关性,未探讨标签集内在的语义结构.针对以上不足,本文利用标签之间的互信息与熵,构造出相关性矩阵,再通过相关性聚类分析挖掘出标签集的语义结构,并结合挖掘出的标签集语义结构信息进一步度量特征和标签集的相关性,构造出高效的筛选特征子集的指标.所提算法在6个多标签公开数据集上和近几年的同类算法进行对比实验.最终通过5个分类指标的结果比较,证明了本文所提算法的有效性. 展开更多
关键词 标签特征选择 语义结构 互信息 聚类分析
下载PDF
基于标签路径特征融合的在线Web新闻内容抽取 被引量:23
9
作者 吴共庆 胡骏 +4 位作者 李莉 徐喆昊 刘鹏程 胡学钢 吴信东 《软件学报》 EI CSCD 北大核心 2016年第3期714-735,共22页
精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例... 精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法 CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在Clean Eval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法. 展开更多
关键词 内容抽取 WEB新闻 标签路径特征 组合特征选择 特征融合
下载PDF
基于标签特定特征的多目标回归稀疏集成方法 被引量:4
10
作者 刘洪涛 李航 +1 位作者 王进 李鸽鸽 《电子学报》 EI CAS CSCD 北大核心 2020年第5期906-913,共8页
多目标回归学习是指同时学习多个相关的回归任务,其主要挑战来自于对输入要素和输出目标变量之间的基础关系进行建模以及对目标间的相关性进行探索.针对这两个挑战,本文提出了一种基于标签特定特征的多目标回归稀疏集成方法,通过探索目... 多目标回归学习是指同时学习多个相关的回归任务,其主要挑战来自于对输入要素和输出目标变量之间的基础关系进行建模以及对目标间的相关性进行探索.针对这两个挑战,本文提出了一种基于标签特定特征的多目标回归稀疏集成方法,通过探索目标间的相关性,为每个目标构建其独特的标签特定特征,提高算法整体的预测精度;同时设计一种稀疏性聚合函数对不同的回归方法进行集成,从而处理输入与输出间的复杂关系.在18个数据集上与有代表性的多目标回归方法进行对比实验,充分证明了本文方法的有效性与竞争性. 展开更多
关键词 多目标回归 稀疏集成 标签特定特征 目标间关联
下载PDF
基于标签关系改进的多标签特征选择算法 被引量:2
11
作者 陈福才 李思豪 +1 位作者 张建朋 黄瑞阳 《计算机科学》 CSCD 北大核心 2018年第6期228-234,共7页
多标签特征选择是应对数据维度灾难现象的主要方法之一,可以在降低特征维度的同时提高学习效率,优化分类性能。针对目前特征选择算法没有考虑标签间的相互关系,以及信息量的衡量范围存在偏差的问题,提出一种基于标签关系改进的多标签特... 多标签特征选择是应对数据维度灾难现象的主要方法之一,可以在降低特征维度的同时提高学习效率,优化分类性能。针对目前特征选择算法没有考虑标签间的相互关系,以及信息量的衡量范围存在偏差的问题,提出一种基于标签关系改进的多标签特征选择算法。首先引入对称不确定性对信息量进行归一化处理,然后用归一化的互信息量作为相关性的衡量方法,并据此定义标签的重要性权重,对依赖度和冗余度中的标签相关项进行加权处理;进而提出一种特征评分函数作为特征重要性的评价指标,并依次选择出评分最高的特征组成最佳特征子集。实验结果表明,与其他算法相比,该算法在提取出更加精确的低维特征子集后,不仅能够有效提高面向实体信息挖掘的多标签学习算法的性能,也能提高基于离散特征的多标签学习算法的效率。 展开更多
关键词 标签特征选择 标签关系 依赖度 冗余度 特征评分
下载PDF
融合标签特征和时间上下文的协同过滤推荐算法 被引量:20
12
作者 窦羚源 王新华 孙克 《小型微型计算机系统》 CSCD 北大核心 2016年第1期48-52,共5页
推荐系统是解决信息过载问题的有效方法,而协同过滤通过挖掘用户行为信息来预测用户偏好,是现今广泛应用的推荐方法.但传统的协同过滤算法存在数据稀疏,推荐精度不高的问题.而标签信息能够丰富用户(资源)之间的联系,从而提高推荐精度.... 推荐系统是解决信息过载问题的有效方法,而协同过滤通过挖掘用户行为信息来预测用户偏好,是现今广泛应用的推荐方法.但传统的协同过滤算法存在数据稀疏,推荐精度不高的问题.而标签信息能够丰富用户(资源)之间的联系,从而提高推荐精度.通过标签信息来构造用户和资源的特征矩阵,进一步融合到基于邻域的协同过滤推荐算法中,预测用户对资源的评分.同时考虑了用户评分的时间上下文影响,降低预测误差.在真实的数据集上验证,该推荐算法与传统协同过滤算法相比,有效的预测用户评分,提高推荐精度. 展开更多
关键词 协同过滤 标签特征 时间上下文
下载PDF
ReliefF-MFO多标签特征选择算法 被引量:7
13
作者 何牧宇 周晖 《计算机工程与设计》 北大核心 2019年第12期3469-3473,共5页
为解决启发式算法在多标签特征选择中可以达到较好效果但效率很低的问题,提出一种基于启发式算法的混合特征选择算法。使用ReliefF方法去除不相关特征,采用MFO算法进行特征子集寻优,提高分类器性能的同时达到较高的效率。将所提方法应... 为解决启发式算法在多标签特征选择中可以达到较好效果但效率很低的问题,提出一种基于启发式算法的混合特征选择算法。使用ReliefF方法去除不相关特征,采用MFO算法进行特征子集寻优,提高分类器性能的同时达到较高的效率。将所提方法应用于多个典型多标签数据集分类问题并与现有启发式特征选择方法进行对比,实验结果表明了所提算法的有效性。 展开更多
关键词 标签分类 标签特征选择 混合式特征选择 飞蛾火焰优化算法 RELIEFF算法
下载PDF
基于动态图拉普拉斯的多标签特征选择 被引量:2
14
作者 李永豪 胡亮 +1 位作者 张平 高万夫 《通信学报》 EI CSCD 北大核心 2020年第12期47-59,共13页
针对基于图的多标签特征选择方法忽略图拉普拉斯矩阵的动态变化,且利用逻辑标签来指导特征选择过程而丢失标签信息等问题,提出了一种基于动态图拉普拉斯矩阵和实值标签的多标签特征选择方法。该方法利用特征矩阵的稳健低维空间构造动态... 针对基于图的多标签特征选择方法忽略图拉普拉斯矩阵的动态变化,且利用逻辑标签来指导特征选择过程而丢失标签信息等问题,提出了一种基于动态图拉普拉斯矩阵和实值标签的多标签特征选择方法。该方法利用特征矩阵的稳健低维空间构造动态图拉普拉斯矩阵,并利用该稳健低维空间作为实值标签空间,进一步使用流形约束和非负约束将逻辑标签转化为实值标签,以此来解决上述问题。所提方法与3种多标签特征选择方法在9个多标签基准数据集上进行了对比实验,实验结果表明,所提多标签特征选择方法可得到高质量的特征子集,并且能获得很好的分类表现。 展开更多
关键词 标签特征选择 动态图拉普拉斯矩阵 实值标签 分类
下载PDF
基于标签特征和相关性的多标签分类算法 被引量:15
15
作者 李锋 杨有龙 《计算机工程与应用》 CSCD 北大核心 2019年第4期48-55,共8页
针对标签特有特征和标签相关性的有效利用,提出了一种新的多标签算法LSFLC,它可以有效地集成标签特有特征和标签相关性。首先,对于每个标签,通过重采样技术生成新的正类实例以扩充其正类实例的数目;其次,通过特征映射函数将原始特征空... 针对标签特有特征和标签相关性的有效利用,提出了一种新的多标签算法LSFLC,它可以有效地集成标签特有特征和标签相关性。首先,对于每个标签,通过重采样技术生成新的正类实例以扩充其正类实例的数目;其次,通过特征映射函数将原始特征空间转换为特定的特征空间,得到每个标签的标签特征集;然后,对于每个标签,找到与其最相关标签,通过复制该标签的正类实例来扩大标签特征集,这不仅丰富了标签的信息,而且在一定程度上改善了类不平衡的问题;最后,对于不同的数据集进行实验分析,实验结果表明该算法的分类效果更好。 展开更多
关键词 标签学习 局部标签相关性 标签特有特征 相关实例补充
下载PDF
自动生成影像学报告的混合特征提取无卷积结构深度学习模型
16
作者 王瑞 花嵘 +1 位作者 仪秀龙 韩承磊 《山东科技大学学报(自然科学版)》 CAS 北大核心 2023年第3期85-93,共9页
在影像学报告的生成中,由于正常区域和异常区域的数据不平衡,描述疾病的关键词经常被描述图像正常区域的句子掩盖,导致异常图像特征的误判和漏判,严重影响医疗报告的质量。本研究提出混合特征提取无卷积深度学习模型,首次将Swin Transfo... 在影像学报告的生成中,由于正常区域和异常区域的数据不平衡,描述疾病的关键词经常被描述图像正常区域的句子掩盖,导致异常图像特征的误判和漏判,严重影响医疗报告的质量。本研究提出混合特征提取无卷积深度学习模型,首次将Swin Transformer引入放射学报告中,设计了一个混合特征提取器,以提取更加细粒度的图像特征,准确地捕捉生成影像学报告所需要的异常特征;设计一个名为视觉-语义协同注意力的注意力机制,在生成报告时突出图像重点特征信息,对非关键信息进行过滤,有效提升生成异常报告的质量;使用具有记忆机制的解码器模块生成影像学报告。最后,在流行的影像学报告IU X-Ray数据集上与当前的主流模型进行对比表明,本模型在语言生成指标和临床评估方面都达到较理想的效果。 展开更多
关键词 影像学报告 混合特征 标签 标签特征 深度学习模型
下载PDF
手机用户行为特征分析 被引量:1
17
作者 黄棣 《微型机与应用》 2015年第14期64-67,共4页
随着智能手机的兴起,合理有效地使用手机已成为社会共性需求。不同的用户具有不同的信息消费行为特征,其需求动向也常常发生变化。描述了手机客户行为分析与用户特征标签刻画的方法 ,通过对客户使用特定业务的行为、互联网访问行为、指... 随着智能手机的兴起,合理有效地使用手机已成为社会共性需求。不同的用户具有不同的信息消费行为特征,其需求动向也常常发生变化。描述了手机客户行为分析与用户特征标签刻画的方法 ,通过对客户使用特定业务的行为、互联网访问行为、指令位置信息、终端使用情况、行业关注等有效信息的收集并运用合适的数学模型进行分析,能获取客户的各种偏好程度,进而对客户进行特征分类,为企业、政府等机构的相关决策及应用提供依据。 展开更多
关键词 访问行为 函数模型 偏好分析 特征标签
下载PDF
基于特征提取的SVM图像分类技术的无人机遥感建筑物震害识别应用研究 被引量:4
18
作者 张莹 郭红梅 +3 位作者 尹文刚 赵真 鲁长江 肖本夫 《灾害学》 CSCD 北大核心 2022年第4期30-36,56,共8页
在现有的建筑物震害信息获取途径中,相比传统的现场调查法,无人机遥感系统具有机动灵活、快速高效等优点,目前已成为一种重要的震害信息获取手段。而在遥感图像中识别建筑物震害时,常用的人工目视解译及现有的计算机自动识别方法存在效... 在现有的建筑物震害信息获取途径中,相比传统的现场调查法,无人机遥感系统具有机动灵活、快速高效等优点,目前已成为一种重要的震害信息获取手段。而在遥感图像中识别建筑物震害时,常用的人工目视解译及现有的计算机自动识别方法存在效率低下、精度不足等缺陷。结合机器学习最新进展,将基于特征提取的SVM图像分类技术应用到无人机遥感建筑物震害识别中,通过尺度不变特征转换(SIFT)提取图像特征后,再采用视觉词袋构建建筑物震害无人机遥感图像特征向量标签库,作为SVM进行图像分类的基础。并以2021年9月16日发生的四川泸县6.0级地震为例,对方法的可行性加以验证。结果表明:该方法可快速准确地从无人机遥感图像中识别出建筑物震害情况。 展开更多
关键词 尺度不变特征转换(SIFT) 特征向量标签 支持向量机(SVM) 图像分类技术 无人机遥感 建筑物震害识别 四川泸县6.0级地震
下载PDF
基于聚类提升树的多标签学习 被引量:2
19
作者 王进 余薇 +1 位作者 孙开伟 邓欣 《江苏大学学报(自然科学版)》 CAS 北大核心 2021年第4期428-437,共10页
为了探索多标签数据集中每个标签所具有的特定特征,针对标签特定特征进行有效的利用,提出基于聚类提升树的多标签学习方法(multi-label leaning based on boosting clustering trees,MLL-BCT).建立MLL-BCT整体框架,通过引入聚类特征树... 为了探索多标签数据集中每个标签所具有的特定特征,针对标签特定特征进行有效的利用,提出基于聚类提升树的多标签学习方法(multi-label leaning based on boosting clustering trees,MLL-BCT).建立MLL-BCT整体框架,通过引入聚类特征树来挖掘数据样本之间的相关性,以树形结构保存数据的内在关联;通过引入随机子集训练每个标签的若干分类树来学习标签特定特征,增强特征对单个标签表达,提升分类性能.将所提出的方法在flag、emotions等11个数据集上与经典的特定特征领域多标签学习方法(LIFT、LLSF、REEL、LLSF-DL)进行对比试验.结果表明:新方法在各评估指标(Hamming Loss、One-error、Ranking Loss、Average Precision、Micro-averaged F-Measure)上均具有明显的性能提升,且方法具备简单灵活性. 展开更多
关键词 标签学习 标签特定特征 特征构建 聚类特征 聚类提升树
下载PDF
一种DOM树标签路径和行块密度结合的Web信息抽取方法 被引量:4
20
作者 马晓慧 李泓莹 《智能计算机与应用》 2017年第4期13-16,20,共5页
本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行... 本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本。实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91%,召回率达到95%,F值达到93%。本算法对于包含过多短文本的网页抽取的准确度还有待提高。 展开更多
关键词 DOM树 视觉特征 标签路径特征 行块分布函数
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部