-
题名基于标签路径的Web结构化数据自动抽取
被引量:3
- 1
-
-
作者
李贵
陈成
李征宇
韩子扬
孙平
孙焕良
-
机构
沈阳建筑大学信息与控制工程系
-
出处
《计算机科学》
CSCD
北大核心
2013年第06A期141-144,165,共5页
-
基金
国家自然科学基金(61070024)资助
-
文摘
提出了一种基于标签路径的Web结构化数据自动抽取方法。该方法通过对网页DOM树的解析获取完整标签路径集合,并依据路径相似度测量方法来聚类标签路径,实现目标数据区域的定位,然后通过标签节点坐标位置的特性来分离各个数据项,过滤冗余数据,最终完成数据抽取。实验结果表明,与MDR方法相比,该方法在处理拥有结构化数据的网页时,有更高的查全率和查准率。
-
关键词
标签路径
结构化数据抽取
聚类
-
Keywords
Tag path, Extracting structured data,Clustering
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于人口特征属性的犯罪预测研究
- 2
-
-
作者
谷成军
孙焕良
-
机构
沈阳建筑大学信息与控制工程系
-
出处
《科技广场》
2014年第4期14-17,共4页
-
文摘
本文对犯罪率进行了研究,首先采取相关性分析的方法,从与治安案件和刑事案件相关的十一种特征属性筛选出七种相关性或关联度较大的特征属性,在此基础上构造结构化方程模型,给出了其人口特征属性与犯罪率之间的量化关系。
-
关键词
犯罪率
相关性分析
结构化方程
-
Keywords
Crime Rate
Correlation Analysis
Structural Equation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-