-
题名基于新型主题信息量化方法的Web主题信息提取研究
被引量:1
- 1
-
-
作者
吕聚旺
都云程
王弘蔚
施水才
-
机构
北京信息科技大学中文信息处理研究中心
北京拓尔思信息技术股份有限公司
-
出处
《现代图书情报技术》
CSSCI
北大核心
2008年第12期48-53,共6页
-
基金
国家863计划重点项目“跨媒体搜索关键技术研究及服务产品开发”(项目编号:2006AA010105)
国家自然科学基金项目“基于语义的中文文本聚类研究”(项目编号:60772081)
北京市属市管高校人才强教计划项目“创新团队-智能搜索引擎和文本挖掘”(项目编号:PXM2007_014224_044677)的研究成果之一
-
文摘
针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。
-
关键词
网页主题信息信息抽取信息块语义信息IB—DOM树
-
Keywords
Topic information of Web page
Information extraction
Information block
Semantic information
IB -DOM tree
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名企业社会媒体主题信息提取算法研究
被引量:1
- 2
-
-
作者
孙宝华
-
机构
潞安矿业集团公司租赁站
-
出处
《煤》
2014年第1期72-76,共5页
-
文摘
鉴于已有信息提取方法的可改进之处,结合对HTML网页性质的统计和分析,针对社会媒体中的用户生成数据,提出一种网页主题信息提取算法。算法依据DOM的树型结构特点,充分考虑节点中非链接文字总数和超链接总数这些语义信息,对其进行基于HTML标签的过滤和基于语义的剪枝,能够准确地提取出网页HTML文档的主题信息。实验证明,提取到的主题信息具有较高的准确性和完整性。
-
关键词
社会媒体
网页主题信息
DOM树
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-