基于DOM的评论发现及抽取模型研究被引量：5

Reviews discovery and opinions extraction model based on DOM

下载PDF

导出

摘要 Internet发展至今,除了静态的网页文本,目前出现较多的是基于动态文本的BBS评论、电子商务评论等。如何自动挖掘这些评论信息,变得日益重要。提出了一种新颖的评论算法进行评论信息的发现与抽取。采用了DOM技术对页面进行分块,同时结合信息熵的迭代计算技术实现了评论块的自动发现与抽取。 With the development oflntemet, more and more commercial websites have appeared. These commercial websites become the information platform where users can comment their reviews. These reviews are increasingly important. This text has put forward a kind of novel algorithm. This algorithm iteratively segment page by DOM and calculate the information entropy to automatically dis- cover and extract the reviews.

作者李姜

机构地区北京科技大学信息工程学院

出处《计算机工程与设计》 CSCD 北大核心 2007年第9期2150-2153,共4页 Computer Engineering and Design

基金国家自然科学基金项目(50376029)

关键词评论抽取文档对象模型信息熵页面分块迭代计算 review extraction DOM information entropy page segmenting iterative calculation

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Chakrabarti S.Mining the web:Discovering knowledge from hypertext data[M].USA:Morgan Kaufmann Publishers,2002.
2Chakrabarti S,Punera K,Subramanyam M.Accelerated focused crawling through online relevance feedback[C].USA:Proceedings of the Eleventh International Conference on World Wide Web,2002.148-159.
3Lin S H,Ho J M.Discovering informative content blocks from web documents[C].Canada:Proceedings of the Eighth ACM SIGKDD International Conference,2002.588-593.
4Hsu C N,Dung M T.Generating finite-state transducers for semi-structured data extraction from the web[J].Information Systems,1998,23(8):521-538.
5孟宪福,狄慧.基于Agent和XML的Web页面信息抽取研究与设计[J].计算机工程与设计,2004,25(8):1411-1414. 被引量：6
6李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101
7Thomas M Cover,Joy A Thomas.Elements of information theory[M].USA:John Wiley & Sons Inc,2003.
8Theresa Wilson,Janyce Wiebe,Paul Hoffmann.Recognizing contextual polarity in phrase-level sentiment analysis[C].Canada:Proceedings of Human Language Technology Conference and Conference Empirical Methods in Natural Language Processing,2005.347-354.

二级参考文献20

1Ling Liu, Caltion Pu, Wei Han. XWRAP: An XML-enabled wrapper construction system for web information sources [C].Proceedings of the International Conference on Data Engineering, 2000.
2Stefan Kuhlins, Ross Tredwell. Toolkits for generating wrap pers, a survey of software toolkits for automated data extraction from web sites [J]. Objects, Components, Architectures, Services, and Applications for a Networked World, 2003, 184-198.
3Florescu D, Levy A Y, Mendelzon A. Database techniques for the World-Wide Web: A Survery. In: ACM The SIGMOD Record, 1998.59-74
4Atzeni P, Mecca G, Merialdo P. To weave the Web. In: Proc the 23rd International Conference on Very Large Data Bases. Athens, Greece, 1997. 206-215
5Pemberton S et al. XHTML 1.0: The extensible hyperText markup language. In: http://www.w3.org/MarkUp/
6Cattell R G G. The Object Database Standard ODMG-93. San Mateo,California: Morgan Kaufmann Publishers,1994
7Mitchell T. Machine Learning. New York: McGraw Hill, 1997
8Wall L et al. Programming Perl(3rd Edition). O'Reilly & Associates,2000
9Birbeck M et al. Professional XML. Wrox Press Inc, 2000
10Liu L, Pu C, Han W. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proc International Conference on Data Engineering (ICDE), San diego, California, 2000. 611-621

共引文献105

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
5王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
6王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
7孟宪福,狄慧.基于Agent和XML的Web页面信息抽取研究与设计[J].计算机工程与设计,2004,25(8):1411-1414. 被引量：6
8李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量：6
9张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量：5
10LIXiang-yang,ZHANGYa-fei,LUJian-jiang,XUBao-wen.A Classification Method for Web Information Extraction[J].Wuhan University Journal of Natural Sciences,2004,9(5):823-827. 被引量：2

同被引文献38

1何昕,谢志鹏.基于简单树匹配算法的Web页面结构相似性度量[J].计算机研究与发展,2007,44(z3):1-6. 被引量：15
2屠彤辉.期刊论文的元数据描述探析[J].上海高校图书情报工作研究,2006,16(4):30-34. 被引量：3
3黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
4徐禾芳,何振辉.基于搜索引擎和数据挖掘的博客营销[D】.广州:华南理工大学工商管理学院,2008.
5LIAO XIANGWEN, CAO DONGLIN, TAN SONGBO, et al. Combining language model with sentiment analysis for opinion retrieval of blog-post [ C]// TREC 2006: Text Retrieval Conference 2006 Proceedings. IS. l.]: NIST, 2006:211-213.
6HU M, SUN A, LIM E-P. Comments-oriented blog summarization by sentence extraction [ C]// CIKM 07: Proceedings of the Sixteenth ACM Conference on Information and Knowledge Management. New York: ACM. 2007:901-904.
7CHANG C, LUI S. IEPAD: information extraction based on pattern discovery [ C]// WWW 2001: International World Wide Web Conference. New York: ACM, 2001:681 -688.
8ZHENG SHUYI, ZHOU DING, LI JIA, et al. Extracting author meta-data from Web using visual features [ C]// ICDMW 2007: Seventh IEEE International Conference on Data Mining Workshops. Washington, DC: IEEE Computer Society, 2007:33-40.
9YI LAN, LIU BING, LI XIAOLI. Eliminating noisy information in Web pages for data mining [ C]// KDD '03: The Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2003:296-305.
10ZHENG SHUYI, SONG RUIHUA, WEN JI-RONG, et al. Efficient record-level wrapper induction [ C]//CIKM '09. New York: ACM, 2009:47-56.

引证文献5

1钱建立,吴广茂,蒋路.基于特征相似度的科技论文元数据提取算法研究[J].微电子学与计算机,2008,25(8):129-132. 被引量：9
2范纯龙,夏佳,肖昕,吕红伟,徐蕾.基于功能语义单元的博客评论抽取技术[J].计算机应用,2011,31(9):2417-2420. 被引量：3
3张玉峰,何超.基于Web评论挖掘的动态竞争情报分析研究(下)——算法设计与实验分析[J].情报理论与实践,2012,35(7):47-50. 被引量：4
4朱毅华,张超群,曾通,吴龙凤,徐玛丽,王东波,李晓晖.基于子树相似度计算的网页评论提取算法研究[J].现代图书情报技术,2013(11):52-59. 被引量：5
5龙珑,邓伟,元昌安.绿色网络博客评论系统的提取方法[J].桂林理工大学学报,2014,34(1):162-167.

二级引证文献21

1欧阳辉,禄乐滨.基于证据理论的论文元数据抽取算法研究[J].电子设计工程,2010,18(4):66-69. 被引量：3
2欧阳辉,禄乐滨,钱建立.基于C4.5的论文元数据抽取算法研究[J].计算机工程与设计,2010,31(16):3708-3711. 被引量：4
3陈琴.信息检索中相似度计算的新方法[J].微电子学与计算机,2010,27(9):159-161.
4商杰,陈德华,薛莉芳.文本元数据自动抽取算法的研究[J].计算机应用与软件,2011,28(12):148-150. 被引量：2
5张玉峰,何超.基于Web评论挖掘的动态竞争情报分析研究(下)——算法设计与实验分析[J].情报理论与实践,2012,35(7):47-50. 被引量：4
6王益明,黄容,许春雯.2012年我国情报学研究进展[J].山东图书馆学刊,2013(5):18-22. 被引量：5
7滕广青,毕达天,任晶,陈晓美.Folksonomy中用户标签的语义紧密性研究[J].现代图书情报技术,2013(12):48-54. 被引量：7
8李湘东,霍亚勇,黄莉.图书网页的自动识别及书目信息抽取研究[J].现代图书情报技术,2014(4):71-77. 被引量：3
9陈淑平.基于特征及规则模式的学位论文元数据信息自动抽取研究[J].农业图书情报学刊,2015,27(2):57-59. 被引量：1
10黄晓斌,张兴旺.网络动态数据的特征、类型与挖掘系统[J].图书情报工作,2015,59(10):14-20. 被引量：1

1李慧,沈洁,张舒,顾天竺,吴颜,陈晓红.基于页面分块与信息熵的评论发现及抽取[J].计算机应用研究,2007,24(2):269-271. 被引量：4
2赵俊芹,杨丹,余淼,陈林.评论信息抽取技术在网络贸易系统平台上的应用[J].计算机科学,2008,35(4):292-293.
3安增文,徐杰锋.基于视觉特征的网页正文提取方法研究[J].微型机与应用,2010,29(3):38-41. 被引量：13
4郭坤银,邢永康.基于Web标准的页面分块算法研究[J].微处理机,2009,30(6):58-61. 被引量：2
5蒋建中,丁宝琼,吴琼,邱文武.基于页面分块的网页排序算法:BHITS[J].计算机工程,2010,36(11):64-66. 被引量：2
6路松峰,王丹丹.面向移动设备的WEB页面分块算法[J].小型微型计算机系统,2007,28(9):1672-1677. 被引量：1
7陈彩红.DOM技术及其发展[J].科学之友（下）,2008(10):131-131.
8夏秀峰,张悦,周大海.基于XML的异种数据库间数据交换技术[J].微处理机,2005,26(5):31-35. 被引量：7
9陈焕英,李冰.基于DTD/DOM的XML技术的应用研究[J].河南城建学院学报,2012,21(1):54-56.
10郭翠英.利用DOM技术实现分页显示XML文档数据[J].电脑编程技巧与维护,2011(23):22-24.

计算机工程与设计

2007年第9期

浏览历史

内容加载中请稍等...

基于DOM的评论发现及抽取模型研究被引量：5

参考文献8

二级参考文献20

共引文献105

同被引文献38

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于DOM的评论发现及抽取模型研究 被引量：5

参考文献8

二级参考文献20

共引文献105

同被引文献38

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于DOM的评论发现及抽取模型研究被引量：5