基于文本内容的农业网页信息抽取和分类研究被引量：3

Text Oriented Information Extraction and Classification Technology for Agricultural Webs

导出

摘要通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。 Through the investigation and analysis of their structures and features of HTML in the agricultural websites, the paper described the methods of the information extraction and classification for agricultural webs. The main contents included： information extraction and classification for agricultural webs based on document object model （DOM） structure; automatic calculation of text classification attribute according to its contents; obtaining feature words; and automatic classification of new documents through the summary of sample document features and The experimental results showed that the time consumption of web information extraction was lower while its exactness kept higher, with satisfactory classification rates.

作者朱学芳冯曦曦

机构地区南京大学信息管理系南京大学多媒体信息研究所

出处《情报科学》 CSSCI 北大核心 2012年第7期1012-1015,共4页 Information Science

基金 2008年国家社科基金重点项目(08ATQ003)

关键词文本农业网页信息抽取分类 text agricultural web information extraction classification

分类号 G350 [文化科学—情报学]

引文网络
相关文献

参考文献10

1Law M. R, Mintzes B. The Sources and Popularity of Online Drug Information: An Analysis of Top Search Engine Results and Web Page Views[J].ANNALS OF PHARMACOTHERAPY,2011,45(3):350-356.
2Kim Y, Park J. Web information extraction by HTML tree edit distance matching[C].Proc of International Conference on Convergence Information Technology. Washington DC: IEEEComputerSociety, 2007.
3张俊丽,张帆.改进KNN算法在垃圾邮件过滤中的应用[J].现代图书情报技术,2007(4):75-78. 被引量：14
4杨晓明.试论我国农业网站的发展现状与战略[J].农业技术与装备,2010(14):14-16. 被引量：6
5张瑞雪,宋明秋,公衍磊.逆序解析DOM树及网页正文信息提取[J].计算机科学,2011,38(4):213-215. 被引量：15
6W3C html home page[EB/OL].http://www.w3.org/Mark- Up/,2011-05-09.
7张俊英,胡侠,卜佳俊.网页文本信息自动提取技术综述[J].计算机应用研究,2009,26(8):2827-2831. 被引量：9
8胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
9乌庆敏,方少卿,谢亮亮.一种加权的KNN中文问句分类方法研究[J].安徽广播电视大学学报,2010(3):126-128. 被引量：1
10朱学芳,韩占校.基于P2P的分布式主题爬虫系统的设计与实现[J].情报学报,2010,29(3):402-407. 被引量：6

二级参考文献59

1徐洪伟,方勇,音春.垃圾邮件过滤技术分析[J].通信技术,2003,36(10):126-128. 被引量：14
2何昕,谢志鹏.基于简单树匹配算法的Web页面结构相似性度量[J].计算机研究与发展,2007,44(z3):1-6. 被引量：15
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
5王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
6陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
7朱明,王庆伟.半结构化网页中多记录信息的自动抽取方法[J].计算机仿真,2005,22(12):95-97. 被引量：2
8王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
9潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
10余正涛,樊孝忠,郭剑毅,耿增民.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1889-1893. 被引量：44

共引文献91

1丁志刚,王小捷.一种基于类别意图的信息检索模型[J].郑州大学学报（理学版）,2009,41(1):59-63.
2谭金波,黄峰,杨晓江,李艺.一种改进的互信息特征选择算法[J].情报学报,2006,25(6):651-656. 被引量：7
3张文良,黄亚楼,倪维健.一种基于聚类的文本特征选择方法[J].计算机应用,2007,27(1):205-206. 被引量：10
4倪茂树,时达明,林鸿飞.基于粗糙集属性约简的文本分类[J].郑州大学学报（理学版）,2007,39(2):100-103. 被引量：7
5倪茂树,赵晶,林鸿飞.生物医学文本分类方法比较研究[J].计算机工程与应用,2007,43(12):147-149. 被引量：3
6王涛,裘国永,何聚厚.基于改进Nave Bayes的垃圾邮件过滤模型研究[J].计算机工程与应用,2007,43(13):186-190. 被引量：10
7赵国际,李竹林,赵宗涛,张宏.文本分类技术及在军事情报中的应用[J].计算机技术与发展,2007,17(8):176-179. 被引量：1
8李建锋,陈佳良,张美华.一种基于聚类-遗传算法的文摘提取方法研究[J].计算技术与自动化,2007,26(3):38-40. 被引量：1
9孙铁利,张妍,李晓微.文本挖掘中特征降维方法比较研究[J].电脑知识与技术,2008(1):201-204. 被引量：1
10王涛,裘国永,何聚厚,张娇艳.Naive Bayes邮件过滤模型的特征词选取方法研究[J].航空计算技术,2008,38(2):131-134. 被引量：1

同被引文献29

1郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
2尹丽春,姜春林,殷福亮,王友强.基于CSCD和SCI的跨省区科学合作网络可视化分析[J].图书情报工作,2007,51(8):62-64. 被引量：32
3Le Q V,Mikolov T.Distributed representations of sentences and documents. . 2014
4Nemanja Djuric,Vladan Radosavljevic,Mihajlo Grbovic.Hierarchical neural language models for joint representation of streaming documents and their content. International World Wide Web Conference Committee (IW3C2) . 2015
5Keyur J Patel,Ketan J Sarvakar.Web page classification using data mining. International Journal of Advanced Research in Computer and Communication Engineering . 2013
6Patrick Kenekayoro,Kevan Buckley,Mike Thelwall.??Automatic classification of academic web page types(J)Scientometrics . 2014 (2)
7Stephen Robertson.??Understanding inverse document frequency: on theoretical arguments for IDF(J)Journal of Documentation . 2004 (5)
8Seyda Ertekin,C Lee Giles.A comparative study on representation of web pages in automatic text categorization. . 2010
9Revathi N,Anjana Peter,Jagadeesh Kumar.Web text classification using genetic algorithm and a dynamic neural network model. International Journal of Advanced Research in Computer Engineering&Technology . 2013
10Shen Feng,Luo Xiong,Chen Yi.Text classification dimension reduction algorithm for Chinese web page based on deep learning. International Conference on Cyberspace Technology (CCT 2013) . 2013

引证文献3

1宋鸿芳.基于文献信息资源的网络可视化机理分析[J].海峡科技与产业,2017,30(4):66-70.
2魏芳芳,段青玲,肖晓琰,张磊.基于支持向量机的中文农业文本分类技术研究[J].农业机械学报,2015,46(S1):174-179. 被引量：28
3E CHANG.Implementation of a weblog extraction system with an improved template extraction technique[J].Chinese Journal of Library and Information Science,2013(1):52-63.

二级引证文献28

1张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：11
2王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
3吕春.统计规律性的计算机模拟演示[J].工科物理,2000,10(4):46-51.
4段青玲,魏芳芳,张磊,肖晓琰.基于Web数据的农业网络信息自动采集与分类系统[J].农业工程学报,2016,32(12):172-178. 被引量：34
5董放,刘宇飞,周源.基于LDA-SVM论文摘要多分类新兴技术预测[J].情报杂志,2017,36(7):40-45. 被引量：33
6段青玲,肖晓琰,刘怡然,张璐.基于SW-SVR的畜禽养殖物联网异常数据实时检测方法[J].农业机械学报,2017,48(8):159-165. 被引量：14
7赵明,杜会芳,董翠翠,陈长松.基于word2vec和LSTM的饮食健康文本分类研究[J].农业机械学报,2017,48(10):202-208. 被引量：43
8赵燕,李晓辉,周云成,张越.基于朴素贝叶斯的农业文本分类方法研究[J].节水灌溉,2018(2):98-102. 被引量：8
9赵明,董翠翠,董乔雪,陈瑛.基于BIGRU的番茄病虫害问答系统问句分类研究[J].农业机械学报,2018,49(5):271-276. 被引量：24
10房乐楠,何腾鹏,刘宇红.一种改进型PSO算法在SVM参数寻优中的应用[J].电子科技,2018,31(6):17-19. 被引量：15

1吕湘霞.围绕新闻报道做好剪报资料工作[J].新闻窗,1998,0(3):43-44.
2巴.苏和.高校文科学报特色构成因素管见[J].内蒙古民族大学学报（社会科学版）,1994,21(1):76-78. 被引量：1
3张建国,赛力克波力.对学报特色化办刊的几点思考[J].伊犁师范学院学报（社会科学版）,2003,22(2):68-72.
4李湘东,胡逸泉,巴志超,黄莉.数字图书馆多种类型文献混合自动分类研究[J].图书馆杂志,2014,33(11):42-48. 被引量：7
5程广荣.Excel在图书馆管理工作中的应用[J].牡丹江教育学院学报,2003(4).
6金得存.高校人文社会科学学报特色的全方位思考[J].安庆师范学院学报（社会科学版）,2004,23(6):66-69. 被引量：6
7孟园,王洪伟.基于文本内容特征选择的评论质量检测[J].现代图书情报技术,2016(4):40-47. 被引量：5
8陈江涛,张金隆,张亚军.在线商品评论有用性影响因素研究:基于文本语义视角[J].图书情报工作,2012,56(10):119-123. 被引量：17
9齐选.广告管理电子化与现代报业经营[J].中国报业,2001,0(7):47-47.
10韩毅.基于文档结构的向量空间检索模型研究[J].情报学报,2004,23(2):158-162. 被引量：11

情报科学

2012年第7期

浏览历史

内容加载中请稍等...

基于文本内容的农业网页信息抽取和分类研究被引量：3

参考文献10

二级参考文献59

共引文献91

同被引文献29

引证文献3

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于文本内容的农业网页信息抽取和分类研究 被引量：3

参考文献10

二级参考文献59

共引文献91

同被引文献29

引证文献3

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于文本内容的农业网页信息抽取和分类研究被引量：3