Web文档中词语权重计算方法的改进被引量：14

Improved approach to weighting terms in Web Text

下载PDF

导出

摘要以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进。首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,体现了单词的类区分能力。实验验证了该方法的可行性和有效性。 This paper uses vector space model as the description of the Web text,analyses and improves the traditional formula TF＊IDF.First,we explore the feature of the Web pages which are written in HTML and describe the situation information of the terms in Web text.Second,we use generalized information theory as the theory base to introduce the quadratic entropy mutual information into the formula.The experiment shows the feasibility and the validity of this method.

作者初建崇刘培玉王卫玲

机构地区海军航空工程学院训练部山东师范大学信息科学与工程学院

出处《计算机工程与应用》 CSCD 北大核心 2007年第19期192-194,198,共4页 Computer Engineering and Applications

关键词向量空间模型 WEB文本分类权重调整互信息 vector space model Web text classification weight adjustment mutual information

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
2李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78
3陈治平,林亚平,童调生.基于N层向量空间模型的信息检索算法[J].计算机研究与发展,2002,39(10):1233-1237. 被引量：17

二级参考文献4

1Yang Y，http://citeseernjneccom/yang97comparativehtml，1997年
2刘芳,卢正鼎.有效地检索HTML文档[J].小型微型计算机系统,2000,21(9):986-988. 被引量：23
3战学刚,林鸿飞,姚天顺.Infolite中文检索系统[J].小型微型计算机系统,2000,21(9):989-992. 被引量：9
4李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78

共引文献210

1陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
2张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
3赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
4于波,于慧娜,孙立镌.基于概念格的网站信息资源的知识抽取[J].科技资讯,2007,5(2). 被引量：1
5徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
6姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1
7单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
8李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
9陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
10施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.

同被引文献112

1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
2吴丽辉,王斌,余智华.一种通用Web信息采集系统的设计与实现[J].计算机工程,2005,31(3):123-124. 被引量：11
3谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
4冯长远,普杰信.Web文本特征选择算法的研究[J].计算机应用研究,2005,22(7):36-38. 被引量：8
5寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
6郑永田,全万.数字图书馆信息资源建设研究[J].图书馆学刊,2005,27(4):60-62. 被引量：26
7胡健,陆一鸣,马范援.基于HTML文档结构的向量空间模型的改进[J].情报学报,2005,24(4):433-437. 被引量：10
8罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
9陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
10吴丽花,刘鲁.个性化推荐系统用户建模技术综述[J].情报学报,2006,25(1):55-62. 被引量：104

引证文献14

1陈国松,黄大荣.基于信息熵的TFIDF文本分类特征选择算法研究[J].湖北民族学院学报（自然科学版）,2008,26(4):401-404. 被引量：5
2倪洁琼,吴耿锋,郑宇.基于关系权重的文本表示法[J].计算机应用与软件,2009,26(5):68-69.
3施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：217
4陈笑筑,王东,陈笑蓉.基于页面标签的网页分类研究[J].商场现代化,2009(19):100-101. 被引量：2
5蔡银珊,黄英铭.基于改进的TF-IDF特征权重算法的网页自动分类[J].绵阳师范学院学报,2010,29(8):106-109. 被引量：2
6文永革,胡国芳,彭声泽.基于Lucene的图书全文检索应用研究[J].绵阳师范学院学报,2010,29(11):88-92. 被引量：1
7李京,姜卫,张跟鹏,宋世延.基于电子商务的个性化推荐系统研究[J].计算机与数字工程,2011,39(7):93-97. 被引量：4
8魏晶晶,杨定达,廖祥文.基于网页内容相似度改进算法的主题网络爬虫[J].计算机与现代化,2011(9):1-4. 被引量：6
9邱云飞,王威,刘大有,邵良杉.一种词频与方差相结合的特征加权方法[J].计算机应用研究,2012,29(6):2132-2134. 被引量：3
10丁发梅.一种改进Best-First算法的主题爬虫搜索算法[J].信息通信,2015,28(4):64-66.

二级引证文献247

1王琳,姜立新,杨天青,张维佳.地震应急信息自动分类方法研究[J].震灾防御技术,2019,14(4):907-916. 被引量：7
2席志武,范龙燕,于瑞.县级融媒体中心招聘需求对新闻教育改革的启示——基于2022年240则县级融媒体中心招聘信息文本的词频考察[J].中国新闻传播研究,2023(2):17-30.
3田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
4吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：1
5王胜源,谭棋,何江林.物流服务质量对生鲜电商顾客购买意愿的影响研究——基于京东生鲜商品在线评论的用户情感分析[J].辽宁工程技术大学学报（社会科学版）,2023(3):174-181. 被引量：2
6陈小妹,赵华,武浩.基于证据理论的多特征融合Web API推荐[J].计算机应用研究,2020,37(S01):221-223. 被引量：2
7彭佳丽,闫凯丽,宗思雨,谢俐萨.数据驱动下面向产品设计的需求识别研究[J].科技经济导刊,2019(35):3-4. 被引量：1
8杨海晨,康益豪.基于网络议程设置理论的体育争议性事件研究——以“飞盘争议”为例[J].北京体育大学学报,2023,46(3):73-87. 被引量：1
9任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
10司红娜,姚力文,李向军.基于同义替换和相邻词合并的关键词特征权重计算新方法[J].计算机与现代化,2010(4):115-117. 被引量：1

1王术,付关友,朱征宇.面向个性化服务的网页特征描述[J].计算机工程与设计,2005,26(3):651-653. 被引量：3
2赵小华,马建芬.文本分类算法中词语权重计算方法的改进[J].电脑知识与技术,2009,0(12X):10626-10628. 被引量：8
3唐亮,段建国,许洪波,梁玲.基于信息论的文本分类模型[J].计算机工程与设计,2008,29(24):6312-6315. 被引量：1
4徐小茹.巧用Photoshop快速处理人像[J].中小企业管理与科技,2010(25):284-284.
5鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
6张青,熊前兴.文本分类中词语权重计算的改进[J].电脑知识与技术,2011,7(1):204-206. 被引量：2
7寇世忠.用于强调和修饰功能的英语what结构[J].郑州铁路职业技术学院学报,2005,17(2):64-66.
8李庆诚,左珊珊,董振华,张金.中文RSS信息自动检索与分类研究[J].计算机工程,2011,37(6):79-81. 被引量：6
9郭炜强,戴天,文贵华.基于领域知识的专利自动分类[J].计算机工程,2005,31(23):52-54. 被引量：17
10WPS2000变靓你的字[J].计算机与网络,2001,0(Z1):40-40.

计算机工程与应用

2007年第19期

浏览历史

内容加载中请稍等...

Web文档中词语权重计算方法的改进被引量：14

参考文献3

二级参考文献4

共引文献210

同被引文献112

引证文献14

二级引证文献247

相关作者

相关机构

相关主题

浏览历史

Web文档中词语权重计算方法的改进 被引量：14

参考文献3

二级参考文献4

共引文献210

同被引文献112

引证文献14

二级引证文献247

相关作者

相关机构

相关主题

浏览历史

Web文档中词语权重计算方法的改进被引量：14