基于Document Triage的TF-IDF算法的改进被引量：14

Improvement of term frequency-inverse document frequency algorithm based on Document Triage

下载PDF

导出

摘要针对TF-IDF算法在加权时没有考虑特征词本身在文档中重要度的问题,提出利用用户阅读时的阅读行为来改进TF-IDF。将Document Triage引入到TF-IDF中,利用IPM收集用户阅读中行为的相关信息,计算文档评分。由于用户的标注内容往往是文章的重要内容,或者反映了用户的兴趣。因此,赋予用户标注词项更大的权重,将文档评分和用户的标注信息等作为因子引入到TF-IDF中,设计出改进的加权算法DT-TF-IDF。实验结果表明,相对传统TF-IDF算法,DT-TF-IDF的查全率、查准率,以及查准率和查全率的调和均值都有了一定的提高。DT-TF-IDF算法比传统TF-IDF算法更加有效,提高了文本相似度计算的准确性。 The Term Frequency-Inverse Document Frequency（ TF-IDF） algorithm does not consider the importance of index items themselves in the document when computing the weights of index terms. In order to solve the problem, the users＇behaviors when reading were utilized to improve the efficiency of TF-IDF. By introducing Document Triage to TF-IDF, the Interest Profile Manager（ IPM） was used to collect data about users＇ reading behaviors, and then the document scores were computed. Since the users＇ annotation was quite important in the aimed text, or reflected the users＇ interest. The improved term weighting algorithm named Document Triage-Term Frequency-Inverse Document Frequency（ DT-TF-IDF） was proposed by introducing document scores and users ＇ annotation to TF-IDF and giving a greater weight to annotated term. The experimental results show that the recall, the precision and their harmonic mean of DT-TF-IDF are all higher than those of the traditional TF-IDF algorithm. The proposed DT-TF-IDF algorithm is more effective than TF-IDF and has improved the accuracy of the text similarity calculation.

作者李镇君周竹荣

机构地区西南大学计算机与信息科学学院

出处《计算机应用》 CSCD 北大核心 2015年第12期3506-3510,3514,共6页 journal of Computer Applications

关键词 TF-IDF DOCUMENT TRIAGE 标引加权 Term Frequency-Inverse Document Frequency（TF-IDF） Document Triage annotation weighting

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1韩如冰,叶得学.基于VSM的权重改进文档相似度算法研究[J].软件,2012,33(10):103-105. 被引量：9
2SALTON G. The SMART retrieval system: experiments in automatic document processing [ M]. Upper Saddle River: Prentice Hall, 1971:45-62.
3台德艺,王俊.文本分类特征权重改进算法[J].计算机工程,2010,36(9):197-199. 被引量：26
4苏力华,朱章华,白文华,.基于向量空间模型的文本分类特征权重算法研究[J].电脑知识与技术（过刊）,2010,0(33):9327-9329. 被引量：4
5BADI R, BAE S, MOORE J M, et al. Recognizing user interest and document value from reading and organizing activities in document triage [ C]//Proceedings of the 11 th International Conference on In- telligent User Interfaces. New York: ACM, 2006:218-225.
6SHIPMAN F, PRICE M, MARSHALL C C. Identifying useful pas- sages in documents based on annotation patterns [ C]//Proccedings of the 7th European Conference on Research and Advanced Technol- ogy for Digital Libraries, LNCS 2769. Berlin: Springer, 2013:101 - 112.
7SU X, KHOSHGOFTAAR T M. A survey of collaborative filtering techniques [J]. Advances in Artificial Intelligence, 2009, 2009: Article No. 4.
8ZHOU Z, JAYARATHNA S, PATRA A, et al. IPM-G: enabling collaborative filtering using multi-application interest models [ C]// Proceedings of the 2014 9th International Conference on Semantics, Knowledge and Grids. Piscataway: IEEE, 2014: 141- 144.
9MARSHALL K, WANG S. Annotation persistence over dynamic documents [ D]. Boston: Massachusetts Institute of Technolo, 2009:19-43.
10OVSIANNIKOV I A, ARBIB M A, MCHE1LL T H. Annotation technology [ J]. International Journal of Human-Computer Studies, 2010, 24(5): 329 -362.

二级参考文献37

1闫宏飞,陈翀.词汇与中心词的距离信息对问句相似度匹配的影响[J].清华大学学报（自然科学版）,2005,45(S1):1873-1877. 被引量：8
2唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
3蒋盛益,李庆华,李新.数据流挖掘算法研究综述[J].计算机工程与设计,2005,26(5):1130-1132. 被引量：21
4郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
5Rocchio J.The SMART Retrieval System:Experiments in Automatic Document Processing[M].Englewood Cliffs,USA:Prentice-Hall,1971.
6Salton G,Buckley C.Term Weighting Approaches in Automatic Text Retrieval[J].Information Processing and Management,1988,24(5):513-523.
7Salton G.Developments in Automatic Text Retrieval[J].Science,1991,253(5023):974-979.
8Sebastiani F.Machine Learning in Automated Text Categoriza-tion[J].ACM Computing Surveys,2002,34(1):1-47.
9Shankar S,Karypis G.A Feature Weight Adjustment Algorithm for Document Categorization[C]//Proc.of KDD'00.New York,USA:ACM Press,2000.
10Forman G.BNS Feature Scaling:An Improved Representation over TF-IDF for SVM Text Classification[C]//Proc.of the 12th ACM Conference on Information and Knowledge Management.Napa Valley,CA,USA:ACM Press,2008:26-30.

共引文献81

1唐涛.基于文本挖掘的领域本体学习模型研究[J].图书情报工作,2010,54(S2):348-352. 被引量：3
2杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006,17(9):1837-1847. 被引量：242
3索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
4杜小勇,马文峰,武文娟.学科领域本体的构建与进化——以经济学领域本体为例[J].现代图书情报技术,2007(3):7-12. 被引量：15
5索红光,刘玉树.网站频道关键词选择方法研究[J].情报学报,2007,26(2):249-252. 被引量：1
6程涛,施水才,王霞,吕学强.基于同义词词林的中文文本主题词提取[J].广西师范大学学报（自然科学版）,2007,25(2):145-148. 被引量：11
7谢红薇,王栋.基于Web文本挖掘中的一种中文分词算法研究[J].电脑开发与应用,2007,20(7):6-8. 被引量：2
8李媛媛,马永强.基于潜在语义索引的特征选择与权重改进若干关键问题的研究与实现[J].现代图书情报技术,2007(10):80-84. 被引量：1
9刘里,曾庆田.自动问答系统研究综述[J].山东科技大学学报（自然科学版）,2007,26(4):73-76. 被引量：21
10裘江南,罗志成,王延章.基于词汇链的应急预案主题抽取方法研究[J].情报学报,2008,27(6):891-896. 被引量：5

同被引文献105

1范九江,李桂华.公共图书馆阅读活动价值及效果研究[J].国家图书馆学刊,2019,0(6):42-53. 被引量：9
2韦永壮,袁春风,黄宜华.CCDet:一种高效的大规模中文重复网页检测方法[J].计算机研究与发展,2013,50(S2):140-152. 被引量：4
3费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
4谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74. 被引量：49
5罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
6邹旭楷.一种有效的编辑距离和编辑路径求解技术[J].小型微型计算机系统,1996,17(7):72-76. 被引量：3
7宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：42
8索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
9黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
10周法国,杨炳儒.句子相似度计算新方法及在问答系统中的应用[J].计算机工程与应用,2008,44(1):165-167. 被引量：45

引证文献14

1余振华,杨世勇,舒征宇,李黄强,张伟奇.基于聚类的电网运行监控信息辨识分类方法研究[J].湖北电力,2016,40(4):17-20. 被引量：4
2王亚民,胡悦.基于BTM的微博舆情热点发现[J].情报杂志,2016,35(11):119-124. 被引量：27
3王茹,严明,王柳舒.基于改进的TF-IDF软件测试错误信息分析方法[J].计算机应用,2016,36(A02):259-261. 被引量：1
4王嘉旸,杨丽萍,闫天伟.基于向量空间模型的文本相似度计算方法[J].科技广场,2017(2):9-13. 被引量：6
5雷凯,刘树波,李丹,李永凯.实时路况制约下基于内容的兴趣点推荐[J].计算机工程,2017,43(10):147-152. 被引量：6
6上海电力学院学报2017年总目次[J].上海电力学院学报,2017,33(6):613-613.
7龚静,黄欣阳.基于k最近邻和改进TF-IDF的文本分类框架[J].计算机工程与设计,2018,39(5):1340-1344. 被引量：10
8于重重,曹帅,张青川,尹蔚彬,孙沁瑶,刘畅.濒危语言与汉语平行语料库动态构建技术研究[J].计算机应用与软件,2018,35(9):63-66. 被引量：2
9王燊,施运梅.基于用户行为的文档关键词提取方法[J].北京信息科技大学学报（自然科学版）,2018,33(5):45-49. 被引量：1
10金哲凡,俞定国,林生佑,周忠成.基于音位的网络盗版文本查重方法[J].山东农业大学学报（自然科学版）,2017,48(3):467-471.

二级引证文献97

1徐建民,张丽青,王苗.基于贝叶斯网络的静态话题追踪模型[J].数据分析与知识发现,2020,4(2):200-206. 被引量：2
2李慧.地方本科院校图书馆抖音短视频阅读推广策略探究[J].绥化学院学报,2023,43(9):138-140. 被引量：1
3翟羽佳,马柏玉,陈晓灿.新冠疫苗信息扩散的共振与联动效应——基于抖音与微博的对比研究[J].情报科学,2023,41(12):127-135.
4卓佳怡,于劲松,张力文,王浩然,吴聪,张舒,宋悦.基于TF-IDF算法的公文用户画像全文替换[J].办公自动化,2020(17):61-64. 被引量：1
5姜耀明,李桓.工业建筑设计应在限制中求发展[J].工业建筑,2000,30(4):24-26.
6周啸,李胜辉,高奎亮,刘成龙,王含巢,胡家玮.一种多约束指标改进的动态旅游路线规划算法[J].中北大学学报（自然科学版）,2019,40(1):57-62. 被引量：3
7翟东升,蔡文浩,张杰,李振飞.改进的中文商标语义相似度计算方法研究[J].数据分析与知识发现,2017,1(11):19-28.
8汪一百,陈实,叶剑锋.利用深度学习的文本相似度计算方法[J].湘潭大学自然科学学报,2018,40(2):104-107. 被引量：4
9陈满.城市电力综合管廊监控系统联动流程[J].四川建筑,2018,38(2):240-241. 被引量：4
10王磊,封士永.面向云计算的虚假信息过滤方法仿真[J].计算机仿真,2018,35(6):211-214. 被引量：2

1Jin-Hong Chen,Jun Yang,Yu Yang,Jing-Chen Zheng.Mass Casualty Incident Primary Triage Methods in China[J].Chinese Medical Journal,2015(19):2664-2671. 被引量：4
2张媛,周婷,赵志军.一种改进的计算机取证领域的分流过程模型[J].计算机时代,2010(11):30-32.
3Jaweria Kanwal,Onaiza Maqbool.Bug Prioritization to Facilitate Bug Report Triage[J].Journal of Computer Science & Technology,2012,27(2):397-412. 被引量：3
4范桂明,张桂珠.自动属性加权的K-调和均值聚类算法[J].计算机应用与软件,2016,33(11):234-239. 被引量：1
5沈明明,毛力.融合K-调和均值的混沌粒子群聚类算法[J].计算机工程与应用,2011,47(27):144-146. 被引量：6
6Muneyoshi Numada,Yasunori Hada,Miho Ohara,Kimiro Meguro.Development of IT Triage System （TRACY） to Share Regional Disaster Medical Information[J].Journal of Civil Engineering and Architecture,2012,6(8):985-996.
7刘国丽,甄晓敏.基于模拟退火的K调和均值聚类算法[J].计算机系统应用,2011,20(7):90-93. 被引量：3
8承健.看书是要花钱的[J].个人电脑,2015,21(7):62-62.
9张洁.今天你阅读了么?[J].纺织科学研究,2016,27(7):94-95.
10文摘[J].通讯世界,2011(11):10-13.

计算机应用

2015年第12期

浏览历史

内容加载中请稍等...

基于Document Triage的TF-IDF算法的改进被引量：14

参考文献13

二级参考文献37

共引文献81

同被引文献105

引证文献14

二级引证文献97

相关作者

相关机构

相关主题

浏览历史

基于Document Triage的TF-IDF算法的改进 被引量：14

参考文献13

二级参考文献37

共引文献81

同被引文献105

引证文献14

二级引证文献97

相关作者

相关机构

相关主题

浏览历史

基于Document Triage的TF-IDF算法的改进被引量：14