基于切平面的主题提取算法被引量：1

New cut-plane based algorithm for topic distillation

下载PDF

导出

摘要从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此引入局部密集因子LDF(Local Density Factor)的概念。为了解决Web内容的重叠性,基于切平面的概念提出了一种新的主题提取算法(CPTDA)。CPTDA不但可以发现用户最感兴趣的主题页面集合,还可以发现与查询相关的其他页面集合。在10个查询上的实验结果表明,与HITS算法相比,CPTDA算法不仅可以减少30%-52%的主题漂移率,而且可以发现与查询相关的多个主题。 To interpret the procedure of hypertext induced topic search based on a semantic relation model,the reason about the topic drift of HITS has been found that Web pages are projected to a wrong latent semantic basis.A new concept LDF（Local Density Factor） has been introduced and based on cut-plane a new topic distillation algorithm CPTDA（Cut-Plane based Topic Distillation Algorithm） has been presented to improve the quality of topic distillation.CPTDA has been applied not only to avoid the topic drift,but also to explore relative topics of user query.The experimental results on 10 queries show that CPTDA reduces topic drift rate by 30% to 52% compared to that of HITS,and discovers several relative topics to queries that have multiple meanings.

作者李芳柯熙政

机构地区西安理工大学自动化与信息工程学院

出处《计算机工程与应用》 CSCD 北大核心 2007年第25期172-174,191,共4页 Computer Engineering and Applications

基金国家部委预研演示验证项目。

关键词局部密集因子切平面超链归纳主题搜索主题提取主题漂移 local density factor cut-plane hypertext induced topic search topic distillation topic drift

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1陈宁,陈安,周龙骧,贾维嘉,罗三定.基于模糊概念图的文档聚类及其在Web中的应用[J].软件学报,2002,13(8):1598-1605. 被引量：12

二级参考文献10

1[1]Han, J., Cai, Y., Cercone, N. Knowledge discovery in databases: an attribute-oriented approach. In: Yuan, Le-yan, ed. Proceedings of the 18th International Conference on Very Large Data Bases. Vancouver: Morgan Kaufmann, 1992. 547～559.
2[2]Srikant, R., Agrawal, R. Mining generalized association rules. In: Umeshwar, D., Gray, P.M.D., Shojiro, N., eds. Proceedings of the 21st International Conference on Very Large Data Bases. Zurich: Morgan Kaufmann, 1995. 407～419.
3[3]Han, J., Fu, Y. Discovery of multiple-level association rules from large database. In: Umeshwar, D., Gray, P.M.D., Shojiro, N., eds. Proceedings of the 21st International Conference on Very Large Data Bases. Zurich: Morgan Kaufmann, 1995. 420～431.
4[4]Oren, Z., Oren, E., Omid, M., et al. Fast and intuitive clustering of web document. In: Heckerman, D., Mannila, H., Pregibon, D., eds. Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining (KDD'97). Newport Beach, CA: AAAI Press, 1997. 287～290.
5[5]Cheung, D.W., Kao, B., Lee, J. W. Discovering user access patterns on the world-wide-web. In: Lu Hong-jun, Motoda, H., Liu, Huan, eds. Proceedings of the 1st Pacific-Asia Conference on Knowledge Discovery and Data Mining. Singapore: World Scientific, 1997. 303～316.
6[6]Salton, G., Buckley, C. Term-Weighting approaches in automatic text retrieval. Information Processing and Management, 1988,24(5):513～523.
7[7]Oren, Z. Clustering web documents: a phrase-based method for grouping search engine results [Ph.D. Thesis]. Seattle, WA: University of Washington, 1999.
8[8]Bezedek, J.C. Pattern Recognition with Fuzzy Objective Function Algorithms. New York: Plenum Press, 1981.
9[9]Ruspini, E.H. A new approach to clustering. Information Control, 1969,19(15):22～32.
10[10]Luo, San-ding. Efficient intelligent search system for web information mining (EIS). In: Goscinski, A., Horace, H.S.I, Jia, Wei-jia, et al, eds. Proceedings of the 4th International Conference on Algorithms and Architecture for Parallel Processing (ICA3PP 2000). Hong Kong: World Scientific Publishing, 2000. 716～717.

共引文献11

1李虹,李磊.一种基于扩展概念图的词义识别算法[J].计算机科学,2004,31(7):171-174.
2王凯,渠芳,王辉.利用Web挖掘技术实现个性化推送服务[J].情报杂志,2006,25(11):86-88. 被引量：9
3杨学明.Web中文文本聚类研究及实现[J].现代图书情报技术,2006(12):81-84. 被引量：8
4赵鹏,蔡庆生.一种基于《知网》的中文文本聚类算法的研究[J].计算机工程与应用,2007,43(12):162-163. 被引量：7
5赵鹏,耿焕同,蔡庆生.一种基于语义和统计特征的中文文本特征表示方法[J].小型微型计算机系统,2007,28(7):1311-1313. 被引量：8
6ZHOU Hongfang,DANG Xiaohui.A New Generalized Similarity-Based Topic Distillation Algorithm[J].Wuhan University Journal of Natural Sciences,2007,12(5):789-792.
7刘金岭.基于语义的高质量中文短信文本聚类算法[J].计算机工程,2009,35(10):201-202. 被引量：30
8江开忠,李路,王昭宗.基于语料库的潜语义信息度量[J].计算机应用,2009,29(9):2450-2453.
9刘金岭.基于Isomap的中文短信文本聚类算法[J].计算机工程与应用,2009,45(34):144-146. 被引量：2
10郭晓波,赵书良,刘军丹,赵娇娇,王长宾.基于概念图的关联规则知识表示[J].计算机科学,2013,40(8):261-265. 被引量：6

同被引文献9

1车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：64
2石晶,胡明,戴国忠.基于小世界模型的中文文本主题分析[J].中文信息学报,2007,21(3):69-75. 被引量：9
3罗永莲,秦振吉.新闻网页主题内容提取方法研究[J].微计算机应用,2007,28(5):556-560. 被引量：5
4蒲宇达,关毅,王强.基于数据挖掘思想的网页正文抽取方法的研究[C].见:第三届学生计算暑言学研讨会论文集,沈阳.2006.
5Moore L. Discovery in Web - Documents [ C ]. In : Proceedings of the 1999 ACM SIGMOD, Philadelphia, Pennsylvania, USA. 1999.
6Marlin L. Relational Learning of Pattern - Match Rules for Informa- tion Extraction [ C ]. In : Proceedings of Workshop in Natural Lan- guage Learning. 1997:3 - 84.
7王森,王宇.基于文本结构树的论文复制检测算法[J].现代图书情报技术,2009(10):50-55. 被引量：4
8杨思春,程节华,陈家骏,王启祥.一种基于模式的汉语句子相似度计算方法[J].微型机与应用,2001,20(8):52-53. 被引量：7
9李彬,刘挺,秦兵,李生.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003,20(12):15-17. 被引量：127

引证文献1

1王志超,翁楠,王宇.基于主题句相似度的标题党新闻鉴别技术研究[J].现代图书情报技术,2011(11):48-53. 被引量：6

二级引证文献6

1肖尚,房至一,董洪良,赵帅,王涵瑜.基于改进型VSM-HowNet融合相似度算法研究[J].吉林大学学报（信息科学版）,2018,36(6):674-680. 被引量：5
2朱青,李贞昊.基于主题词分布的低价值新闻识别技术研究[J].计算机应用与软件,2015,32(7):190-195. 被引量：2
3黄子吟.网络时代“标题党”新闻现象研究综述[J].传播与版权,2017(7):24-25.
4张晓春.识别网络新闻标题党[J].文学教育,2018,0(4):162-163. 被引量：1
5杨小峰.基于NLP技术的“标题党”识别方法研究[J].现代信息科技,2020,4(20):124-127. 被引量：1
6杨林,丁继超,朱胜,王帅.融合图片信息的“标题党”新闻识别研究[J].图像与信号处理,2020,9(3):137-145. 被引量：1

1周红芳,冯博琴.基于模糊集的主题提取和层次发现算法[J].计算机工程,2007,33(18):40-41. 被引量：1
2傅向华,马兆丰,何明,冯博琴.一种个性化的主题提取和层次发现算法[J].西安交通大学学报,2005,39(2):119-122. 被引量：5
3李荣雨,陈鑫.一种基于排序的LDF改进遗传算法[J].自动化仪表,2016,37(2):1-4.
4常用SQL日志概念详解[J].计算机与网络,2007(16):30-30.
5苏丹,周明全,王学松,任玉芝.一种基于最少出现文档频的文本特征提取方法[J].计算机工程与应用,2012,48(10):164-166. 被引量：6
6徐辉.SQL Server数据库操作技巧[J].网管员世界,2011(5):53-57.
7易云飞,林晓东,蔡永乐.求解旅行商问题的改进粒子群算法[J].计算机工程与设计,2016,37(8):2195-2199. 被引量：8
8赵加敏,冯爱民,刘学军.局部密度嵌入的结构单类支持向量机[J].山东大学学报（工学版）,2012,42(4):13-18.
9郭红杰,徐春玲,侍洪波.基于局部邻域标准化策略的多工况过程故障检测[J].上海交通大学学报,2015,49(6):868-875. 被引量：3
10王洪涛,任一新,谢军军.浅谈我局CPCI调度系统及故障处理[J].电脑知识与技术,2011,7(9):6124-6126. 被引量：1

计算机工程与应用

2007年第25期

浏览历史

内容加载中请稍等...

基于切平面的主题提取算法被引量：1

参考文献1

二级参考文献10

共引文献11

同被引文献9

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于切平面的主题提取算法 被引量：1

参考文献1

二级参考文献10

共引文献11

同被引文献9

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于切平面的主题提取算法被引量：1