基于CRF模型的用户文本检索需求信息划分被引量：1

The division of user text retrieval demand information based on CRF model

导出

摘要为了正确理解检索意图和客观表达用户的主观信息,结合CRF模型较高的语义区分率和歧义消解率等特点,对用户文本检索需求信息进行区分,同时选择关键词的上下文信息作为特征获取更丰富的信息,提出一种基于条件随机场(conditional random field,CRF)模型的文本检索需求信息划分算法(CRF_Q),从而清晰地划分两个连续检索词间的边界.在锚文本相似度和检索词相似度两个属性相组合的实验结果中,决策树模型和CRF_Q算法最优,且CRF_Q算法的综合评价指标较决策树模型高4.4%. In order to correctly understand the retrieval intention and express the user subjective information, combined with the characteristics of higher semantic differential rate and ambiguity resolution rate of CRF model, the user text retrieval requirement information is differentiated, The CRF_Q algorithm is given in this paper. With the keyword context information as a feature, more information obtained at the same time. The boundary between two consecutive retrievals is clearly divided. In the experimental results of combining with anchor text similarity and retrieval similari- ty, the decision tree model and CRF_Q algorithm are optimal. Furthermore, the comprehensive evaluation index of CRF_Q algorithm is 4.4 % higher than that of the decision tree model.

作者王宗尧朱全银刘金岭朱红波

机构地区淮阴工学院管理工程学院淮阴工学院计算机与软件工程学院淮阴工学院数理学院

出处《扬州大学学报（自然科学版）》 CAS 北大核心 2016年第4期47-49,53,共4页 Journal of Yangzhou University：Natural Science Edition

基金国家级星火计划资助项目(2011GA690190) 江苏省高校哲学社会科学研究资助项目(2015SJD702) 淮阴工学院科研基金资助项目(HGC1422)

关键词条件随机场(cRF)模型文本检索需求信息划分 conditional random field （CRF） model text retrieval demand information division

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1江雪,孙乐.用户查询意图切分的研究[J].计算机学报,2013,36(3):664-670. 被引量：11
2张磊,李亚楠,王斌,李鹏,蒋在帆.网页搜索引擎查询日志的Session划分研究[J].中文信息学报,2009,23(2):54-61. 被引量：16
3FENG Fan,DUAN WanSuo.The role of constant optimal forcing in correcting forecast models[J].Science China Earth Sciences,2013,56(3):434-443. 被引量：3

二级参考文献18

1余慧佳,刘奕群,张敏,茹立云,马少平.基于大规模日志分析的搜索引擎用户行为分析[J].中文信息学报,2007,21(1):109-114. 被引量：117
2任宏利,丑纪范.数值模式的预报策略和方法研究进展[J].地球科学进展,2007,22(4):376-385. 被引量：56
3Bin Tan, Fuchun Peng. Unsupervised query segmentation using generative language models and Wikipedia[C]//Proceeding of the 17th international conference on World Wide Web. Beijing, China, 2008:347-356.
4Craig Silverstein, Monika Henzinger, Hannes Marais, et al. Analysis of a very large Web search engine query log[J]. In SIGIR Forum, fall 1998, 33(1):6-12.
5Daqing He, Ays, e Goker. Detecting session boundaries from Web user logs[C]//Proceedings of the 22nd annual colloquium on information, 2000.
6H. Cenk Ozmutlu , Fatih cavdur, Application of automatic topic identification on excite web search engine data logs.[J]Information Processing and Management: an International Journal, 2005, 41(5) : 1243-1262.
7Jing Bai, Jian-Yun Nie, Guihong Cao, Hugues Bouchard. Using query contexts in information retrieval[J]. SIGIR'07, July 23-27, 2007.
8Jinhui Yuan, Huiyi Wang, Lan Xiao, Wujie Zheng, Jianmin Li, Fuzong Lin, and Bo Zhang. A Formal Study of Shot Boundary Detection. [C]//IEEE transactions on circuits and systems for video technology, VOL. 17, NO. 2, pp. 168-186. February 2007.
9Qingsong Yao, Xiangji Huang and Aijun An. Applying Language Modeling to Session Identification from Database Trace Logs[C]//Knowledge and Information Systems, 2006-Springer.
10S Ozmutlu, F Cavdur. Neural network applications for automatic new topic identification[J]. Online Information Review,2005, 29(1):34-53.

共引文献27

1马宏远,王斌.基于日志分析的搜索引擎查询结果缓存研究[J].计算机研究与发展,2012,49(S1):224-228. 被引量：3
2岑荣伟,刘奕群,张敏,茹立云,马少平.网络检索用户行为可靠性分析[J].软件学报,2010,21(5):1055-1066. 被引量：9
3李亚楠,许晟,王斌.基于加权SimRank的中文查询推荐研究[J].中文信息学报,2010,24(3):3-10. 被引量：15
4詹圣君,邵雄凯,刘建舟.一种考虑用户行为的改进N—PageRank算法[J].计算机技术与发展,2011,21(8):137-140. 被引量：3
5邱明,王中宇,郑培斌.圆锥滚子轴承挡边弹流润滑膜厚的一种计算方法[J].洛阳工学院学报,2000,21(1):25-28. 被引量：1
6江雪,孙乐.用户查询意图切分的研究[J].计算机学报,2013,36(3):664-670. 被引量：11
7毛严奇,彭沛夫.基于MapReduce的Web日志挖掘预处理[J].计算机与现代化,2013(9):35-37. 被引量：2
8白如江,杨振瑜,王效岳.基于大规模搜索日志的中文长句查询分析研究[J].情报学报,2013,32(10):1090-1098. 被引量：2
9李波,石慧霞,王毅.一种基于同义词发现的文本扩充算法[J].重庆理工大学学报（自然科学）,2014,28(2):76-81. 被引量：4
10齐富民,谢晓尧,吴静.网络搜索中用户搜索意图识别的研究[J].计算机工程与设计,2014,35(4):1285-1292. 被引量：2

同被引文献3

1樊小超,张重阳,邓雄伟.基于互信息的文本特征加权方法[J].计算机工程与应用,2015,51(13):145-148. 被引量：4
2朱全银,潘禄,刘文儒,李翔,张永军,刘金岭.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24. 被引量：3
3罗小玲,薛河儒.基于模糊关联优化的中文语义深度挖掘仿真[J].计算机仿真,2016,33(1):362-364. 被引量：5

引证文献1

1瞿学新,朱全银,严云洋,李翔.基于互信息和关联规则的文本特征提取方法[J].淮阴工学院学报,2018,27(3):20-24. 被引量：1

二级引证文献1

1游新冬,赵颖,刘佳琦,吕学强.多特征融合的专利功效短语抽取[J].计算机工程与设计,2024,45(5):1413-1419.

1董立凯,曲守宁.Web日志挖掘技术在电子商务网站中的应用[J].山东轻工业学院学报（自然科学版）,2008,22(1):7-9. 被引量：3
2范永胜.基于B/S架构的校园分类查询系统研究[J].绵阳师范学院学报,2011,30(8):76-79.
3顾成喜,赵晓峰.突变数据融合在电力传感器网络中的应用[J].华东电力,2014,42(11):2359-2364.
4倪彤光,王士同,史荧中,张景祥.面向共享数据的迁移组概率学习机[J].控制与决策,2014,29(8):1363-1371.
5刘建东.一种改进的基于位置的推荐算法[J].软件导刊,2016,15(9):39-41. 被引量：1
6李利.解决网络学习中“迷航”现象的策略[J].中国信息技术教育,2013(3):133-133. 被引量：2
7李浩,韩芳溪,王晓琳.基于免疫算法的迁移工作流实例安全工作位置选择[J].计算机系统应用,2011,20(8):95-99.
8李晓,焦波.采用背景特征信息的实时运动目标检测方法[J].中小企业管理与科技,2013(19):283-285.
9朱晶.TCP协议简述与三次握手原理解析[J].电脑知识与技术（过刊）,2009,15(2X):1079-1080. 被引量：15
10邹长江,马洪超,张良,巩翼龙,刘清川.机载LiDAR点云时间纹理信息航带重叠区消冗[J].遥感学报,2014,18(6):1208-1216. 被引量：4

扬州大学学报（自然科学版）

2016年第4期

浏览历史

内容加载中请稍等...

基于CRF模型的用户文本检索需求信息划分被引量：1

参考文献3

二级参考文献18

共引文献27

同被引文献3

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于CRF模型的用户文本检索需求信息划分 被引量：1

参考文献3

二级参考文献18

共引文献27

同被引文献3

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于CRF模型的用户文本检索需求信息划分被引量：1