基于互信息的粗糙集信息检索模型被引量：2

Rough sets information retrieval model based on mutual information

下载PDF

导出

摘要在信息检索过程中,由于文档中存在大量的多义和近义现象,导致不确定性出现,这将影响检索的性能.为此采用基于互信息的粗糙集理论来处理这类不确定性问题.首先计算训练文档集中的词之间的互信息,对互信息做模糊聚类来构造词之间的等价关系,然后借助于该等价关系提出并实现了一个以粗糙集上下近似为基础的信息检索模型,通过实验的测试,该模型能够提高信息检索的效率. In the processing of information retrieval, the existence of polysemy and synonymy would lead to uncertainty, which reduces the effectiveness of information retrieval. A model based on mutual information is proposed, in which the uncertainty is captured by rough sets. At first, the mutual information between the words of the training corpus is counted, and then the mutual information is employed to build an equivalent relation through fuzzy clustering. An information retrieval model based on upper and lower approximations of rough sets is proposed and implemented in the light of equivalent relation. Experiments show that the model can get improvement of information retrieval.

作者付雪峰刘邱云王明文

机构地区南昌工程学院计算机科学与技术系江西师范大学数学与信息科学学院江西师范大学计算机信息工程学院

出处《山东大学学报（理学版）》 CAS CSCD 北大核心 2006年第3期17-19,138,共4页 Journal of Shandong University(Natural Science)

关键词互信息模糊聚类粗糙集信息检索 mutual information fuzzy clustering Rough sets information retrieval

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1左家莉,王明文,王希.基于Markov网络的信息检索扩展模型[J].清华大学学报（自然科学版）,2005,45(S1):1847-1852. 被引量：9
2Wang M W, Nie J Y. A dempster-shafer model for query expansion[J]. Journal of Jiangxi Normal University(Nature Science), 2004, 29(3) :210 - 216.
3曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
4刘清.Rough集及Rough推理[M].北京:科学出版社,2003..
5Pawlak Z. Rough sets theoretical aspects of reasoning about data[M]. Dordrecht: Kluwer Academic Publishers, 1991.
6单松巍,冯是聪,李晓明.几种典型特征选取方法在中文网页分类上的效果比较[J].计算机工程与应用,2003,39(22):146-148. 被引量：76
7史忠值.知识发现[M].北京：清华大学出版社,2002.21-56.
8Richard O Duda，Peter E Hart，David G Stork．模式分类(第2版)[M]．李宏东，姚天翔译．北京：机械工业出版社，中信出版社，2003．
9付雪峰,王明文.基于模糊-粗糙集的文本分类方法[J].华南理工大学学报（自然科学版）,2004,32(z1):73-76. 被引量：8
10Srinivasan P. The importance of rough approximations for information retrieval [J]. International Jouranl Man-Manchine Studies, 1991, 22(34) :657 - 671.

二级参考文献21

1曾黄麟.粗集理论及其应用－－关于数据推理的新方法[M].重庆:重庆大学出版社,1998..
2冯是聪单松巍张志刚等.一个中文网页数据集及其分类体系[A]..海峡两岸技术交流会[C].南京,2002-10.121-129.
3[1]Dubois D,Prade H. Putting rough sets and fuzzy sets together [A]. Intelligent Decision Support: Handbook of Applications and Advanced of the Rough Set Theory [C].Boston: Slowinski R ED, Kluwer Academic Publishers, 1992. 203 - 222.
4[2]Yao Y Y. A comparative study of fuzzy sets and rough sets [J]. Information Sciences, 1998,109 (1-4): 227 -242.
5[4]Keller J M, Gray M R, Givens J A. A fuzzy k-nearest neighbor algorithm [J]. IEEE Transactions on System Man and Cybernetics, 1985,15 (4) :580 - 585.
6[5]Yang Y,Pederen J P. A comparative study on feature selection in text categorization [A]. Proceeding of the Fourteenth International Conference on Machine Learning (ICML97) [C]. Nashville Tennessee USA :Morgan Kaufmann, 1997.412 - 420.
7[7]Denoeux T. A k-nearest neighbor classification rule based on Dempster-Shafer theory [J]. IEEE Transactions on System Man and Cybernetics, 1995,25(5):804 -813.
8[8]Francois J, Grandvalet Y, Denoeux T, et al. Resample and combine:An approach to improving uncertainty representation in evidential pattern classification [J]. Information Fusion,2003 (4) :75 -85.
9[1]Sebastiani F. Machine learning in automated text categorization [J]. ACM Computing Survey, 2002,34 (1):1 -47.
10[2]Deerwester S,Dumais S T,Furnas G W,et al. Indexing by latent semantic analysis [J]. Journal of the American Society of Information Science, 1990,41 (6) :391 - 407.

共引文献171

1张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
2罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型[J].清华大学学报（自然科学版）,2005,45(S1):1853-1856. 被引量：4
3廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
4叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
5高博,朱东华,韩士雄.一种智能化的信息采集系统的研究与实现[J].兵工学报,2009,30(S1):130-134. 被引量：3
6陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
7陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
8孙士保,秦克云,王育辉.基于区分矩阵和区分函数进行属性约简的数据分类[J].河南科技大学学报（自然科学版）,2005,26(4):37-40. 被引量：3
9肖秦琨.基于贝叶斯网络的海上目标识别[J].微机发展,2005,15(10):152-154. 被引量：8
10江祥奎,原思聪.中文网页分类中的网页特征提取方法[J].电脑开发与应用,2005,18(10):27-28. 被引量：1

同被引文献19

1刘邱云,吴根秀,付雪峰.基于可传递信度模型的k-NN分类规则[J].江西师范大学学报（自然科学版）,2004,28(3):221-223. 被引量：2
2王珏,刘三阳,张杰.基于广义粗糙近似的信息检索方法研究[J].系统工程与电子技术,2004,26(12):1887-1891. 被引量：2
3谭德坤,赵珑,吴润秀,孙辉.基于UDDI Registry的智能检索引擎的研究[J].计算机工程与设计,2007,28(4):858-861. 被引量：2
4王灿辉,张敏,马少平.自然语言处理在信息检索中的应用综述[J].中文信息学报,2007,21(2):35-45. 被引量：48
5Y Y Yao. Combination of rough and fuzzy set based on a - level sets[ J]. Fuzzy sets and System, 2002, (126) :137 -158.
6G Salton. Developments in automatic text retrieval [ J ]. Science august, 1991(253): 1421- 1426.
7R Intan and M Mukaidono. Generalized fuzzy rough sets by condi- tional probability relations [ J ]. International Journal of Pattern Recognition and Artificial Intelligence, 2002,16 (7) :865 -881.
8Smets P. The transferable belief model and other interpretations of Dempster-Shafer's model[ C ]. Cambridge:Elsevier Science, 1990.
9Francois J, Grandvalet Y, Denceux T, et al. Resample and combine:an approach to improving uncertainty representation in evidential pattern classification [ J ]. Information Fusion, 2003, (4) : 75-85.
10Pawlak Z. Rough sets [ J ]. Intemational Journal of Computer and Information Science, 1982,11 : 341-356.

引证文献2

1刘邱云,付雪峰,吴根秀.可传递信度模型上的Rough算子及其应用[J].江西师范大学学报（自然科学版）,2008,32(2):246-248. 被引量：2
2谭德坤.模糊粗糙集在科技文档检索中的应用研究[J].计算机仿真,2011,28(10):168-172. 被引量：3

二级引证文献5

1刘邱云,付雪峰,吴根秀.基于TBM的自适应模糊k-NN分类器[J].计算机工程,2009,35(16):183-185. 被引量：1
2刘有珠,付雪峰,刘邱云.信息熵在粗糙集信息检索模型中的应用[J].模糊系统与数学,2010,24(3):149-153. 被引量：2
3刘莹莹,吕跃进.基于相似度的集值信息系统属性约简算法[J].南京大学学报（自然科学版）,2015,51(2):384-389. 被引量：6
4丁笑舒.相似度计算中的权重确定方法文献综述[J].计算机光盘软件与应用,2015,18(2):106-106. 被引量：3
5曹玥,贾砚池,王峥.基于语义的科技文献检索技术研究[J].微型电脑应用,2019,35(12):16-18. 被引量：1

1刘有珠,付雪峰,刘邱云.信息熵在粗糙集信息检索模型中的应用[J].模糊系统与数学,2010,24(3):149-153. 被引量：2
2台德艺,谢飞,胡学钢.新的基于簇划分文本分类方法[J].计算机工程与设计,2009,30(6):1461-1463. 被引量：2
3周咏梅,陈旭日.基于支持向量机的文本分类研究[J].中国包装工业,2002(5):119-120. 被引量：1
4张冰波.改进类中心分类算法在文本分类中的应用[J].大众科技,2010,12(10):43-45.
5张昕.「おいしい」的新用法——与「うまい」比较[J].科技视界,2014(4):204-204.
6李斌.人机对话的信息系统:信息的检索和存取[J].管理观察,1997,0(11):49-49.
7汪小珍,李龙澍.基于模糊集的信息检索方法[J].计算机技术与发展,2010,20(2):37-39. 被引量：3
8吴进.基于FPGA的信息检索技术实现研究[J].微计算机信息,2008,24(14):190-191.
9赵正文,康耀红.统计语言模型在信息检索中的应用[J].计算机工程与应用,2006,42(36):158-161. 被引量：1
10刘俊熙.搜索引擎的搜索、索引和检索技术的关联分析[J].图书馆学研究,2005(9):84-86. 被引量：2

山东大学学报（理学版）

2006年第3期

浏览历史

内容加载中请稍等...

基于互信息的粗糙集信息检索模型被引量：2

参考文献11

二级参考文献21

共引文献171

同被引文献19

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于互信息的粗糙集信息检索模型 被引量：2

参考文献11

二级参考文献21

共引文献171

同被引文献19

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于互信息的粗糙集信息检索模型被引量：2