融合全局和局部特征的文本特征提取方法研究被引量：2

Study on Text Feature Extraction Method with Integration of Whole and Part Features

下载PDF

导出

摘要 [目的 /意义]为了解决主流特征提取方法的提取效率有限的问题,在Fisher判别分析的基础上,借鉴流形学习思想,提出融合全局和局部特征的文本特征提取方法。[方法 /过程]首先定义基于流形的类间离散度(MBCS)以及基于流形的类内离散度(MWCS),然后在Fisher准则基础上通过最大化MBCS与MWCS之比实现特征提取,从而保证类间样本尽可能远离,而类内样本尽可能紧密。[结果 /结论]比较实验结果表明该方法有效。 [Purpose/significance] To solve the problem of limited extraction efficiency of current text feature extraction methods, the paper takes manifold learning for reference on the basis of Fisher Discriminant Analysis （FDA）, and puts forwards a text feature ex- traction method with integration of whole and part features. [Method/process] The paper defines Manifold-based Between-Class Scatter （MBCS） and Manifold-based Within-Class Scatter （MWCS）, carries on feature extraction by maximizing the ratio of MBCS to MWCS, so as to ensure that the samples in different classes are far away from each other, while the samples in the same class are as close as possible. [Result/conclusion] The comparative experiment results indicate that the method is valid.

作者刘忠宝赵文娟

机构地区中北大学计算机与控制工程学院山西大学商务学院信息学院

出处《情报探索》 2016年第1期1-3,共3页 Information Research

基金江苏省数据工程与知识服务重点实验室开放项目"云环境下基于兴趣图谱的个性化学习资源推荐方法研究"(项目编号:DEKS2014KT005) 中国科学技术信息研究所情报工程实验室开放基金"云环境下基于兴趣图谱的个性化科技信息推荐方法研究"(项目编号:ISTIC-IEL201501) 山西省哲学社会科学"十二五"规划2014年度项目"山西省非物质文化遗产数字化保护方法研究"成果

关键词文本特征提取全局特征局部特征 FISHER判别分析流形学习 text feature extraction whole feature part feature Fisher Discriminant Analysis （FDA） manifold learning

分类号 G254.0 [文化科学—图书馆学]

引文网络
相关文献

参考文献10

1郭亚维,刘晓霞.文本分类中信息增益特征选择方法的研究[J].计算机工程与应用,2012,48(27):119-122. 被引量：28
2崔自峰,吉小华.基于线性判别分析的特征选择[J].计算机应用,2009,29(10):2781-2785. 被引量：8
3奉国和,郑伟.文本分类特征降维研究综述[J].图书情报工作,2011,55(9):109-113. 被引量：17
4高茂庭,王正欧.几种文本特征降维方法的比较分析[J].计算机工程与应用,2006,42(30):157-159. 被引量：16
5梁胜杰,张志华,崔立林,钟强晖.基于主成分分析与核独立成分分析的降维方法[J].系统工程与电子技术,2011,33(9):2144-2148. 被引量：50
6范小丽,刘晓霞.文本分类中互信息特征选择方法的研究[J].计算机工程与应用,2010,46(34):123-125. 被引量：30
7刘海峰,王元元,姚泽清,张述祖.文本分类中一种混合型特征降维方法[J].计算机工程,2009,35(2):194-196. 被引量：11
8钱爱兵.一种基于统计的中文网页正文抽取方法[J].情报学报,2009,28(2):187-194. 被引量：3
9孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6
10杨凯峰,张毅坤,李燕.基于文档频率的特征选择方法[J].计算机工程,2010,36(17):33-35. 被引量：27

二级参考文献136

1叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
2刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005(S1):1783-1786. 被引量：11
3曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
4徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
5郑亚非.潜在语义分析与篇章理解[J].浙江工业大学学报（社会科学版）,2006,5(1):70-75. 被引量：1
6顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8
7何明,冯博琴,傅向华.基于Rough集潜在语义索引的Web文档分类[J].计算机工程,2004,30(13):3-5. 被引量：7
8王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术[J].计算机应用研究,2004,21(8):151-154. 被引量：15
9王金凤.一种基于特征聚合理论和LSI的文本分类新方法[J].北京理工大学学报（社会科学版）,2004,6(5):92-94. 被引量：2
10袁时金,李荣陆,周水庚,胡运发.层次化中文文档分类[J].通信学报,2004,25(11):55-63. 被引量：6

共引文献180

1孙泽金,赵荣珍.基于EEMD能量矩与邻域粗糙集的转子故障数据集分类方法[J].计算机应用研究,2020,37(2):460-464. 被引量：5
2岳应娟,袁航,王旭.基于图像降维分解的内燃机故障特征快速提取方法[J].火箭军工程大学学报,2020(1):60-65.
3翟东海,王佳君,聂洪玉,崔静静.基于互信息的热点词发现和突发性话题检测研究[J].西藏大学学报（社会科学版）,2013,28(4):82-87. 被引量：2
4袁铭蔚,蒋平.基于本体的向量空间模型的压缩算法[J].计算机工程与应用,2007,43(24):12-14. 被引量：6
5史旗凯,郭菊娥.基于管理问题信息抽取的主题识别研究[J].情报科学,2008,26(10):1558-1562.
6史旗凯,郭菊娥,马续补,叶金凤.基于SMA信息抽取的事实主题的识别研究[J].情报学报,2009,28(1):82-87. 被引量：1
7刘海峰,赵华,刘守生.一种基于位置的改进中文文本特征选择[J].图书情报工作,2009,53(21):102-105. 被引量：3
8毛嘉莉.文本聚类中的特征降维方法研究[J].西华师范大学学报（自然科学版）,2009,30(4):365-368. 被引量：2
9史旗凯,郭菊娥.基于SMA信息抽取的主题诊断研究[J].管理工程学报,2010,24(1):90-94.
10刘海峰,陈琦,刘守生,苏展.一种基于数据偏斜的改进KNN文本分类[J].微电子学与计算机,2010,27(3):51-53. 被引量：3

同被引文献28

1刘扬,郑逢斌,姜保庆,蔡坤.基于多模态融合和时空上下文语义的跨媒体检索模型的研究[J].计算机应用,2009,29(4):1182-1187. 被引量：7
2胡涛,武港山,任桐炜,吉亮.基于Ontology的跨媒体检索技术[J].计算机工程,2009,35(8):266-268. 被引量：12
3蔡平,王志强,傅向华.基于语义的跨媒体信息检索技术研究[J].微电子学与计算机,2010,27(3):102-105. 被引量：14
4李苗.中美韩三国八大搜索引擎多媒体检索比较分析[J].图书馆学研究,2012(12):44-49. 被引量：1
5刘松柏,姜海峰,李书宁.移动图书馆建设的难点与趋势[J].图书情报工作,2013,57(4):79-83. 被引量：34
6明均仁,何超.基于语义关联挖掘的数字图书馆跨媒体检索方法研究[J].图书情报工作,2013,57(7):101-105. 被引量：14
7李爱明.数字图书馆中基于语义关联挖掘的跨媒体检索研究:模型设计与实验分析[J].情报科学,2014,32(1):85-88. 被引量：13
8陈传夫,钱鸥,代钰珠.大数据时代的数字图书馆建设研究[J].图书情报工作,2014,58(7):40-45. 被引量：147
9黎邦群.微信语音找书研究[J].图书情报知识,2014,31(6):54-61. 被引量：15
10何慧.公共图书馆微信公众号书目检索服务研究[J].图书馆学刊,2014,36(10):83-88. 被引量：3

引证文献2

1徐彤阳,邓颖慧.基于知识融合的微信多媒体检索研究[J].情报科学,2019,37(1):129-133. 被引量：2
2徐彤阳,邓颖慧.微信中基于语义关联的跨媒体检索研究[J].情报科学,2018,36(7):158-162. 被引量：1

二级引证文献3

1于梦月,申静.大数据时代知识融合的支撑理论架构[J].信息资源管理学报,2020,10(3):18-26. 被引量：10
2刘忠宝,赵文娟.融合语义特征和分布特征的跨媒体关联分析方法研究[J].情报学报,2021,40(5):471-478. 被引量：3
3皇甫娟.面向知识服务的智慧图书馆多模态数据资源知识融合模式[J].图书情报导刊,2023,8(4):22-27. 被引量：3

1樊玉媛.依托森林看树木[J].声屏世界,1996(5):40-40.
2詹国华,庄越挺,吴翌.基于全局与局部特征的视频索引模型[J].计算机辅助设计与图形学学报,2000,12(12):911-916. 被引量：7
3韩玲.期刊资源的开发与利用初探[J].大学图书情报学刊,1991,10(2):14-18.
4吴庚振.树立大局意识[J].采写编,1997,0(1):5-8.
5吴庚振.新闻工作者要有大局意识[J].新闻战线,1997,0(3):16-18.
6周进良.图书馆建筑中的辩证法——纪念全国图书馆建筑设计研讨会召开10周年[J].图书馆理论与实践,2000(2):11-13. 被引量：9
7郭刚.在改进司法工作中发挥新闻舆论监督的作用[J].内蒙古宣传,2003(5):5-5.
8宋革.从社会责任看新媒体的主流特征[J].中国广告,2008(10):143-143.
9耿锦虹,张康宁.创新学术交流形式促进学术水平提高[J].学会,2008(11):43-44. 被引量：1
10吴庚振.论新闻工作者的大局意识[J].新闻与传播研究,1997,4(1):59-63.

情报探索

2016年第1期

浏览历史

内容加载中请稍等...

融合全局和局部特征的文本特征提取方法研究被引量：2

参考文献10

二级参考文献136

共引文献180

同被引文献28

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

融合全局和局部特征的文本特征提取方法研究 被引量：2

参考文献10

二级参考文献136

共引文献180

同被引文献28

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

融合全局和局部特征的文本特征提取方法研究被引量：2