文本分类中基于对数似然比测试的特征词选择方法被引量：18

下载PDF

导出

摘要本文将对数似然比测试用于文本分类中的特征词选择。与传统的频度、集中度和分散度等多种统计指标的测试独立进行的方法相比较，这种方法利用协方差矩阵协调了各个统计指标之间的联系，从而将它们有机地统一为一个整体。实验显示，这种特征词选择方法优于传统的频度测试、集中度测试和分散度测试独立进行的特征词选择的方法。

作者李国臣

机构地区山西大学计算机科学系

出处《中文信息学报》 CSCD 北大核心 1999年第4期16-21,共6页 Journal of Chinese Information Processing

关键词文本分类特征词选择对数似然比测试电子文本

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1杨允信.中文文件自动分类之研究.台湾第六届计算语言学研讨会论文集[M].-,1993..
2丁均彦.文本分类系统的研究与实现[硕士学位论文].北京:清华大学,1998..
3吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
4丁均彦，硕士学位论文，1998年
5Young S，The HTK Book，1997年
6Yang Y，Proc 18th SIGIR Conf，1995年
7杨允信，台湾第六届计算语言学研讨会论文集，1993年
8蔡元龙，模式识别，1986年

二级参考文献6

1吴军，第三届全国人机语音通信学术会议，1994年
2刘开瑛，第二届全国计算语言学联合学术会议论文集，1993年
3王永成，第二届全国计算语言学联合学术会议论文集，1993年
4苑春法，第二届全国计算语言学联合学术会议论文集，1993年
5施水才，1993年
6郭进，第一届全国计算语言学联系学术会议，1991年

共引文献23

1成奋华,吴家强.数字图书馆中基于向量空间模型的文档分类系统[J].情报杂志,2004,23(7):9-11.
2丁尚友.中小学图书馆(室)的业务管理[J].齐齐哈尔大学学报（哲学社会科学版）,2005(3):138-138.
3刘里,何中市.基于关键词语的文本特征选择及权重计算方案[J].计算机工程与设计,2006,27(6):934-936. 被引量：12
4刘伟权,钟义信.自然语言处理与全文情报检索[J].情报理论与实践,1997,20(1):43-46. 被引量：15
5黄萱菁,吴立德.基于向量空间模型的文档分类系统[J].模式识别与人工智能,1998,11(2):147-153. 被引量：24
6曹素青,曾伏虎,曹焕光.一个中文文本自动分类数学模型[J].情报学报,1999,18(1):27-32. 被引量：18
7李梅,廖开际.一种面向业务流程的企业知识分类方法[J].计算机应用与软件,2011,28(6):73-76.
8陈勤,张国煊,王小华.文本自动模糊分类方法的研究[J].杭州电子科技大学学报（自然科学版）,1999,24(4):18-23.
9郭淼霞.中文网页分类研究综述[J].赤峰学院学报（自然科学版）,2011,27(12):51-53.
10司莉,俞君立,贺定安.我国文献分类计算机化的发展与近期目标研究(上)——20年来的成就与存在问题[J].图书情报知识,2000,17(2):12-16. 被引量：8

同被引文献131

1陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-253. 被引量：7143
2李文兰,杨祖国.中国情报学期刊论文关键词词频分析[J].情报科学,2005,23(1):68-70. 被引量：214
3卫乃兴.基于语料库和语料库驱动的词语搭配研究[J].当代语言学,2002,4(2):101-114. 被引量：240
4张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
5陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005,23(2):149-154. 被引量：820
6黄永文,何中市.基于互信息的统计语言模型平滑技术[J].中文信息学报,2005,19(4):46-51. 被引量：8
7吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
8王曰芬,宋爽,苗露.共现分析在知识服务中的应用研究[J].现代图书情报技术,2006(4):29-34. 被引量：59
9林杉,李仲昆,黄惠珍,于得智,黄锐.双黄连注射剂与妥布霉素等四种抗生素配伍的稳定性考察及其临床疗效观察[J].综合临床医学,1996,12(6):326-327. 被引量：8
10赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检测研究[J].哈尔滨工业大学学报,2006,38(10):1740-1743. 被引量：20

引证文献18

1肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
2寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
3姚民声.从“三个创新”到“三力”建设的运作机理[J].新闻实践,2006(7):8-9.
4玛依来.哈帕尔,古丽拉.阿东别克.哈萨克语文本分类系统的设计与实现[J].计算机工程,2011,37(5):196-198. 被引量：3
5孙健,王伟,钟义信.基于K-最近距离的自动文本分类的研究[J].北京邮电大学学报,2001,24(1):42-46. 被引量：13
6孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36
7刘少辉,董明楷,张海俊,李蓉,史忠植.一种基于向量空间模型的多层次文本分类方法[J].中文信息学报,2002,16(3):8-14. 被引量：75
8张永军,刘金岭,马甲林.中文短信文本信息流中多话题的分类抽取[J].现代图书情报技术,2014(7):101-106. 被引量：2
9苏福,柯平.国际图书情报学热点与前沿动态研究(2014—2015年)——27种SSCI核心期刊的全样本分析[J].大学图书馆学报,2017,35(1):11-19. 被引量：19
10荣光,谢晴宇,孟庆刚.双黄连注射剂文献关键词图谱分析[J].中华中医药学刊,2017,35(1):95-99. 被引量：2

二级引证文献195

1陈南南.土地退化的生态安全文献计量研究[J].西部大开发（土地开发工程研究）,2020,0(3):6-16.
2杨婷,郑雅玲,余帆,李应昆.基于CiteSpace对便秘研究的文献计量学及可视化分析[J].世界最新医学信息文摘,2019,19(76):51-54. 被引量：2
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4高伟锋,刘连芳.基于分词和基于N-Gram的网页分类系统比较研究[J].广西科学院学报,2005,21(S1):58-60. 被引量：1
5吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：23
6刘海峰,王元元,王倩.基于位置和类别结合模式的一种文本自动分类模型[J].图书情报工作,2006,50(S2):90-92.
7施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
8李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
9胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化,2004(10):1-5.
10张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1

1于瑞萍,张明.中文文本自动分类中特征词选择算法研究[J].硅谷,2009,2(20). 被引量：1
2魏芳芳,段青玲,肖晓琰,张磊.基于支持向量机的中文农业文本分类技术研究[J].农业机械学报,2015,46(S1):174-179. 被引量：28
3梁昌勇,王倩倩,陆文星,丁勇.结合商品标题和描述的在线评论特征词选择方法研究[J].现代图书情报技术,2011(5):49-54. 被引量：4
4李慧,李存华,王霞.基于特征选择的网页排名算法[J].计算机工程,2010,36(13):37-39. 被引量：5
5王飞,何学文.二元正态分离的特征词提取算法的研究与改进[J].黑龙江科技信息,2012(10):107-107.
6路永和,陈泳珊.基于二进制烟花算法的特征选择方法[J].情报学报,2017,36(3):249-259. 被引量：5
7冶忠林,杨燕,贾真,尹红风.基于语义扩展的短问题分类[J].计算机应用,2015,35(3):792-796. 被引量：16
8黄贤英,陈红阳,刘英涛,熊李媛.一种新的微博短文本特征词选择算法[J].计算机工程与科学,2015,37(9):1761-1767. 被引量：17
9焦强.多传感器跟踪起始融合技术[J].电光系统,1998(3):36-44.
10蒋小标,汤光明,徐蕾.基于模糊理论的图像分割方法[J].计算机工程与设计,2007,28(16):3940-3942. 被引量：4

中文信息学报

1999年第4期

浏览历史

内容加载中请稍等...

文本分类中基于对数似然比测试的特征词选择方法被引量：18

参考文献8

二级参考文献6

共引文献23

同被引文献131

引证文献18

二级引证文献195

相关作者

相关机构

相关主题

浏览历史

文本分类中基于对数似然比测试的特征词选择方法 被引量：18

参考文献8

二级参考文献6

共引文献23

同被引文献131

引证文献18

二级引证文献195

相关作者

相关机构

相关主题

浏览历史

文本分类中基于对数似然比测试的特征词选择方法被引量：18