基于Bigram的特征词抽取及自动分类方法研究被引量：5

Dictionary-Free Chinese Words Acquisition Method Based on Bigram

下载PDF

导出

摘要用计算机信息处理技术实现文本自动分类是计算机自然语言理解学科共同关注的课题。该文提出了一种基于Bigram的无词典的中文文本特征词的抽取方法,并利用互信息概念对得到的特征词进行处理,提高了特征词抽取的准确性。此外,通过采用基于统计学习原理和结构风险最小原则的支持向量机算法对一些文本进行了分类,验证了由所提出的算法得到的特征词的有效性和可行性。 Automatic text category is a common topic in computational linguistcs.ln this paper,based on Bigram,we propose a dictionary-free Chinese words acquisition method.Moreover.we increase the accuracy of the lexical acquisition through the mutual-information theory.ln addition,we validate the words effection through SVM algorithm to classify the texts.

作者王笑旻

机构地区北京工业大学网络中心

出处《计算机工程与应用》 CSCD 北大核心 2005年第22期177-179,210,共4页 Computer Engineering and Applications

关键词自动文本分类自动分词互信息 Bigram automatic text category,automatic word acquisition,mutual information,Bigram

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1卢增祥,李衍达.交互支持向量机学习算法及其应用[J].清华大学学报（自然科学版）,1999,39(7):93-97. 被引量：40
2张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42. 被引量：2260
3.中国土地忧思录:征地让农民如此心痛谁来监管[EB/OL].http:∥finance.sina.com.cn,2003年09月09日.
4Thorsten Joachims.Text Categorization with Support Vector Machine:Learning with many Relevant Features[ R ].Research Reports of AI,University of Dortmund, 1997.
5Yu Jiangsheng. Vector Space Model. Institute of Computational Linguisitics, Peking University, 2002.
6Ji He,Ah_Hwee Tan,Chew-Lim Tan. Machine Learning Methods for Chinese Web Page Categorization.
7G J Bex. Markov language models.http:∥alpha.luc.ac.be/～gjb/MITCL/languageModels.pdf.

二级参考文献3

1Hu Yuhen，IEEE Signal Processing Magazine，1997年，11卷，39页
2边肇祺，模式识别，1988年
3卢增祥,李衍达.交互支持向量机学习算法及其应用[J].清华大学学报（自然科学版）,1999,39(7):93-97. 被引量：40

共引文献2287

1温学兵,谢维,姚佳宜.基于随机森林和支持向量机模型的期刊评价[J].沈阳师范大学学报（自然科学版）,2022,40(2):174-179.
2白岗岗,侯精明,史玉品,韩浩,郭凯华,李丙尧,付德宇.基于支持向量机的葫芦河流域径流变化的多因素贡献率分析[J].水土保持研究,2020,27(2):112-117. 被引量：2
3曾赟.第四种法学知识新形态——数据法学的研究定位[J].法制与社会发展,2023,29(1):41-59. 被引量：9
4乔丹,刘刚,杨执钧,钟韬,白雪.基于迁移学习的船舶目标识别[J].计算机应用研究,2020,37(S01):324-325. 被引量：1
5孟琮棠,赵银娣,向阳.基于卷积神经网络的遥感图像变化检测[J].现代测绘,2019,0(5):1-5. 被引量：3
6田海军,门洪,郎世伟.基于LS-SVM的电厂过热汽温仿真研究[J].微计算机信息,2007,23(10):270-272. 被引量：2
7张磊,夏士雄,牛强.基于SVM二叉决策树方法的矿井提升机故障诊断[J].微计算机信息,2008,24(10):198-199. 被引量：4
8瞿伟廉,谭冬梅.基于小波分析和支持向量机的结构损伤识别[J].武汉理工大学学报,2008,30(2):80-82. 被引量：3
9郑树剑,刘冀伟,何积铨,韩旭.基于支持向量机的混凝土结构中钢筋腐蚀的判别[J].电子器件,2007,30(5):1935-1938.
10殷彬,方思行.脾虚证诊断的数学模型[J].暨南大学学报（自然科学与医学版）,2006,27(3):363-367. 被引量：4

同被引文献42

1李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
4王琳,刘进忙,王永鑫,李岱峰.基于特征向量的中文文档比较方法[J].情报杂志,2005,24(11):46-47. 被引量：3
5董小国,甘立国.基于句子重要度的特征项权重计算方法[J].计算机与数字工程,2006,34(8):35-37. 被引量：2
6邓擘,樊孝忠.使用特征词的统计分布信息进行文本分类[J].计算机工程与应用,2006,42(32):147-149. 被引量：1
7孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
8邹智敏,郭荷清,高英.一种对英文字符串进行分词的方法[J].计算机应用研究,2007,24(7):52-54. 被引量：2
9Biber D.Variation across speech and writing[M].[S.l.]:Cambridge University Press, 1988.
10Swales J M.Genre analysis,English in academic and research settings[M].Shanghai:Shanghai Foreign Language Education Press,2001.

引证文献5

1王永鑫,覃正,李岱峰,王琳.基于核心词汇评估的中文特征信息对比技术[J].情报杂志,2007,26(3):27-28. 被引量：1
2黄伟,刘海涛.汉语语体的计量特征在文本聚类中的应用[J].计算机工程与应用,2009,45(29):25-27. 被引量：35
3闫家滕,栾翠菊.微博意图分类在地震事件应急中的应用研究[J].现代计算机（中旬刊）,2018(8):38-41. 被引量：1
4李一,刘纪平,罗安.深度学习的中文地址切分算法[J].测绘科学,2018,43(10):107-111. 被引量：6
5汤建明,寇小强.海量网络文本去重系统的设计与实现[J].计算机应用与软件,2018,35(12):33-37. 被引量：6

二级引证文献49

1陈好修.基于语料库的作家作品词汇风格分析——以茅盾、巴金、老舍为例[J].语料库语言学,2019,6(2):50-63. 被引量：2
2王佳睿,彭程,范敏.面向长文本的两阶段文本匹配模型TP-TM[J].计算机应用,2023,43(S01):33-38.
3夏菁,孙未未.多向度计量语体特征下的对外汉语教材可读性自动评估研究[J].华中学术,2020(2):181-193. 被引量：3
4李岱峰,于长锐,覃正,董添犀.改进的Pearson-Compatibility群决策算法在多属性协同过滤推荐中的应用研究[J].情报学报,2011,30(2):121-130.
5高松,冯志伟.基于依存树库的文本聚类研究[J].中文信息学报,2011,25(3):59-63. 被引量：3
6陈芯莹,李雯雯,王燕.计量特征在语言风格比较及作家判定中的应用——以韩寒《三重门》与郭敬明《梦里花落知多少》为例[J].计算机工程与应用,2012,48(3):137-139. 被引量：29
7陈芯莹,刘海涛.句法复杂网络作为语体分类的知识源研究[J].计算机工程与应用,2013,49(8):32-36. 被引量：6
8刘丙丽,牛雅娴,刘海涛.汉语词类句法功能的语体差异研究[J].语言教学与研究,2013(5):97-104. 被引量：2
9汲传波.外国留学生汉语语体习得研究回顾与前瞻[J].现代语文（下旬．语言研究）,2013(9):82-85. 被引量：1
10陈芯莹,刘海涛.语义、句法网络作为语体分类知识源的对比研究[J].计算机工程与应用,2014,50(2):10-14. 被引量：2

1黄名选.特征词抽取与查询扩展融合的信息检索系统模型[J].情报杂志,2011,30(11):162-165. 被引量：2
2赵敏涯.结合语言模型的自动文本分类的应用研究[J].计算机与现代化,2010(3):141-143.
3阿力木江.艾沙,库尔班.吾布力,吐尔根.依布拉音.维吾尔文Bigram文本特征提取[J].计算机工程与应用,2015,51(3):216-221. 被引量：3
4孙瑞漪.一种基于Bigram的计算机对联系统的研究和设计[J].大众科技,2009,11(4):50-51.
5冯平,黄名选.特征词抽取和相关性融合的伪相关反馈查询扩展[J].现代图书情报技术,2011(1):52-56. 被引量：6
6黄名选.负关联规则挖掘与特征词抽取融合的局部反馈查询扩展[J].计算机工程与科学,2011,33(11):144-148. 被引量：2
7胡熠,陆汝占,李学宁,段建勇,陈玉泉.基于语言建模的文本情感分类研究[J].计算机研究与发展,2007,44(9):1469-1475. 被引量：23
8朱波,侯敏.基于边界特征的情感新词提取方法[J].重庆邮电大学学报（自然科学版）,2014,26(6):796-802.
9吴悦,燕鹏举,翟鲁峰.基于二元背景模型的新词发现[J].清华大学学报（自然科学版）,2011,51(9):1317-1320. 被引量：10
10王嘉旸,杨丽萍,闫天伟.基于向量空间模型的文本相似度计算方法[J].科技广场,2017(2):9-13. 被引量：6

计算机工程与应用

2005年第22期

浏览历史

内容加载中请稍等...

基于Bigram的特征词抽取及自动分类方法研究被引量：5

参考文献7

二级参考文献3

共引文献2287

同被引文献42

引证文献5

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

基于Bigram的特征词抽取及自动分类方法研究 被引量：5

参考文献7

二级参考文献3

共引文献2287

同被引文献42

引证文献5

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

基于Bigram的特征词抽取及自动分类方法研究被引量：5