基于LSA的二次降维法在中文法律案情文本分类中的应用被引量：8

Application of quadratic dimension reduction method based on LSA in classification of the chinese legal text

下载PDF

导出

摘要利用文本挖掘来表达文本特征,由于文本表现出巨大的维数,从而导致处理过程计算复杂,因此,首先应该对文本进行降维处理。潜在语义分析理论(latent semantican alysis,LSA)作为一种文本聚类的方法,在有效提取文本信息表现出许多特有的优势,在多个领域中被引用。本文构建了中文法律案情文本分类系统,引入LSA方法进行文本向量空间的二次降维,并利用LSA方法处理后的特征集——文档矩阵代替原有矩阵,从而进一步删除噪声,加快分类系统的处理速度。文中给出了具体实现过程及实验数据,通过实验证明该方法能收到较好的效果。 The text feature matrix has large dimensionality in expressing text feature using data mining, and leads to complex computation. So it is needed to reduce dimensionality before data mining. As text clustering method, latent semantic analysis（LSA）has advantage in text information extraction, and have been widely used in many fields. This paper established a primary automatic classification system for chinese legal text with quadratic dimension reduction method based on LSA. In the system LSA is used in increasing the speed of text classification processing with a feature set-text matrix treated by LSA replacing old one for farther denoising. The process of realization and the experiment data were given in this paper. Experiment results show that it has good effects.

作者熊小梅刘永浪

机构地区江西蓝天学院

出处《电子测量技术》 2007年第10期111-114,共4页 Electronic Measurement Technology

关键词文本分类二次降维法律文本 text classification quadratic dimension reduction legal text

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1WHITE J. Proc of the seventeenth Int'l ACM SIGIR Conf on research and development in information retrieval[C]. New York: ACM Press, 1994:13-22.
2YANG Y. An evaluation of statistical approaches to text categorization[J]. Information Retrieval, 1999, 1 (112) :69-90.
3何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量：54
4MLADENIC D, GROBELNIK M. Feature selection for unbalanced class distribution and Naive Bayes Proe of the 16th Int'l Conf on Machine Learning (ICML'99) [C]. San Francisoo: Morgan Kaufmann Pubfishers,1999:258-26Z
5LEWIS D. An evaluation of phrasal and clustered representations on a text categorization task: In 15th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR92) [C]. 1992 : 37-50.
6陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
7罗三定,陆文彦,王浩,贾维嘉.基于概念的文本类别特征提取与文本模糊匹配[J].计算机工程与应用,2002,38(16):97-99. 被引量：22

二级参考文献6

1Geofrey Z.Liu.语义矢量空间模式（SVSM）及其试验评价——自然语言处理与文献自动标引[J].情报学报,1996,15(6):402-413. 被引量：4
2何新贵，模糊知识处理的理论与技术（第2版），1998年
3Peng Fuyang，Pacific Asian Conf Expert Systems，1995年，98页
4何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量：54
5李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78
6何新贵.加权模糊逻辑及其广泛应用[J].计算机学报,1989,12(6):458-464. 被引量：37

共引文献195

1陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
2赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
3徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
4姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1
5黄晓斌,夏明春,叶楚璇.数字图书馆信息过滤系统初探[J].现代图书情报技术,2004(6):6-10. 被引量：9
6李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
7许增福,梁静国,田晓宇.基于加权模糊推理网络的文本自动分类方法[J].哈尔滨工程大学学报,2004,25(4):504-508. 被引量：1
8罗三定,曾亮.基于概念网的智能信息服务系统的设计与实现[J].南华大学学报（理工版）,2004,18(1):44-48. 被引量：1
9施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
10李国臣,段建勇.基于语法语义信息量化模型的语素字再分类[J].计算机工程,2004,30(11):37-39.

同被引文献89

1孙源,胡志军.基于高频词和AUC优化的随机森林文本分类模型[J].数学的实践与认识,2020,0(1):10-15. 被引量：2
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
3曲春锦.改进的关联规则挖掘算法及其在教育信息挖掘中的应用[J].交通与计算机,2005,23(4):68-71. 被引量：17
4龙昊,冯剑琳,李曲.R-means:以关联规则为簇中心的文本聚类[J].计算机科学,2005,32(9):156-159. 被引量：3
5俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：150
6张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
7何玉,冯剑琳,王元珍.基于最大关联规则的文本分类[J].计算机科学,2006,33(11):143-145. 被引量：6
8LIU Chuan-han,WANG Yong-cheng,ZHENG Fei,LIU De-rong.Using LSA and text segmentation to improve automatic Chinese dialogue text summarization[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2007,8(1):79-87. 被引量：3
9张玉芳,杨柯,熊忠阳.基于关联规则的中文文本分类算法的改进[J].郑州大学学报（理学版）,2007,39(2):114-117. 被引量：6
10吴星玮,饶培伦.文本挖掘中运用自组织特征映射算法分析中国人类工效学研究状况[J].人类工效学,2007,13(1):17-20. 被引量：3

引证文献8

1朱颢东,钟勇.结合优化的文档频和LSA的特征选择方法[J].计算机工程与应用,2009,45(34):121-123.
2郭金龙,许鑫,陆宇杰.人文社会科学研究中文本挖掘技术应用进展[J].图书情报工作,2012,56(8):10-17. 被引量：22
3邵曦,陶凯云.基于音乐内容和歌词的音乐情感分类研究[J].计算机技术与发展,2015,25(8):184-187. 被引量：4
4杨慧,杨建林.融合LDA模型的政策文本量化分析——基于国际气候领域的实证[J].现代情报,2016,36(5):71-81. 被引量：58
5张磊.文本分类及分类算法研究综述[J].电脑知识与技术,2016,12(12):225-226. 被引量：11
6张琳,秦策,叶文豪.基于条件随机场的法言法语实体自动识别模型研究[J].数据分析与知识发现,2017,1(11):46-52. 被引量：10
7赵勇飞,王宇,周义凯,袁燕.基于DBN的多模态音乐情感分类研究[J].信息技术,2019,43(2):102-106. 被引量：8
8桑雪,何静,陈明.基于TF-IDF和LSI模型的网络舆情实时监测建模和应用[J].数学的实践与认识,2022,52(11):56-66. 被引量：1

二级引证文献112

1李树祥,褚淑贞,庄倩.我国药品注册法规体系的演变分析——基于文本挖掘方法[J].中国新药杂志,2020,29(1):1-8. 被引量：3
2赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：28
3刘勘,赵帅,彭虎锋,黄漫宇.营商环境政策的主题演化研究[J].知识管理论坛,2022(3):314-331.
4龙艺璇,伊惠芳.国内外公共政策文本分析中主题模型应用研究进展[J].知识管理论坛,2020(5):305-316. 被引量：2
5黄萃,吕立远.文本分析方法在公共管理与公共政策研究中的应用[J].公共管理评论,2020(4):156-175. 被引量：40
6孙颖,冯晨旭.科学知识图谱对人文社会科学研究情报质量的优化——以基于CiteSpace的完美主义热点研究为例[J].图书情报工作,2013,57(S1):227-231. 被引量：3
7陈济榕.300MW、600MW引进型切向燃烧锅炉温度偏差研究综述[J].锅炉技术,2000,31(3):1-5. 被引量：6
8张诗博.“数字人文”背景下的图书馆知识服务[J].晋图学刊,2013(5):40-42. 被引量：19
9陈坤,韩立新.基于音频与歌词的音乐情感分类研究[J].电子测量技术,2018,41(22):15-20. 被引量：5
10徐德金,张伦.文本挖掘用于社会科学研究:现状、问题与展望[J].科学与社会,2015,5(3):75-89. 被引量：13

1李文,王炜立.中文文本理解技术在法律案情文本分类中的应用[J].南昌大学学报（工科版）,2007,29(1):99-102.
2李文,王炜立,洪胜华.基于互信息的特征提取方法在中文法律案情文本分类中的改进及应用[J].科技广场,2006(11):94-95.
3方跃胜,姚宏亮.法律搜索引擎索引系统同步模块的设计与实现[J].计算机技术与发展,2011,21(3):137-141.
4黄章益,刘怀亮.一种基于语义的中文文本特征降维技术研究[J].情报杂志,2011,30(S2):123-125. 被引量：2
5颜端武,罗胜阳,成晓.协同推荐中基于用户-文档矩阵的用户聚类研究[J].现代图书情报技术,2007(3):25-28. 被引量：2
6邢云倩,应忠于.模糊理论在法律文本查询系统中的应用[J].山东工业技术,2015(7):169-169.
7范英飚,王劲松,王新.降维法计算扩展网络的最短路径[J].海军航空工程学院学报,2005,20(2):285-287.
8张锋,常会友.使用BP神经网络缓解协同过滤推荐算法的稀疏性问题[J].计算机研究与发展,2006,43(4):667-672. 被引量：85
9徐杰,施鹏飞.基于Gabor小波特征的多姿态人脸图像识别[J].计算机工程与应用,2003,39(21):17-18. 被引量：5
10何坤,李伟生,杨勇.基于语义特征的文本情感倾向识别研究[J].计算机应用研究,2010,27(3):992-994. 被引量：7

电子测量技术

2007年第10期

浏览历史

内容加载中请稍等...

基于LSA的二次降维法在中文法律案情文本分类中的应用被引量：8

参考文献7

二级参考文献6

共引文献195

同被引文献89

引证文献8

二级引证文献112

相关作者

相关机构

相关主题

浏览历史

基于LSA的二次降维法在中文法律案情文本分类中的应用 被引量：8

参考文献7

二级参考文献6

共引文献195

同被引文献89

引证文献8

二级引证文献112

相关作者

相关机构

相关主题

浏览历史

基于LSA的二次降维法在中文法律案情文本分类中的应用被引量：8