基于改进K-SVD的英文语料库分词特征提取模型构建被引量：2

Construction of English Corpus Word Segmentation Feature Extraction Model Based on Improved K-SVD

下载PDF

导出

摘要为提升英文语料库分词精准度,以英文语料库作为研究对象,采用改进的K-SVD算法,构建一个分词特征提取模型。利用稀疏编码与字典更新两个步骤,将初始数据替换为更高级别的特征表示,作为K-SVD算法输入项来获取最优字典。基于模型开发平台,采用文本预处理模块、文本网络构建模块、特征提取模块以及特征加权模块,构建英文语料库分词特征提取模型。选取近十年的新闻素材作为英文语料库,组成训练集,根据分词特征提取结果与提取效果度量指标数据,验证所建模型具有语义辨别与文本还原的有效性,且准确率与召回率也有显著优越性。 In order to improve the accuracy of word segmentation in English corpus,an improved K-SVD algorithm is used to construct a segmentation feature extraction model.Using sparse coding and dictionary updating,the initial data is replaced by higher-level feature representation,which is used as the input of K-SVD algorithm to obtain the optimal dictionary.Based on the model development platform,the text preprocessing module,text network construction module,feature extraction module and feature weighting module are used to construct the feature extraction model of English corpus segmentation.This paper selects news materials from the past ten years as English corpus to form a training set.According to the results of word segmentation feature extraction and the index data of extraction effect,the validity of the model is verified,and the accuracy and recall rate are also significantly superior.

作者周永英 ZHOU Yong-ying(Xingzhi College of Xi'an University of Finance and Economics,Xi'an 710038 China)

机构地区西安财经大学行知学院

出处《自动化技术与应用》 2021年第11期127-130,135,共5页 Techniques of Automation and Applications

关键词 K-SVD算法英文语料库分词特征提取稀疏编码 K-SVD algorithm English corpus word segmentation feature extraction sparse coding

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1吴尹清,李德俊.网络驱动语料库刍议——兼论“万维网能否代替传统语料库?”[J].外语电化教学,2019(2):45-52. 被引量：2
2李惠富,陆光.多类型分类器融合的文本分类方法研究[J].计算机应用研究,2019,36(3):752-755. 被引量：3
3王星,李超,陈吉.基于膨胀卷积神经网络模型的中文分词方法[J].中文信息学报,2019,33(9):24-30. 被引量：20
4杨冠仪,於志勇,郭文忠,黄昉菀.基于稀疏表示的时间序列最近邻分类[J].福州大学学报（自然科学版）,2020,48(2):152-159. 被引量：3
5刘艳君,尤俊瑶,丁锋.基于辅助模型正交匹配追踪的多输入系统迭代辨识算法[J].控制与决策,2019,34(4):787-792. 被引量：7
6王飞,易绵竹,谭新.基于本体语义网络的语言理解模型[J].计算机科学,2018,45(B06):101-105. 被引量：10
7高巍,孙盼盼,李大舟.Twitter情感分析中停用词处理[J].计算机工程与设计,2019,40(11):3180-3185. 被引量：3
8安静.基于依存句法分析与序列标注的英文长句机器翻译[J].兰州理工大学学报,2018,44(1):100-103. 被引量：12

二级参考文献40

1李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
2张政.机器翻译难点所在[J].外语研究,2005,22(5):59-62. 被引量：29
3张永,陈思睿,杨志勇,贾桂霞.特征选择方法的研究和改进[J].兰州理工大学学报,2006,32(5):92-95. 被引量：3
4黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
5宋彦,蔡东风,张桂平,赵海.一种基于字词联合解码的中文分词方法[J].软件学报,2009,20(9):2366-2375. 被引量：42
6张开旭,夏云庆,宇航.基于条件随机场的古汉语自动断句与标点方法[J].清华大学学报（自然科学版）,2009(10):1733-1736. 被引量：34
7黄德根,焦世斗,周惠巍.基于子词的双层CRFs中文分词[J].计算机研究与发展,2010,47(5):962-968. 被引量：23
8卫乃兴.再探经典短语学的要旨和方法:模型、概念与问题[J].外语与外语教学,2011(3):29-34. 被引量：7
9方红,杨海蓉.贪婪算法与压缩感知理论[J].自动化学报,2011,37(12):1413-1421. 被引量：101
10崔晓菊,易绵竹.面向文本语义自动分析的本体语义学述要[J].解放军外国语学院学报,2013,36(2):39-43. 被引量：2

共引文献52

1冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
2金晓娟.大学英语听力教学中英文长句的教学模式探析[J].校园英语,2018,0(21):23-23.
3李文靖,胡书山,余日季.基于语义网的数字化家具模型本体设计与检索[J].软件导刊,2019,18(8):136-139. 被引量：2
4杨进才,杨璐璐,汪燕燕,沈显君.基于神经网络的关系词非充盈态复句层次的自动识别[J].计算机科学,2019,46(S11):103-107. 被引量：1
5尹丽春,王悦.基于在线评论的图书消费者满意度影响因素与作用机理[J].图书情报工作,2019,63(22):106-117. 被引量：14
6李贺,杜杏叶.基于知识元的学术论文内容创新性智能化评价研究[J].图书情报工作,2020,64(1):93-104. 被引量：51
7付本静.基于多级知识表示结构的英语动词同形区分方法[J].赤峰学院学报（自然科学版）,2020,36(1):41-44.
8饶岩岩.基于语义特征的复杂长句切分式翻译算法研究[J].周口师范学院学报,2020,37(1):95-99. 被引量：2
9李丽.基于系统功能语言学理论的语篇互文性与对话性分析[J].湖北第二师范学院学报,2020,37(1):30-33.
10顾磊.浅谈针对明清小说文本的知识抽取方法[J].科技视界,2020,0(10):11-13.

同被引文献24

1栗雪娟,崔尚森,张柯.最佳旅游路线选择的神经网络方法[J].交通与计算机,2006,24(5):103-106. 被引量：10
2苏宝莉,李宁.Dijkstra算法优化及在GIS系统中求最佳路径的应用[J].遥感技术与应用,2013,28(5):866-870. 被引量：14
3魏平,熊伟清.用于一般函数优化的蚁群算法[J].宁波大学学报（理工版）,2001,14(4):52-55. 被引量：64
4杨晓敏.基于蚁群算法的黄河金三角旅游路线规划研究[J].计算机时代,2018(12):61-63. 被引量：4
5吴红波,王英杰,杨肖肖.基于Dijkstra算法优化的城市交通路径分析[J].北京交通大学学报,2019,43(4):116-121. 被引量：53
6权志成.英语动词名词搭配错误校正模型构建与研究[J].湖北第二师范学院学报,2019,36(9):88-91. 被引量：2
7万逸飞,彭力.改进A~*蚁群算法求解机器人路径规划问题[J].传感器与微系统,2019,38(12):153-156. 被引量：17
8陈祖君.基于神经网络机器翻译模型的英文分词研究[J].计算机与数字工程,2020,48(1):13-18. 被引量：9
9叶颖诗,魏福义,蔡贤资.基于并行计算的快速Dijkstra算法研究[J].计算机工程与应用,2020,56(6):58-65. 被引量：22
10党莎莎,龚小涛.基于改进GLR算法的智能识别英语翻译模型设计[J].计算机测量与控制,2020,28(4):161-164. 被引量：9

引证文献2

1杨晓敏.基于矩阵分解和蚁群算法的旅游路线优化算法[J].信息技术与信息化,2022(3):138-141. 被引量：2
2任丽娜.英语作文切题度分析算法[J].自动化技术与应用,2024,43(3):99-103.

二级引证文献2

1白翠玲,雷欣,董志良.神经网络模型在旅游领域的应用研究文献综述[J].经济论坛,2023(10):62-75.
2赵琛,周路生,陶今,梁国健,李一兰.基于RGV的反应堆压力容器顶盖检查机器人系统[J].数字技术与应用,2023,41(11):181-187.

1朱小平.高中生英语听力能力的培养策略研究[J].中学生英语,2020(48):103-103.
2李宁.增殖的美学:论文艺高峰的文本世界[J].中国文艺评论,2021(10):50-58. 被引量：3
3刘新玉,王东云,谢行.课堂教学中脑机接口技术应用瓶颈与前景[J].教育生物学杂志,2021,9(5):418-423. 被引量：2
4李元诚,杨珊珊.基于改进自注意力机制生成对抗网络的智能电网GPS欺骗攻击防御方法[J].电力自动化设备,2021,41(11):100-106. 被引量：18
5刘闯,张志广,褚夫强,罗方.石墨烯墨水在印刷电子中应用进展[J].广东印刷,2021(5):58-60. 被引量：3
6王晓慧,王延江,邓晓刚,张政.基于加权深度支持向量数据描述的工业过程故障检测[J].化工学报,2021,72(11):5707-5716. 被引量：5

自动化技术与应用

2021年第11期

浏览历史

内容加载中请稍等...

基于改进K-SVD的英文语料库分词特征提取模型构建被引量：2

参考文献8

二级参考文献40

共引文献52

同被引文献24

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于改进K-SVD的英文语料库分词特征提取模型构建 被引量：2

参考文献8

二级参考文献40

共引文献52

同被引文献24

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于改进K-SVD的英文语料库分词特征提取模型构建被引量：2