期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于BART噪声器的中文语法纠错模型 被引量:9
1
作者 孙邱杰 梁景贵 李思 《计算机应用》 CSCD 北大核心 2022年第3期860-866,共7页
在中文语法纠错中,基于神经机器翻译的方法被广泛应用,该方法在训练过程中需要大量的标注数据才能保障性能,但中文语法纠错的标注数据较难获取。针对标注数据有限导致中文语法纠错系统性能不佳问题,提出一种基于BART噪声器的中文语法纠... 在中文语法纠错中,基于神经机器翻译的方法被广泛应用,该方法在训练过程中需要大量的标注数据才能保障性能,但中文语法纠错的标注数据较难获取。针对标注数据有限导致中文语法纠错系统性能不佳问题,提出一种基于BART噪声器的中文语法纠错模型——BN-CGECM。首先,为了加快模型的收敛,使用基于BERT的中文预训练语言模型对BN-CGECM的编码器参数进行初始化;其次,在训练过程中,通过BART噪声器对输入样本引入文本噪声,自动生成更多样的含噪文本用于模型训练,从而缓解标注数据有限的问题。在NLPCC 2018数据集上的实验结果表明,所提模型的F0.5值比有道开发的中文语法纠错系统(YouDao)提高7.14个百分点,比北京语言大学开发的集成中文语法纠错系统(BLCU_ensemble)提高6.48个百分点;同时,所提模型不增加额外的训练数据量,增强了原始数据的多样性,且具有更快的收敛速度。 展开更多
关键词 数据增强 中文语法纠错 文本噪声 深度学习 序列到序列模型 BART噪声
下载PDF
融合去噪技术和动态主题数的新闻话题分析框架研究 被引量:4
2
作者 李湘东 阮涛 潘练 《情报科学》 CSSCI 北大核心 2018年第4期14-21,共8页
【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本集进行话题抽取,通过计算相... 【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本集进行话题抽取,通过计算相似度为不同时间窗口下的主题建立联系,挖掘热点话题及其演化规律。【结果/结论】将本方法应用于2014年度电商类新闻,得到的结果与同年度新华网经由人工评选出的电商热点新闻主题相比较,证明本方法的准确性。 展开更多
关键词 话题跟踪与分析 LDA模型 DBSCAN 噪声文本
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部