期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于字词联合训练的Bi-LSTM中文电子病历命名实体识别 被引量:6
1
作者 万里 罗曜儒 +1 位作者 李智 綦小蓉 《中国数字医学》 2019年第2期54-56,共3页
为了实现对中文电子病历中实体的自动化识别与信息抽取,提出了一种基于字词联合训练的双向长短时记忆网络(Bi-LSTM)命名实体识别新算法。根据中文语言特性,在传统词向量中融入字向量的语义信息并将其作为神经网络的输入。实验过程中训... 为了实现对中文电子病历中实体的自动化识别与信息抽取,提出了一种基于字词联合训练的双向长短时记忆网络(Bi-LSTM)命名实体识别新算法。根据中文语言特性,在传统词向量中融入字向量的语义信息并将其作为神经网络的输入。实验过程中训练集、验证集与测试集随机按电子病历数量的3:1:2的概率生成。通过对比论文提出的语言模型与其他模型,实验结果显示基于字词联合训练的Bi-LSTM能达到最高准确率98.28%与最低复杂度1.169。该结果证明提出的模型能有效识别中文电子病历中如疾病、症状等相关实体,为自动化处理医学文本数据提供现实基础。 展开更多
关键词 命名实体识别 字词联合训练 Bi-LSTM
下载PDF
对外汉语教学微技能训练
2
作者 汤勤 《郧阳师范高等专科学校学报》 2005年第4期108-111,共4页
从汉语作为外语教学的角度,探讨微技能训练在汉字和词语教学中的运用,试图寻找具有普遍意义的规律性特征,以使学习者在短时间内能够批量地掌握汉字和词语,达到快速提高汉语的能力。
关键词 对外汉语 技能 汉字
下载PDF
基于去噪字词联合模型的中文命名实体识别 被引量:5
3
作者 杨倩 顾磊 《计算机工程与应用》 CSCD 北大核心 2021年第7期151-157,共7页
中文命名实体识别是中文信息处理领域中的一项基本任务,能够为关系抽取、实体链接和知识图谱提供技术支持。与传统命名实体识别方法相比,基于双向长短期记忆(BiLSTM)神经网络模型在中文命名实体识别任务中获得了较好的效果。针对基于字... 中文命名实体识别是中文信息处理领域中的一项基本任务,能够为关系抽取、实体链接和知识图谱提供技术支持。与传统命名实体识别方法相比,基于双向长短期记忆(BiLSTM)神经网络模型在中文命名实体识别任务中获得了较好的效果。针对基于字词联合的BiLSTM-CRF模型存在特征提取不够准确的缺陷,在其基础上,引入Gated去噪机制,对输入字向量进行微调,自动学习过滤或者减少文本中不重要的字信息,保留对命名实体识别任务更有用的信息,进而提高命名实体的识别率。在Resume和Weibo数据集上的测试结果表明,该方法有效地提高了中文命名实体识别的效果。 展开更多
关键词 字词联合 去噪机制 长短期记忆网络 中文命名实体识别
下载PDF
基于字词联合的变体词规范化研究 被引量:1
4
作者 施振辉 沙灜 +3 位作者 梁棋 李锐 邱泳钦 王斌 《计算机系统应用》 2017年第10期29-35,共7页
社交网络中的文本具有随意性和非正规性等特点,一种常见现象是社交网络文本中存在大量变体词.人们往往为了避免审查、表达情感等将原来的词用变体词替代,原来的词成为目标词.本文研究变体词的规范化任务,即找到变体词所对应的初始目标词... 社交网络中的文本具有随意性和非正规性等特点,一种常见现象是社交网络文本中存在大量变体词.人们往往为了避免审查、表达情感等将原来的词用变体词替代,原来的词成为目标词.本文研究变体词的规范化任务,即找到变体词所对应的初始目标词.本文利用变体词所在文本的时间和语义,结合变体词词性,提出了一种时间和语义结合的方法获取候选目标词,然后提出基于字词联合的词向量方法对候选目标词排序.我们的方法不需要额外的标注数据,实验结果表明,相比于当前最好的方法在准确性上具有一定的提升,针对与目标词存在相同的字的变体词其性能更好. 展开更多
关键词 变体词 变体词规范化 社交网络 词向量 字词联合训练
下载PDF
基于混合字词特征的中文短文本分类算法 被引量:5
5
作者 刘硕 王庚润 +1 位作者 彭建华 李柯 《计算机科学》 CSCD 北大核心 2022年第4期282-287,共6页
随着信息技术的迅速发展,网络中产生了海量的中文短文本数据。利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征... 随着信息技术的迅速发展,网络中产生了海量的中文短文本数据。利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征难以提取与表达。为此,文中提出了一种基于混合字词特征深度神经网络模型的中文短文本分类算法。首先,该算法同时计算出中文短文本的字向量和词向量,并分别对其进行特征提取;然后将提取到的字向量特征和词向量特征进行融合;最后通过全连接层和softmax层完成分类任务。在公开的THUCNews新闻数据集上的测试结果表明,该算法在精确率、召回率和F1值3种评价指标上均优于主流的TextCNN,BiGRU,Bert以及ERNIE_BiGRU等对比模型,具有较好的短文本分类效果。 展开更多
关键词 中文短文本分类 预训练模型 字向量 词向量 卷积神经网络
下载PDF
基于异构数据联合训练的中文分词法 被引量:6
6
作者 姜猛 王子牛 高建瓴 《电子科技》 2019年第4期29-32,59,共5页
中文分词技术作为中文信息处理中的关键基础技术之一,基于深度学习模型的中文分词法受到广泛关注。然而,深度学习模型需要大规模数据训练才能获得良好的性能,而当前中文分词语料数据相对缺乏且标准不一。文中提出了一种简单有效的异构... 中文分词技术作为中文信息处理中的关键基础技术之一,基于深度学习模型的中文分词法受到广泛关注。然而,深度学习模型需要大规模数据训练才能获得良好的性能,而当前中文分词语料数据相对缺乏且标准不一。文中提出了一种简单有效的异构数据处理方法,对不同语料数据加上两个人工设定的标识符,使用处理过的数据应用于双向长短期记忆网络结合条件随机场(Bi-LSTM-CRF)的中文分词模型的联合训练。实验结果表明,基于异构数据联合训练的Bi-LSTM-CRF模型比单一数据训练的模型具有更好的分词性能。 展开更多
关键词 中文分词 深度学习 Bi-LSTM-CRF 异构数据 联合训练 语料库
下载PDF
基于词汇增强和对抗训练的中文命名实体识别
7
作者 杨竣辉 刘保冰 《计算机工程与设计》 2024年第12期3712-3718,共7页
针对现有的中文命名实体识别的方法获取中文词级别的特征信息效果不理想且模型易受噪音影响而存在不稳定的问题,提出一种基于词汇增强和对抗训练的中文命名实体识别方法。将输入文本通过词汇增强模块获取到词汇向量,将预训练模型得到的... 针对现有的中文命名实体识别的方法获取中文词级别的特征信息效果不理想且模型易受噪音影响而存在不稳定的问题,提出一种基于词汇增强和对抗训练的中文命名实体识别方法。将输入文本通过词汇增强模块获取到词汇向量,将预训练模型得到的字符级嵌入向量和词汇向量进行字词融合;使用字词融合的嵌入向量通过MOA方式生成对抗样本;使用BiGRU和CRF分别获取语义编码信息并进行解码得到预测结果。实验结果表明,该方法在中文命名实体识别数据集Resume和中药说明书上的F1值分别达到97.14%和73.65%,验证了该模型的有效性。 展开更多
关键词 中文命名实体识别 词汇增强 预训练模型 字词融合 对抗训练 双向门控循环单元 条件随机场
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部