期刊文献+
共找到77篇文章
< 1 2 4 >
每页显示 20 50 100
融合领域词典嵌入的航空不安全事件命名实体识别
1
作者 许雅玺 孟天宇 +1 位作者 王欣 刘炳南 《科学技术与工程》 北大核心 2024年第8期3284-3290,共7页
针对航空不安全事件领域命名实体识别任务,以航空安全信息周报为数据源,分析并构建航空不安全事件命名实体识别数据集和领域词典。为解决传统命名实体识别模型对于捕获领域实体边界性能较差的问题,基于BERT(bidirectional encoder repre... 针对航空不安全事件领域命名实体识别任务,以航空安全信息周报为数据源,分析并构建航空不安全事件命名实体识别数据集和领域词典。为解决传统命名实体识别模型对于捕获领域实体边界性能较差的问题,基于BERT(bidirectional encoder representations from transformers)预训练语言模型提出融合领域词典嵌入的领域语义信息增强的方法。在自建数据集上进行多次对比实验,结果表明:所提出的方法可以进一步提升实体边界的识别率,相较于传统的双向长短期记忆网络-条件随机场(bi-directional long short term memory-conditional random field,BiLSTM-CRF)命名实体识别模型,性能提升约5%。 展开更多
关键词 航空不安全事件 领域词典 命名实体识别 预训练语言模型
下载PDF
基于BERT和领域词典融合的中文电子病历命名实体识别
2
作者 叶恩光 张晓如 +3 位作者 张再跃 丁腊春 朱向南 王译 《计算机与数字工程》 2024年第3期746-750,767,共6页
医疗数据挖掘的起始环节为CNER(中文电子病历命名实体识别),将相关实体(解剖部位、药品、影像检查等)识别出非结构化文本是其目标所在。基于CNER准确性提升需要,论文设计了BERT-BiLSTM-CRF模型融合领域词典技术,该技术能将上下文语义关... 医疗数据挖掘的起始环节为CNER(中文电子病历命名实体识别),将相关实体(解剖部位、药品、影像检查等)识别出非结构化文本是其目标所在。基于CNER准确性提升需要,论文设计了BERT-BiLSTM-CRF模型融合领域词典技术,该技术能将上下文语义关系全面结合,一词多义问题同样可以迎刃而解,获取电子病历句子的长距离依赖。CNER采用BERT-BiLSTM-CRF模型融合领域词典技术时的F1值已经被实验结果所证实,对知识图谱的构建、临床决策支持系统和病历质控系统等的研究有着重要意义。 展开更多
关键词 中文电子病历 命名实体识别 BERT-BiLSTM-CRF 领域词典
下载PDF
融合领域词典的文旅客服问句匹配模型
3
作者 朱欣娟 牛婷婷 《西安工程大学学报》 CAS 2024年第3期92-99,共8页
在文旅领域智能问答中,用户问句文本表征稀疏、口语化表达、一词多义及特定领域词汇的识别困难使得常见的匹配模型难以将用户问句与标准问句进行精准匹配。针对此问题,本文构建了文旅客服问句匹配数据集和相应的领域词典,在此基础上提... 在文旅领域智能问答中,用户问句文本表征稀疏、口语化表达、一词多义及特定领域词汇的识别困难使得常见的匹配模型难以将用户问句与标准问句进行精准匹配。针对此问题,本文构建了文旅客服问句匹配数据集和相应的领域词典,在此基础上提出一种融合领域词典的文旅问句匹配模型SBIDD(Improved SBERT Model for Integrating Domain Dictionaries)。模型利用Sentence-BERT对问句进行向量化表示,在孪生网络模型中融入领域词典,增强问句的领域词权重,使得模型对领域词汇的识别能力大幅提升。在自建数据集和公开数据集ATEC 2018 NLP上分别进行实验。结果表明,构建的模型与5种经典文本匹配模型DSSM、BiMPM、ESIM、IMAF、TSFR-RM及基线模型SBERT相比效果更优,F1值达到95.65%,比基线模型提升了2.75%,且模型在检索任务上表现出更高的适配性和鲁棒性。 展开更多
关键词 问句匹配 文旅客服 Sentence-BERT 领域词典 智能问答 检索式问答
下载PDF
基于领域词典和Sentence-BERT的智能问答系统 被引量:1
4
作者 李强伟 王鑫 +2 位作者 陈浩民 赵坤 仝思凡 《电脑知识与技术》 2023年第25期21-24,33,共5页
主流的问答系统主要分为基于语义和基于文本匹配两种,而在基于文本匹配的问答模型中,通常是将问题对直接进行相似性比对进而得出最终的答案。然而,自然语言长问句一般比较冗余,如果直接进行计算,受冗余部分影响,正确率一般不高。为解决... 主流的问答系统主要分为基于语义和基于文本匹配两种,而在基于文本匹配的问答模型中,通常是将问题对直接进行相似性比对进而得出最终的答案。然而,自然语言长问句一般比较冗余,如果直接进行计算,受冗余部分影响,正确率一般不高。为解决上述问题,文章提出了一种基于Sentence-Bert和领域词典的智能问答系统,旨在实现更高效、更准确地问答。系统采用领域词典来过滤问句中的冗余部分,再使用训练好的Sentence-Bert句向量模型对预处理后的问句进行向量化,并计算余弦相似度来找到最匹配的问题。实验结果表明,相比Sentence-BERT,提高了问句相似性比对的精度。 展开更多
关键词 领域词典 智能问答 Sentence-BERT FAQ 相似性比对
下载PDF
汉英新闻领域词典构建及文本分类
5
作者 张彦彦 《信息工程大学学报》 2023年第6期669-674,共6页
针对新闻文本内容领域交叉、语义特征稀疏等问题,提出了结合概念层次网络词语知识库的领域词典附加特征向量的细粒度新闻文本分类方法,满足新闻文本多层级领域文本分类的需求。实验结果表明,附加领域词典特征向量的多层文本分类器在父... 针对新闻文本内容领域交叉、语义特征稀疏等问题,提出了结合概念层次网络词语知识库的领域词典附加特征向量的细粒度新闻文本分类方法,满足新闻文本多层级领域文本分类的需求。实验结果表明,附加领域词典特征向量的多层文本分类器在父领域及子领域的文本分类实现上均具有较好的性能。从总体分类实现的结果来看,第1层文本分类的效果要好于第2层文本分类的效果,第2层分类效果受到上层分类的影响,领域分类效果较好的父领域在进行子领域分类过程中表现出更好的分类实现性能。 展开更多
关键词 新闻文本 概念层次网络 文本分类 领域词典
下载PDF
一种基于生语料的领域词典生成方法 被引量:11
6
作者 孙霞 郑庆华 +1 位作者 王朝静 张素娟 《小型微型计算机系统》 CSCD 北大核心 2005年第6期1088-1092,共5页
为了实现准确分词,实用的汉语信息处理系统都需有其专用的领域词典.针对现有词典构造方法存在的不足,本文提出了一种领域词典的构造方法:利用通用词典对领域生语料进行分词处理,并提出了基于切分单元的最大匹配算法,从而得到候选词串集... 为了实现准确分词,实用的汉语信息处理系统都需有其专用的领域词典.针对现有词典构造方法存在的不足,本文提出了一种领域词典的构造方法:利用通用词典对领域生语料进行分词处理,并提出了基于切分单元的最大匹配算法,从而得到候选词串集,然后利用规则对其进行优化,最终生成领域词典.词典的生成过程基本上是自动完成的,人工干预少,易于更新;目前,本方法生成的领域词典已经应用于我们自主开发的"基于Web的智能答疑系统"中,并取得了较好的效果. 展开更多
关键词 领域词典 通用词典 词频统计 最大匹配
下载PDF
支持CSCL中相关度监控的领域词典构建研究 被引量:1
7
作者 冯蜀茗 张小真 奚晓霞 《西南师范大学学报(自然科学版)》 CAS CSCD 北大核心 2005年第3期430-434,共5页
提出了用领域词典代表给定协作主题特征,并且用机械分词与串频统计相结合的方法实现了一个计算机支持的协作学习中相关度监控的领域词典构建系统.从而可以通过对学习者协作内容文本与领域词典中代表协作主题的特征词的相似度计算,判断... 提出了用领域词典代表给定协作主题特征,并且用机械分词与串频统计相结合的方法实现了一个计算机支持的协作学习中相关度监控的领域词典构建系统.从而可以通过对学习者协作内容文本与领域词典中代表协作主题的特征词的相似度计算,判断学习者协作活动与协作主题的相关度. 展开更多
关键词 计算机支持的协作学习 相关度监控 领域词典
下载PDF
大宗商品交易领域词典构建
8
作者 黄金源 孙若莹 《北京信息科技大学学报(自然科学版)》 2022年第1期71-75,共5页
为了高效地对大宗商品交易领域的文本数据进行挖掘,基于书籍文本面向大宗商品交易领域构建了领域词典。通过关键词提取以及融合现有基础词典,构建大宗商品交易领域词典。为了使得领域词典更加完善,利用分布式表示方法中的Word2vec算法... 为了高效地对大宗商品交易领域的文本数据进行挖掘,基于书籍文本面向大宗商品交易领域构建了领域词典。通过关键词提取以及融合现有基础词典,构建大宗商品交易领域词典。为了使得领域词典更加完善,利用分布式表示方法中的Word2vec算法进行词典扩充。实验结果表明,所构建的领域词典在文本分类任务中具有良好的性能表现。 展开更多
关键词 领域词典 大宗商品交易 书籍文本 关键词提取 Word2vec 领域词典扩充
下载PDF
基于伪相关反馈模型的领域词典生成算法 被引量:2
9
作者 黄玉兰 龚才春 +1 位作者 许洪波 程学旗 《中文信息学报》 CSCD 北大核心 2008年第1期111-115,共5页
本文提出了一种基于伪相关反馈模型的领域词典自动生成算法。将领域词典生成过程视为领域术语的检索过程:假设初始检索出来的前若干个字符串与领域相关,将这些字符串加到领域词典中,重新检索,如此迭代,直到生成的领域词典达到预先设定... 本文提出了一种基于伪相关反馈模型的领域词典自动生成算法。将领域词典生成过程视为领域术语的检索过程:假设初始检索出来的前若干个字符串与领域相关,将这些字符串加到领域词典中,重新检索,如此迭代,直到生成的领域词典达到预先设定的规模。实验表明,本算法经过若干次迭代后生成的领域词典准确率高于已有领域词典生成算法。 展开更多
关键词 计算机应用 中文信息处理 有意串 领域词典 大规模语料 伪相关反馈
下载PDF
基于领域词典的网络商品评论情感分析 被引量:4
10
作者 孔伟俊 胡广朋 《计算机与数字工程》 2018年第1期155-159,共5页
论文提出了一种商品评论分析策略,能够有效分析出网络商品评论的情感倾向。论文构建的领域情感词典,具有自动识别、扩展功能,不需要过多的人工参与,同时加入了副词词典、否定词词典,通过组合词典可以将情感强度量化。最后通过实验表明... 论文提出了一种商品评论分析策略,能够有效分析出网络商品评论的情感倾向。论文构建的领域情感词典,具有自动识别、扩展功能,不需要过多的人工参与,同时加入了副词词典、否定词词典,通过组合词典可以将情感强度量化。最后通过实验表明论文提出的基于领域词典的方法能够有效地帮助消费者做出决策,具有较强的实用价值。 展开更多
关键词 情感分析 领域词典 商品评论 情感强度
下载PDF
基于领域词典与CRF双层标注的中文电子病历实体识别 被引量:15
11
作者 龚乐君 张知菲 《工程科学学报》 EI CSCD 北大核心 2020年第4期469-475,共7页
医疗实体识别是电子病历文本信息抽取的基本任务.针对中文电子病历文本复合实体较多、实体长度较长、句子成分缺失严重、实体边界不清的语言特点以及标注语料难以获取的现状,提出了一种基于领域词典和条件随机场(CRF)的双层标注模型.该... 医疗实体识别是电子病历文本信息抽取的基本任务.针对中文电子病历文本复合实体较多、实体长度较长、句子成分缺失严重、实体边界不清的语言特点以及标注语料难以获取的现状,提出了一种基于领域词典和条件随机场(CRF)的双层标注模型.该模型通过对外部资源的统计分析构建医疗领域词典,再结合条件随机场,进行了两次不同粒度的标注,将领域词典识别的准确性和机器学习的自动性融为一体,从中文电子病历文本中识别出疾病、症状、药品、操作四类医疗实体.该模型在测试数据中的宏精确率为96.7%、宏召回率为97.7%、宏F1值为97.2%.同时对比分析了采用注意力机制的深度神经网络的识别效果,因受到领域数据集大小的限制,在该测试数据集中后者表现不佳.实验结果表明了该双层标注模型对中文医疗实体识别的高效性. 展开更多
关键词 中文电子病历 医疗实体识别 领域词典 条件随机场 注意力机制
下载PDF
基于映射关系的领域词典抽取算法
12
作者 崔晨 李贵 +2 位作者 李征宇 韩子扬 曹科研 《数据挖掘》 2021年第2期59-76,共18页
领域词典是一种领域知识的表现形式,是数据规范化和数据清洗的重要参考信息。映射关系指表格中某两列间的对应关系。领域词典构建与扩充以Web表格为主要数据来源,需要对众多Web表格中的局部映射关系进行联结和扩展,但Web表格中存在异构... 领域词典是一种领域知识的表现形式,是数据规范化和数据清洗的重要参考信息。映射关系指表格中某两列间的对应关系。领域词典构建与扩充以Web表格为主要数据来源,需要对众多Web表格中的局部映射关系进行联结和扩展,但Web表格中存在异构和数据质量问题,不能单纯地依靠模式匹配等数据集成技术。本文提出了一种基于映射关系的领域词典抽取算法。首先利用带IDF权重的Jaccard最大包含度和编辑距离进行近似字符串匹配,并利用高斯混合模型实现数值离散化,从而解决了数据层面的异构性问题。然后由点互信息和函数依赖确定包含映射关系的候选表;接下来定义了候选表间的相容性和相斥性,构造出映射关系图模型,以进行候选表联结,实现了以映射关系为形式的领域词典抽取。最后,为保证领域词典的质量,加入了冲突消解过程。在实验验证阶段,本文利用房地产领域数据集,与其他从Web获取领域知识的算法进行比较,验证了本文所提出算法的有效性和可靠性。 展开更多
关键词 领域词典 映射关系 近似匹配 离散化
下载PDF
基于领域词典的留园构成要素情感分析 被引量:2
13
作者 刘文龙 黄维 《科学技术与工程》 北大核心 2021年第8期3174-3179,共6页
在对旅游景点的评论挖掘中常以多景点横向对比为研究切入点,为景点间的横向比较及游人选择景点服务,而较少针对单一景点深入分析,为景点单要素精准提升服务。以留园为例,按照构成元素构建聚类,并基于领域词典进行整体与分要素聚类的情... 在对旅游景点的评论挖掘中常以多景点横向对比为研究切入点,为景点间的横向比较及游人选择景点服务,而较少针对单一景点深入分析,为景点单要素精准提升服务。以留园为例,按照构成元素构建聚类,并基于领域词典进行整体与分要素聚类的情感分析。结果表明,留园中“山石”要素相关的正面情感占比66%,低于分要素平均正面情感78.3%。可见基于园林构成要素聚类分析可帮助精准提取互联网评论情感分析。研究成果对园林等旅游景点管理方优化、品牌形象提升提供了一种易于操作的、更精准的理论与方法。 展开更多
关键词 情感分析 留园 要素聚类 领域词典
下载PDF
Ontology在领域词典构建中的应用
14
作者 徐刚 《黑龙江科技信息》 2008年第29期48-48,共1页
重点讨论如何基于Ontology的思想来构建领域词典的方法。首先给出了"领域知识"和Ontology的定义,并用框架知识表示方法来表示"领域知识"。接着详细讨论了如何在Ontology思想的指导下,构建"领域词典"。最... 重点讨论如何基于Ontology的思想来构建领域词典的方法。首先给出了"领域知识"和Ontology的定义,并用框架知识表示方法来表示"领域知识"。接着详细讨论了如何在Ontology思想的指导下,构建"领域词典"。最后指出了在构建"领域词典"过程中面临的困难和存在的一些问题,并提出在未来的构建工作中的一些设想。 展开更多
关键词 领域知识 ONTOLOGY 领域词典
下载PDF
一种面向商品评价对象挖掘的领域词典构建法 被引量:3
15
作者 石玉鑫 杨泽青 +1 位作者 赵志滨 姚兰 《软件工程》 2019年第1期1-7,共7页
通过挖掘商品评论中的评价对象,可以得知用户更关心商品哪些方面的属性,从而帮助企业改进商品,帮助用户选择商品。因此,商品评价对象的挖掘具有重要的意义。本文提出了一种用于商品评价对象挖掘的领域词典构建方法:首先基于LDA模型,提... 通过挖掘商品评论中的评价对象,可以得知用户更关心商品哪些方面的属性,从而帮助企业改进商品,帮助用户选择商品。因此,商品评价对象的挖掘具有重要的意义。本文提出了一种用于商品评价对象挖掘的领域词典构建方法:首先基于LDA模型,提出了一种领域基础词典的构建方法;然后,分别提出了基于词汇之间的PMI值和基于依存句法分析的领域词典扩充方法。本文基于京东商城的洗衣液产品真实评论数据集,使用构建的词典分别进行了一级标签评价对象挖掘和二级标签评价对象挖掘的实验。实验结果表明,本文提出的方法在进行评价对象挖掘时具有良好的性能;相比一级标签评价对象,扩充后的词典对二级标签评价对象挖掘的效果有更好的提升。 展开更多
关键词 领域词典 对象挖掘 商品评论 LDA PMI
下载PDF
一种基于领域词典的XML非结构化信息模式识别方法
16
作者 杜巍 《科技视界》 2014年第33期87-88,共2页
在信息量飞速膨胀的今天,全球每天产生海量的信息,其中多达90%都是非结构化信息,这部分信息的大量存在和难以利用使得人们多年来在统一格式和改进算法投入了大量研究。XML作为一种半结构化语言受到了重视和发展,并越来越多的作为新型信... 在信息量飞速膨胀的今天,全球每天产生海量的信息,其中多达90%都是非结构化信息,这部分信息的大量存在和难以利用使得人们多年来在统一格式和改进算法投入了大量研究。XML作为一种半结构化语言受到了重视和发展,并越来越多的作为新型信息载体,本文提出一种对XML非结构化信息的模式识别和信息分类方法,通过将本体领域思想和认知语言学词典思想引入到模式识别中,建立一个树形的分层识别系统的结构框架。 展开更多
关键词 XML 非结构化 模式识别 领域词典
下载PDF
基于购物领域词典扩建的评论情感研究 被引量:2
17
作者 吴潇 王磊 《计算机技术与发展》 2017年第7期194-199,共6页
针对购物评论中如何高效提取有用的情感信息,提出了构建领域情感词典进行评论情感分类方法。对购物评论语料进行分词去重,就各领域评论文本进行词性标注,选择词性为名词、形容词及部分其他词性的词语,通过计算该部分词语的PTF-IDF进行排... 针对购物评论中如何高效提取有用的情感信息,提出了构建领域情感词典进行评论情感分类方法。对购物评论语料进行分词去重,就各领域评论文本进行词性标注,选择词性为名词、形容词及部分其他词性的词语,通过计算该部分词语的PTF-IDF进行排序,设置阈值筛选后得到购物评论语料的领域情感词,从而构建领域情感词典。将该词典作为情感特征应用于购物评论情感分类实验中,并与基于普通情感词典分类方法的性能进行了分析比较。实验结果表明,利用提出方法进行购物评论情感分类的效果,尤其是在分类准确率方面要明显高于基于普通情感词典的情感分类方法,且所提出的方法可适用于各领域的购物评论,有效降低了情感特征空间的维度,具有普适性和可扩展性等优点。 展开更多
关键词 购物评论情感研究 情感分类 领域情感词典 情感特征
下载PDF
融入领域风险词典的社会安全事件网络舆情风险评估研究
18
作者 吴琦 李阳 《情报理论与实践》 北大核心 2024年第6期175-183,共9页
[目的/意义]现有关于社会安全事件网络舆情风险的研究在考虑事件特殊特征、风险内容识别等方面存在不足。在社会深度转型期,借助领域词典和实时数据对社会安全事件网络舆情风险进行评估与识别,有助于更加精准、高效地规避相关网络舆情... [目的/意义]现有关于社会安全事件网络舆情风险的研究在考虑事件特殊特征、风险内容识别等方面存在不足。在社会深度转型期,借助领域词典和实时数据对社会安全事件网络舆情风险进行评估与识别,有助于更加精准、高效地规避相关网络舆情危机。[方法/过程]基于社会安全事件负面舆论语义特征,构建领域风险词典,并在词典基础上创建风险词指标,结合事件特征、舆情热度、负面情绪、风险词4个维度,建立系统的社会安全事件网络舆情风险评估体系。以“山科大北门伤人事件”为实证,通过实时指标来展示事件相关舆情风险变化趋势。[结果/结论]研究表明,评估体系既能从更加系统的角度刻画事件舆情风险的实际变化情况,同时也能利用领域风险词典对事件舆情的舆论风险进行更加细致地描绘,可更好地支持社会安全管控部门的风险管理工作实践。 展开更多
关键词 领域风险词典 社会安全事件 网络舆情 风险评估
下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法
19
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感词典 词频-逆文档频率 隐含狄利克雷分布 情感倾向点互信息算法 BERT模型
下载PDF
面向抑郁症行为特征的领域词典构建
20
作者 周若彤 朱广丽 +2 位作者 李书羽 段文杰 李嘉伟 《大数据》 2024年第5期96-108,共13页
抑郁症患者的行为表征反映其临床特征及病情状况,有利于病情诊断。当前抑郁症领域词典在构建时忽略了抑郁症文本中的行为特征与患者病况的关联性,导致词典领域信息不足。为此,提出面向抑郁症行为特征的领域词典构建方法,拓展了领域词典... 抑郁症患者的行为表征反映其临床特征及病情状况,有利于病情诊断。当前抑郁症领域词典在构建时忽略了抑郁症文本中的行为特征与患者病况的关联性,导致词典领域信息不足。为此,提出面向抑郁症行为特征的领域词典构建方法,拓展了领域词典涵盖的情感表示。首先,采用TF-IDF算法构建情感类和行为类种子词集,通过PMI计算现有词典与情感类种子词的相似度获得情感类词集;其次,基于行为特征与患者病况的对应关系,设置行为类种子词标签,再将种子词与抑郁症文本输入WoBERT生成动态词向量,计算二者的相似度得到候选词集;然后,基于词间相似度构建语义图,并使用标签传播算法获得行为特征词集;最后,收集微博负面情感表情符号构建表情符号词集,合并情感类词集、行为特征词集与表情符号词集,得到中文抑郁症领域词典。实验结果表明,构建的词典可以提升抑郁症文本分类效果。 展开更多
关键词 抑郁症 领域词典 行为特征 WoBERT 标签传播算法
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部