期刊文献+
共找到94,737篇文章
< 1 2 250 >
每页显示 20 50 100
文本有关的话者确认系统 被引量:1
1
作者 秦兵 陈惠鹏 +1 位作者 李光琪 刘松波 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2000年第4期16-18,共3页
通过分析当前话者识别系统中常用的一些特征 ,提出了新的特征向量组合 .试验表明 ,特征组合后能很好地区分话者 ;在建模的过程中 ,提出了矢量量化模型与隐含马尔柯夫模型的混合识别策略 ,使正识率有所提高 ;同时 ,对文本有关和文本无关... 通过分析当前话者识别系统中常用的一些特征 ,提出了新的特征向量组合 .试验表明 ,特征组合后能很好地区分话者 ;在建模的过程中 ,提出了矢量量化模型与隐含马尔柯夫模型的混合识别策略 ,使正识率有所提高 ;同时 ,对文本有关和文本无关作了对比试验 ,试验证明 ,选择 4~ 展开更多
关键词 说话人识别 文本有关 矢量量化 话者确认系统
下载PDF
建设部、国家工商行政管理局关于修改合同示范文本有关条款的通知
2
《中国房地产业》 2001年第4期50-50,共1页
各省、自治区建委(建设厅),直辖市建委、房地局,北京市政管理委员会;各省、自治区、直辖市及计划单列市工商行政管理局: 根据《中华人民共和国仲裁法》和《中华人民共和国合同法》的有关规定,现对建设部与国家工商行政管理局共同发布的... 各省、自治区建委(建设厅),直辖市建委、房地局,北京市政管理委员会;各省、自治区、直辖市及计划单列市工商行政管理局: 根据《中华人民共和国仲裁法》和《中华人民共和国合同法》的有关规定,现对建设部与国家工商行政管理局共同发布的合同示范文本中的合同争议解决方式条款进行修改 展开更多
关键词 工商行政管理局 合同示范文本 修改合同 有关条款 建设部 中华人民共和国仲裁法 市政管理委员会 工程勘察 合同法 建设工程
下载PDF
基于知识图谱的冬奥赛事气象服务文本生成方法研究
3
作者 丰德恩 张雪英 +4 位作者 唐卫 王益鹏 王慕华 渠寒花 李敏 《科学技术与工程》 北大核心 2024年第16期6600-6609,共10页
气象服务文本是为赛事顺利举行及赛事期间的各项活动提供必要的气象保障,是组委会、裁判、各代表队的工作人员获取气象信息开展相关工作的载体。现有气象文本生产需要人工编写审核,效率不高。相比之下,全自动文本生成更加依赖于模板和... 气象服务文本是为赛事顺利举行及赛事期间的各项活动提供必要的气象保障,是组委会、裁判、各代表队的工作人员获取气象信息开展相关工作的载体。现有气象文本生产需要人工编写审核,效率不高。相比之下,全自动文本生成更加依赖于模板和固定的形式。针对以上问题,结合自然语言处理技术提出基于知识图谱的冬奥赛事气象服务文本生成方法。重点从历史赛事气象服务文本中进行内容分析和特征提取,利用气象数据和历史赛事信息构建高山滑雪赛事知识图谱。该方法根据实时气象数据和文稿模板生成天气描述文本,然后基于知识图谱查询推理技术得到赛事影响结果并生成相应文本。实验结果表明:气象服务文本的自动生成结果具有较好的准确性和可读性,有助于冬奥赛事的顺利推进,该文本生成方法面向特定领域也具有较好的应用前景。 展开更多
关键词 知识图谱 文本生成 气象服务 冬奥赛事 知识推理
下载PDF
JBI循证卫生保健中心文本证据的质量评价清单
4
作者 周英凤 胡雁 +6 位作者 朱政 邢唯杰 陈瑜 顾莺 张晓菊 徐蕾 王安妮 《护士进修杂志》 2024年第10期1075-1080,共6页
在缺乏高质量研究证据的情况下,经过严格地质量评价后的文本证据可作为医疗卫生保健决策依据的有效补充。本文旨在详细介绍JBI循证卫生保健中心3类文本证据(政策、专家意见及记叙)的质量评价清单,并通过实例分析对其核心内容进行详细解... 在缺乏高质量研究证据的情况下,经过严格地质量评价后的文本证据可作为医疗卫生保健决策依据的有效补充。本文旨在详细介绍JBI循证卫生保健中心3类文本证据(政策、专家意见及记叙)的质量评价清单,并通过实例分析对其核心内容进行详细解读,为国内研究人员评价文本证据的质量提供工具和支持。 展开更多
关键词 循证护理 文献质量评价 文本证据 政策 专家意见 记叙
下载PDF
改进FCENet的自然场景文本检测算法
5
作者 周燕 廖俊玮 +2 位作者 刘翔宇 周月霞 曾凡智 《计算机工程与应用》 CSCD 北大核心 2024年第3期228-236,共9页
针对自然场景文本检测中由于背景复杂、尺度多变、形状弯曲等造成的检测难题,提出了一种改进FCENet(Fourier contour embedding network)的场景文本检测算法。该算法基于FCENet并引入了多尺度残差特征增强模块和多尺度注意力特征融合模... 针对自然场景文本检测中由于背景复杂、尺度多变、形状弯曲等造成的检测难题,提出了一种改进FCENet(Fourier contour embedding network)的场景文本检测算法。该算法基于FCENet并引入了多尺度残差特征增强模块和多尺度注意力特征融合模块。多尺度残差特征增强模块作为骨干网络顶层的残差分支,增强了特征金字塔结构自上而下的高层语义信息流动,提高了文本像素分类能力,有效减少误检现象。多尺度注意力特征融合模块使不同语义和尺度的特征能够更好地融合,结合自底向上的特征融合网络,有效避免文本过度分割并提高了弯曲文本的检测能力。实验结果表明,该方法在弯曲文本数据集CTW1500和Total-Text上的综合指标F值分别达到了86.2%和86.5%,相比原算法FCENet分别提升了1.1和0.7个百分点。 展开更多
关键词 自然场景文本检测 特征融合 特征增强 注意力机制 FCENet
下载PDF
基于文本分析的中国数字创业政策评价研究
6
作者 李亮 严良 +1 位作者 唐敏 周敏 《武汉理工大学学报(信息与管理工程版)》 CAS 2024年第2期260-268,共9页
随着数字经济在中国的蓬勃发展,数字创业面临着巨大的机遇和挑战,对于数字创业政策的有效评估有助于了解政策不足并推动区域数字创业进一步发展。基于此,利用文本分析方法对中国省级层面实施的数字创业政策进行了深入分析,在计算区域创... 随着数字经济在中国的蓬勃发展,数字创业面临着巨大的机遇和挑战,对于数字创业政策的有效评估有助于了解政策不足并推动区域数字创业进一步发展。基于此,利用文本分析方法对中国省级层面实施的数字创业政策进行了深入分析,在计算区域创业绩效水平的基础上探究不同类别省份的数字创业政策特征,利用PMC指数法分析区域数字创业政策的总体有效性及维度特征。该研究可为中国不同类型省份进一步优化政策布局提供参考。 展开更多
关键词 数字创业 政策评价 文本分析 创业绩效 数字经济
下载PDF
融合领域要素知识的多粒度法律文本匹配方法
7
作者 罗森林 董勃 +1 位作者 潘丽敏 吴舟婷 《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第3期298-305,共8页
法律文本匹配的目标是快速提炼对比要素信息并发现关联案件,保障法律适用的统一性同案同判.现有方法未能充分利用特定类型案件的先验知识,其核心要素提取准确率低,仅进行词向量的权重计算,忽略字义、句义、句法的向量信息,影响匹配效果... 法律文本匹配的目标是快速提炼对比要素信息并发现关联案件,保障法律适用的统一性同案同判.现有方法未能充分利用特定类型案件的先验知识,其核心要素提取准确率低,仅进行词向量的权重计算,忽略字义、句义、句法的向量信息,影响匹配效果.提出一种融合领域要素知识的多粒度法律文本匹配方法,通过建立特定案件类型领域知识库准确提取法律要素,引入字、词、句3个粒度的注意力机制计算不同文本向量的权重提升匹配模型效果.实验结果表明,该方法在公开数据集上可达到最好效果. 展开更多
关键词 文本匹配 法律要素 多粒度 领域知识
下载PDF
基于MQTT协议的轻量化文本信息分发技术研究
8
作者 熊风光 陈霖 +3 位作者 韩慧妍 张元 庞敏 焦世超 《计算机技术与发展》 2024年第2期90-97,共8页
随着卫星通信网络的发展,基于卫星通信网络实现手机、平板电脑等移动通信设备之间的通信成为研究的热点。由于其采用无线电波进行信号传输,且需要经过多个中继站进行信号的转发和处理,导致存在网络延时大、丢包率高以及信道狭窄等问题... 随着卫星通信网络的发展,基于卫星通信网络实现手机、平板电脑等移动通信设备之间的通信成为研究的热点。由于其采用无线电波进行信号传输,且需要经过多个中继站进行信号的转发和处理,导致存在网络延时大、丢包率高以及信道狭窄等问题。针对文本信息在卫星通信网络下的分发过程存在效率低下、可靠性不高的问题,设计一种基于MQTT(Message Queuing Telemetry Transport)协议的轻量化文本信息分发技术。该技术使用MQTT协议作为消息传输协议,在文本信息分发前对MQTT协议进行主题设计、发布订阅机制设计、设备连接设计以及设备心跳设计,确保设备之间的连通性;在文本信息的分发过程中,设计数据校验加密算法、文本信息轻量化处理方法和离线消息存储机制,保证文本信息分发的安全性、可靠性。实验结果表明:相较于传统的基于JSON数据的文本信息分发技术,该技术在提高文本信息分发效率的同时,可确保信息分发的安全性、完整性和稳定性。 展开更多
关键词 MQTT协议 轻量化 文本信息分发 数据加密 离线消息存储
下载PDF
基于动态网络的文本敏感信息感知脑响应检测模型
9
作者 李慧敏 曾颖 +2 位作者 童莉 鲁润南 闫镔 《传感器与微系统》 CSCD 北大核心 2024年第4期152-156,共5页
针对文本敏感信息感知过程复杂和个体差异大造成敏感信息感知脑响应潜伏期不确定性的问题,提出了一种基于动态卷积神经网络的脑响应检测模型——DyCNN_CBAM。该模型通过增加的动态卷积模块,让每层的卷积参数在训练的时候随着输入可变,... 针对文本敏感信息感知过程复杂和个体差异大造成敏感信息感知脑响应潜伏期不确定性的问题,提出了一种基于动态卷积神经网络的脑响应检测模型——DyCNN_CBAM。该模型通过增加的动态卷积模块,让每层的卷积参数在训练的时候随着输入可变,可提升模型的尺寸与容量。然后在模型第一、二层后增加的注意力机制模块,自动计算贡献度较高的时空信息。实验结果表明:该模型比现有的单尺度模型平均分类准确率提高了4%,F1分数提高6.7%,同时比现有多尺度网络平均分类准确率提高了2%,F1分数提高1.2%。此外,在公开数据集上取得最好的F1分数。由此说明,该网络更够适应文本敏感信息感知脑信号潜伏期抖动性,有效地提升了文本敏感信息检测模型的稳定性。 展开更多
关键词 文本敏感信息 脑电信号 目标检测 动态卷积神经网络 注意力机制
下载PDF
基于字词向量融合的民航智慧监管短文本分类
10
作者 王欣 干镞锐 +2 位作者 许雅玺 史珂 郑涛 《中国安全科学学报》 CAS CSCD 北大核心 2024年第2期37-44,共8页
为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题... 为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题。为解决类别不平衡问题,采用数据增强算法在原始文本上进行变换,生成新的样本,使各个类别的样本数量更加均衡。将字向量和词向量按字融合拼接,得到具有词特征信息的字向量。将字词融合的向量分别送入到文本卷积神经网络(TextCNN)和双向长短期记忆(BiLSTM)模型中进行不同维度的特征提取,从局部的角度和全局的角度分别提取特征,并在民航监管事项检查记录数据集上进行试验。结果表明:该模型准确率为0.9837,F 1值为0.9836。与一些字嵌入模型和词嵌入模型相对比,准确率提升0.4%。和一些常用的单通道模型相比,准确率提升3%,验证了双通道模型提取的特征具有全面性和有效性。 展开更多
关键词 字词向量融合 民航监管 文本 文本卷积神经网络(TextCNN) 双向长短期记忆(BiLSTM)
下载PDF
深度学习的自然场景文本识别方法综述
11
作者 曾凡智 冯文婕 周燕 《计算机科学与探索》 CSCD 北大核心 2024年第5期1160-1181,共22页
自然场景文本识别在学术研究和实际应用中具有重要价值,已经成为计算机视觉领域的研究热点之一。然而,识别过程存在文本风格多样、背景环境复杂等挑战,导致识别效率和准确率不佳。传统的基于手工设计特征文本识别方法由于其有限的表示能... 自然场景文本识别在学术研究和实际应用中具有重要价值,已经成为计算机视觉领域的研究热点之一。然而,识别过程存在文本风格多样、背景环境复杂等挑战,导致识别效率和准确率不佳。传统的基于手工设计特征文本识别方法由于其有限的表示能力,不足以有效地应对复杂的自然场景文本识别任务。近年来,采用深度学习方法在自然场景文本识别中取得了重大进展,系统地梳理了近年来相关研究工作。首先,根据是否需要对单字符进行分割,将自然场景文本识别方法分为基于分割与无需分割的方法,再根据其技术实现特点将无需分割的方法进行细分,并对各类最具有代表性的方法工作原理进行了阐述。然后,介绍了当前常用数据集以及评价指标,并在数据集上对各类方法进行了性能对比,从多个方面讨论了各类方法的优势与局限性。最后,指出基于深度学习的自然场景文本识别研究存在的不足和难点,对其未来的发展趋势进行了展望。 展开更多
关键词 文本识别 深度学习 自然场景
下载PDF
乡村振兴背景下我国医保贫困治理政策转型研究:基于25省政策文本的量化分析
12
作者 孙菊 董波 姚强 《兰州学刊》 2024年第4期138-149,共12页
由脱贫攻坚转向乡村振兴,我国医保贫困治理政策也在适时调整。运用政策文本分析方法,基于政策目标、政策工具、政策主体协同三维框架,对25个承担脱贫攻坚任务省份的医保贫困治理政策进行量化分析。结果表明,转型前后我国医保贫困治理政... 由脱贫攻坚转向乡村振兴,我国医保贫困治理政策也在适时调整。运用政策文本分析方法,基于政策目标、政策工具、政策主体协同三维框架,对25个承担脱贫攻坚任务省份的医保贫困治理政策进行量化分析。结果表明,转型前后我国医保贫困治理政策均注重实现保障水平公平合理的目标,服务能力提升目标运用相对较少;政策工具方面,需求型政策工具运用最多、环境型政策工具次之、供给型政策工具最少;政策协同方面,转型后政策部门主体间的协作不断增强,但部门主体间、政策部门与社会力量间的协作机制有待健全。由此,从持续提升服务能力、优化政策工具组合结构、健全医保贫困治理协同机制三个方面提出新阶段完善我国医保贫困治理政策的建议,以适应新的治理需求。 展开更多
关键词 乡村振兴 医保扶贫 政策转型 贫困治理 政策文本
下载PDF
情境、文本、话语:研究生思想政治理论课叙事建构的三重场域
13
作者 刘莹 黄世平 《西南科技大学学报(哲学社会科学版)》 2024年第2期91-95,102,共6页
教育叙事是提升研究生思想政治理论课实效性的重要方法。将教育叙事融入研究生思想政治理论课是契合研究生需求特点的探索,也是符合研究生接受特点的尝试。研究生思想政治理论课教师需从场所、氛围和技术三个维度进行叙事情境的建构,创... 教育叙事是提升研究生思想政治理论课实效性的重要方法。将教育叙事融入研究生思想政治理论课是契合研究生需求特点的探索,也是符合研究生接受特点的尝试。研究生思想政治理论课教师需从场所、氛围和技术三个维度进行叙事情境的建构,创设师生互动的共情场域;从宏大叙事、微观生活和热度话题三个部分实现叙事文本的架构,营造师生互通的共享机制;从风格、表达和体系三个层面推动叙事话语的转换,达到师生互融的共鸣效果,充分发挥思想政治理论课温润人心、教化育人的作用。 展开更多
关键词 情境 文本 话语 研究生思想政治理论课 教育叙事
下载PDF
基于融合矩阵的文本相似度计算实现检索结果聚类
14
作者 赵悦阳 崔雷 《医学信息学杂志》 CAS 2024年第3期58-64,共7页
目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分... 目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分组,随后生成类别标签,描述每一类簇文档的含义。结果/结论基于融合矩阵的聚类效果较好,提取出描述类别的高频词能很好地区分类别含义,对检索结果文本聚类任务有效。 展开更多
关键词 文献检索 文本聚类 融合矩阵 文本相似度
下载PDF
基于词-主题-文本异质网络的短文本分类方法
15
作者 徐涛 赵星甲 卢敏 《计算机应用与软件》 北大核心 2024年第1期146-152,182,共8页
针对现有分类方法未考虑长距离词的语义相关性和文本间潜在主题共享的问题,提出一种基于词-主题-文本异质网络(WTDHN)的短文本分类方法。通过Word2vec训练词的上下文语义向量;构建词相关性矩阵以充足的词共现信息增强短文本各级别语义学... 针对现有分类方法未考虑长距离词的语义相关性和文本间潜在主题共享的问题,提出一种基于词-主题-文本异质网络(WTDHN)的短文本分类方法。通过Word2vec训练词的上下文语义向量;构建词相关性矩阵以充足的词共现信息增强短文本各级别语义学;构建以词、主题和文本为节点的异质网络,并采用图卷积学习节点之间的高阶邻域信息,丰富短文本语义。相较于基准分类模型,该方法在五个公开短文本数据集上的分类准确率平均提高1.56%。 展开更多
关键词 词-主题-文本异质网络 词共现 文本-主题分布 文本分类
下载PDF
基于多尺度注意力特征融合的场景文本检测
16
作者 厍向阳 刘哲 董立红 《计算机工程与应用》 CSCD 北大核心 2024年第1期198-206,共9页
针对目前文本检测中小尺度文本和长文本检测精度低的问题,提出了一种基于多尺度注意力特征融合的场景文本检测算法。该方法以Mask R-CNN为基线模型,引入Swin_Transformer作为骨干网络提取底层特征。在特征金字塔(feature pyramid networ... 针对目前文本检测中小尺度文本和长文本检测精度低的问题,提出了一种基于多尺度注意力特征融合的场景文本检测算法。该方法以Mask R-CNN为基线模型,引入Swin_Transformer作为骨干网络提取底层特征。在特征金字塔(feature pyramid networks,FPN)中,通过将多尺度注意力热图与底层特征通过横向连接相融合,使检测器的不同层级专注于特定尺度的目标,并利用相邻层注意力热图之间的关系实现了FPN结构中的纵向特征共享,避免了不同层之间梯度计算的不一致性问题。实验结果表明:在ICDAR2015数据集上,该方法的准确率、召回率和F值分别达到了88.3%、83.07%和85.61%,在CTW1500和Total-Text弯曲文本数据集上相较现有方法均有良好表现。 展开更多
关键词 场景文本检测 Mask R-CNN Swin Transformer 注意力机制 多尺度特征融合
下载PDF
我国营商环境治理中的政策工具选择策略——基于51份政策文本的内容分析
17
作者 魏淑艳 李富余 《东北师大学报(哲学社会科学版)》 北大核心 2024年第3期31-44,共14页
建设良好的营商环境需要相应的政策工具。分析我国营商环境治理的政策工具选择,既要把握现实的政策,又要具有理论思维。本文基于政策工具选择理论,建立政策工具组合分析框架,运用内容分析法,对2014—2022年我国国家层面营商环境治理的5... 建设良好的营商环境需要相应的政策工具。分析我国营商环境治理的政策工具选择,既要把握现实的政策,又要具有理论思维。本文基于政策工具选择理论,建立政策工具组合分析框架,运用内容分析法,对2014—2022年我国国家层面营商环境治理的51份政策文本进行编码分析。可以发现:我国营商环境治理中的政策工具选择表现为资源供给、需求整合及环境法制三类。资源供给类政策工具以政务服务提升作为主要手段,带动技术、资金等资源的投入。需求整合类政策工具以满足市场主体需求为主,将企业发展与市场塑造进行耦合。环境法制类政策工具强调强制性手段的合理运用,通过法规制度来规范营商环境的发展。未来,我国营商环境治理还需要不断推进政策工具创新,不断完善政策工具的具体类型,注重政策工具的科学运用。 展开更多
关键词 营商环境治理 政策工具 政策工具选择 政策文本
下载PDF
一种基于特征增强的场景文本检测算法
18
作者 高楠 张雷 +2 位作者 梁荣华 陈朋 付政 《计算机科学》 CSCD 北大核心 2024年第6期256-263,共8页
针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能... 针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能够更好地融合不同语义和尺度的特征图信息,从而提高文本信息的表征能力。同时,考虑到网络深层特征图在上采样融合过程中出现语义信息损失的问题,提出了多尺度空间感知模块(Multi-scale Spatial Perception Module,MSPM),通过扩大感受野来获取更大感受野的上下文信息,增强深层特征图的文本语义信息特征,从而有效地减少文本漏检、误检。为了评估所提算法的有效性,在公开数据集ICDAR2015,CTW1500以及MSRA-TD500上进行实验,所提方法综合指标F值分别达到了82.8%,83.4%和85.3%。实验结果表明,该算法在不同数据集上都具有良好的检测能力。 展开更多
关键词 深度学习 场景文本检测 注意力机制 多尺度特征融合 空洞卷积
下载PDF
基于BERT-BiLSTM-CRF模型的畜禽疫病文本分词研究
19
作者 余礼根 郭晓利 +3 位作者 赵红涛 杨淦 张俊 李奇峰 《农业机械学报》 EI CAS CSCD 北大核心 2024年第2期287-294,共8页
针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectiona... 针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network,BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field,CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。 展开更多
关键词 畜禽疫病 文本分词 预训练语言模型 双向长短时记忆网络 条件随机场
下载PDF
基于主题模型的通用文本匹配方法
20
作者 黄振业 莫淦清 余可曼 《计算机应用与软件》 北大核心 2024年第5期310-318,349,共10页
检测长文本和短文本相似性的应用场景越来越多,文本对的一致性检测大多可以统一抽象成文本相似性的比较问题。该问题的难点在于短文本是零散的,从而很难判断其属于哪个领域及其背景知识,也难以引入词嵌入来解决在通用场景的具体文本匹... 检测长文本和短文本相似性的应用场景越来越多,文本对的一致性检测大多可以统一抽象成文本相似性的比较问题。该问题的难点在于短文本是零散的,从而很难判断其属于哪个领域及其背景知识,也难以引入词嵌入来解决在通用场景的具体文本匹配问题。基于这个问题,提出一种新的基于文本聚类主题模型的轻量方法,不需要利用额外的背景知识来匹配通用文本相似性。在两个经典测试样本数据集上的实验结果表明,该方法的文本相似性检测效率非常高。 展开更多
关键词 自然语言处理 文本匹配 主题模型 吉布斯采样
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部