期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于RoBERTa的电力领域词汇挖掘模型 被引量:1
1
作者 黄源航 强梦烨 +3 位作者 李涛 晏明昊 张涵艺 贾大昌 《电力大数据》 2022年第6期1-8,共8页
针对中文电力领域词汇挖掘专业难度大、人工成本高的问题,本文利用深度学习技术,设计了一种结合大规模预训练语言模型、双向长短期记忆网络和条件随机场的电力领域词汇挖掘模型。该模型是一种不涉及任何特征工程的完全端到端的神经网络... 针对中文电力领域词汇挖掘专业难度大、人工成本高的问题,本文利用深度学习技术,设计了一种结合大规模预训练语言模型、双向长短期记忆网络和条件随机场的电力领域词汇挖掘模型。该模型是一种不涉及任何特征工程的完全端到端的神经网络模型,其将RoBERTa模型继续在电力文本语料上预训练以进行领域自适应,同时利用长短期记忆网络整合文本上下文语义信息,并通过条件随机场对预测的标签序列进行约束进而优化实体识别效果。由于现有的电力领域词汇挖掘研究缺乏高质量的标注数据集资源,该文构建了一个具有一定规模的中文电力领域词汇挖掘标注数据集。该文在标注数据集上进行了一系列实验,实验结果验证了模型的有效性。 展开更多
关键词 电力 词汇挖掘 自然语言处理 命名实体识别 深度学习
下载PDF
中医古籍《灵枢》的知识图谱构建与可视化探讨
2
作者 陈莹璇 谢炜豪 +4 位作者 陈帆 徐倩 李荣耀 陈振虎 刘秀峰 《广州中医药大学学报》 CAS 2024年第3期782-790,共9页
【目的】探讨《灵枢》的知识图谱构建与可视化方法,以期为中医古籍理论知识的结构化存储与展示提供思路。【方法】借鉴专业领域知识图谱的构建思路,利用文本挖掘技术,进行词库构建,对《灵枢》原文进行分词、实体识别、关系抽取等处理,... 【目的】探讨《灵枢》的知识图谱构建与可视化方法,以期为中医古籍理论知识的结构化存储与展示提供思路。【方法】借鉴专业领域知识图谱的构建思路,利用文本挖掘技术,进行词库构建,对《灵枢》原文进行分词、实体识别、关系抽取等处理,得到知识图谱的构建基础。再利用图数据库Neo4j进行知识图谱的存储与查询,实现知识图谱的可视化展示。【结果】得到《灵枢》词库的1216个高质量词汇,实现了《灵枢》理论的知识图谱构建。构建的知识图谱可基本展示《灵枢》文本中描述的中医理论,如藏象与精气之间的关系、情志与五脏的关系等,使得相关实体与关系的检索调用成为可能,为中医古籍理论知识的结构化存储与展示提供了思路。【结论】通过知识图谱构建可以得到《灵枢》的中医理论知识图谱,展示《灵枢》中表达的阴阳五行、脏腑经络等的知识联系。知识图谱的构建与在图数据库中的存储,可使《灵枢》文本涉及的知识图谱能以可视化语义网络图的形式进行展示,还可使嵌入语义搜索、语义维基等系统成为可能,为中医智能医疗服务发展助力。 展开更多
关键词 《灵枢》 知识图谱 可视化 词汇挖掘 中医古籍 图数据库
下载PDF
基于突发短语挖掘的微博事件检测方法研究 被引量:3
3
作者 罗鹏程 王一博 +1 位作者 王世奇 王继民 《情报理论与实践》 CSSCI 北大核心 2021年第12期172-179,共8页
[目的/意义]微博是网络舆情传播的重要平台之一,为了对海量微博中的突发舆情事件进行监控预警,并获取开源情报。[方法/过程]文章以短语作为兴趣词项,提出了基于突发短语挖掘的微博舆情事件检测方法。首先,利用自动短语挖掘方法AutoPhras... [目的/意义]微博是网络舆情传播的重要平台之一,为了对海量微博中的突发舆情事件进行监控预警,并获取开源情报。[方法/过程]文章以短语作为兴趣词项,提出了基于突发短语挖掘的微博舆情事件检测方法。首先,利用自动短语挖掘方法AutoPhrase从微博文本中识别出具有潜在舆情价值的优质短语;然后,基于短语相关统计信息,识别出主题性、流行性、突发性均较大的高舆情价值的突发短语集合;最后,构建突发短语共现网络,利用模块度优化算法对短语聚类,从而得到不同的舆情事件。[结果/结论]基于推特数据的实验结果表明,与基于单词和命名实体的方法相比,该方法可以获得更好的事件检测效果。[局限]仅针对特定主题的英文推特数据进行了实验验证。 展开更多
关键词 推特 舆情分析 突发事件 突发词 词汇挖掘 社团检测
下载PDF
基于模糊粗糙集理论的信息检索方法的研究 被引量:2
4
作者 邹晓红 《燕山大学学报》 CAS 2005年第4期356-359,共4页
信息检索中的词汇挖掘就是利用给定域范围的词汇来提高用户查询效率,大多数情况下信息检索系统上的查询不是优化的。词汇挖掘可以使我们在查询上进行泛化、特化或者其他基于词汇转换的操作来提高查询性能。本文将粗糙集和模糊集理论结... 信息检索中的词汇挖掘就是利用给定域范围的词汇来提高用户查询效率,大多数情况下信息检索系统上的查询不是优化的。词汇挖掘可以使我们在查询上进行泛化、特化或者其他基于词汇转换的操作来提高查询性能。本文将粗糙集和模糊集理论结合起来研究了一种新的词汇挖掘框架,该框架即使当文本和查询使用加权表示即模糊表示时,也可以用基于粗糙集的近似集合。 展开更多
关键词 词汇挖掘 泛化的粗糙集 模糊集
下载PDF
基于粗糙集的WEB页分类研究
5
作者 赵慧灵 熊桂林 《计算机与数字工程》 2007年第1期43-46,共4页
随着网络信息资源的急剧增长,自动构造和精简WEB页特征空间已成为解决WEB信息检索的瓶颈。本文旨在利用粗糙集理论的优越性对WEB页表示进行特征选择和约简,并提出一种基于粗糙集的WEB页自动分类系统。主要完成了以下几个方面的任务:对... 随着网络信息资源的急剧增长,自动构造和精简WEB页特征空间已成为解决WEB信息检索的瓶颈。本文旨在利用粗糙集理论的优越性对WEB页表示进行特征选择和约简,并提出一种基于粗糙集的WEB页自动分类系统。主要完成了以下几个方面的任务:对WEB页进行预处理;生成初始特征属性空间,并进行权值计算和特征过滤;约简特征属性空间;运用ELEM2归纳规则;最后通过规则匹配实现WEB页自动分类。 展开更多
关键词 信息检索 粗糙集 词汇挖掘 特征约简
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部