期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
一种基于概率主题模型的命名实体链接方法 被引量:32
1
作者 怀宝兴 宝腾飞 +1 位作者 祝恒书 刘淇 《软件学报》 EI CSCD 北大核心 2014年第9期2076-2087,共12页
命名实体链接(named entity linking,简称NEL)是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等.该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力.然而,实体数... 命名实体链接(named entity linking,简称NEL)是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等.该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力.然而,实体数量的激增给实体消歧等带来了巨大挑战,使得当前的命名实体链接技术越来越难以满足人们对链接准确率的要求.考虑到文档中的词和实体往往具有不同的语义主题(如"苹果"既能表示水果又可以是某电子品牌),而同一文档中的词与实体应当具有相似的主题,因此提出在语义层面对文档进行建模和实体消歧的思想.基于此设计一种完整的、基于概率主题模型的命名实体链接方法.首先,利用维基百科(Wikipedia)构建知识库;然后,利用概率主题模型将词和命名实体映射到同一个主题空间,并根据实体在主题空间中的位置向量,把给定文本中的命名实体链接到知识库中一个无歧义的命名实体;最后,在真实的数据集上进行大量实验,并与标准方法进行对比.实验结果表明:所提出的框架能够较好地解决了实体歧义问题,取得了更高的实体链接准确度. 展开更多
关键词 命名实体链接 概率主题模型 维基百科
下载PDF
基于用户查询日志的命名实体挖掘 被引量:8
2
作者 翟海军 郭嘉丰 +1 位作者 王小磊 许洪波 《中文信息学报》 CSCD 北大核心 2010年第1期71-76,116,共7页
针对大规模查询日志中丰富的命名实体的挖掘是数据挖掘领域中的重要研究课题。已有的研究工作提出了一种基于种子实体的抽取框架,利用实体间的分布相似度进行挖掘。然而该工作只有当种子实体仅属于单个语义类别时才能取得好的结果,实际... 针对大规模查询日志中丰富的命名实体的挖掘是数据挖掘领域中的重要研究课题。已有的研究工作提出了一种基于种子实体的抽取框架,利用实体间的分布相似度进行挖掘。然而该工作只有当种子实体仅属于单个语义类别时才能取得好的结果,实际上命名实体往往可能从属于多个类别。该文通过引入一个弱指导话题模型,利用少量的人工指导信息,很好地解决了实体的类别模糊性,提高了挖掘的有效性。实验表明该文提出的方法在实体挖掘性能上显著优于已有的方法。 展开更多
关键词 计算机应用 中文信息处理 分开命名实体 用户查询日志 话题模型
下载PDF
基于半监督话题模型的用户查询日志命名实体挖掘 被引量:6
3
作者 曹雷 郭嘉丰 +1 位作者 白露 程学旗 《中文信息学报》 CSCD 北大核心 2012年第5期26-32,共7页
基于用户查询日志的命名实体挖掘,目标是从用户查询日志中挖掘具有指定类别的命名实体。已有研究工作提出一种基于种子实体的挖掘方法,利用实体类别与候选实体之间的模板分布相似性来对候选实体进行排序。然而该挖掘方法忽略了命名实体... 基于用户查询日志的命名实体挖掘,目标是从用户查询日志中挖掘具有指定类别的命名实体。已有研究工作提出一种基于种子实体的挖掘方法,利用实体类别与候选实体之间的模板分布相似性来对候选实体进行排序。然而该挖掘方法忽略了命名实体具有歧义性、查询模板具有多义性和未标注实体信息,因而不能够有效的对候选实体进行排序。该文采用半监督话题模型,利用查询模板之间的关系来学习实体类别的模板分布,进而改善候选实体的排序效果。实验结果表明了该文提出方法的有效性。 展开更多
关键词 用户查询日志 命名实体挖掘 半监督话题模型
下载PDF
基于反馈报道的话题模型动态修正方法 被引量:3
4
作者 郑燕 鲁燃 赵爱华 《计算机应用》 CSCD 北大核心 2012年第5期1343-1346,共4页
在话题追踪过程中,由于给定的初始话题相关报道少,而且话题具有动态演变的特点造成话题模型不准确。针对这一问题,提出了利用动态阈值收集反馈报道构造话题修正模型,实现了话题模型的动态修正;同时结合命名实体能够更加有效地区分不同... 在话题追踪过程中,由于给定的初始话题相关报道少,而且话题具有动态演变的特点造成话题模型不准确。针对这一问题,提出了利用动态阈值收集反馈报道构造话题修正模型,实现了话题模型的动态修正;同时结合命名实体能够更加有效地区分不同话题的特性,提出了在修正话题模型时增大相关命名实体权重的方法,从而获得更准确的话题表示模型。实验结果表明,该方法能有效避免话题漂移现象,降低话题追踪过程中的漏报率和错报率。 展开更多
关键词 话题追踪 话题模型 动态阈值 命名 实体 反馈报道
下载PDF
基于概念相似度的话题自动检测方法 被引量:3
5
作者 刘嵩 张先飞 +1 位作者 李弼程 孙显著 《信息工程大学学报》 2010年第3期303-307,共5页
传统话题自动检测一般采用向量空间模型进行文本相似度计算,这种方法单纯依靠特征词进行话题检测,忽略了词之间的概念及由此而引发的概念相似度。针对此问题,文章首先对网络新闻文本进行事件元素提取,并将事件元素特征词分解为概念集合... 传统话题自动检测一般采用向量空间模型进行文本相似度计算,这种方法单纯依靠特征词进行话题检测,忽略了词之间的概念及由此而引发的概念相似度。针对此问题,文章首先对网络新闻文本进行事件元素提取,并将事件元素特征词分解为概念集合,通过计算概念集合的内积空间得到词之间的相似度,进而根据词相似度计算文本相似度,最后根据概念相似度计算实现话题的自动检测。实验结果表明,本方法能够有效提高话题检测的准确率和召回率。 展开更多
关键词 话题检测 概念 相似度 向量空间模型 命名实体
下载PDF
基于词向量聚类的中文微博产品命名实体识别 被引量:8
6
作者 王洪亮 《兰州理工大学学报》 CAS 北大核心 2017年第1期104-110,共7页
随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体... 随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体识别的重要作用.因此,考虑中文微博的特殊性,提出一种融合全局上下文信息的词向量特征选择方法,分别采用主题模型和神经网络词向量聚类两种方法获取深层语义信息,并结合层叠条件随机场进行中文微博的命名实体识别.实验结果表明,基于词向量聚类的中文微博产品命名实体识别方法取得了较好的效果. 展开更多
关键词 中文微博 命名实体 主题模型 神经网络 词向量
下载PDF
医学信息领域人工智能技术的主题漂移与未来展望——基于JCR 26本医学信息期刊文本的命名实体识别 被引量:1
7
作者 徐璐璐 杨嘉乐 康乐乐 《现代情报》 CSSCI 2022年第10期163-176,共14页
[目的/意义]在过去数十年中,医学信息研究领域被人工智能技术的重构。为厘清人工智能技术发展对医学信息研究领域带来的影响,本研究采用命名实体对医学信息领域人工智能技术进行识别,深入揭示其主题漂移特征与演化趋势,并提出3点未来展... [目的/意义]在过去数十年中,医学信息研究领域被人工智能技术的重构。为厘清人工智能技术发展对医学信息研究领域带来的影响,本研究采用命名实体对医学信息领域人工智能技术进行识别,深入揭示其主题漂移特征与演化趋势,并提出3点未来展望。[方法/过程]研究中首先采集了JCR中26本医学信息期刊题录信息,而后利用Vosviewer可视化分析人工智能技术的总体分布,在此基础上采用3种深度学习模型对人工智能技术进行命名实体识别和对比,最后分5个时间段梳理其主题漂移并提出3点展望。[结果/结论]Vosviewer可视化显示20年来人工智能技术在医学信息领域占据重要地位;3种深度学习模型对比发现,基于Attention的Bi LSTM-CRF模型的命名实体识别结果最优,F1值提高到88.40%;在5个时间段内,医学信息领域人工智能主流技术以高、中频词为代表围绕着传统型技术且相对稳定,分支技术以低频词为代表则出现深度学习等复杂性技术且随时间有所改变,并呈现直觉(经验发掘)→支持(深入理解)→策略(强化分析)→后推理(支撑决策)→前推理(提前预测);即整体进入较为理性和务实状态,尚缺爆发性变革但确有一定程度变化的主题漂移演化脉络。对此,本文从技术、应用和并行层面提出3点未来展望,以期加强对人工智能在处理医学信息上优、缺点的认知,为更精准地挖掘多源数据提供优质医学诊断具有理论和现实意义。 展开更多
关键词 医学信息 人工智能技术 命名实体 主题漂移 BERT模型 双向长短期记忆网络 条件随机场 注意力机制
下载PDF
基于双向量模型的话题跟踪 被引量:1
8
作者 刘海娟 刘文展 《无线电工程》 2016年第2期27-30,共4页
针对话题跟踪任务及话题自身的特点,研究了面向该任务的文本表示技术,通过对文本表示技术的研究来提高话题跟踪系统的跟踪性能。通过分析报道文本的内容特点,提出了采用双向量来表示报道文本,将文本中的命名实体进行了单独处理。对命名... 针对话题跟踪任务及话题自身的特点,研究了面向该任务的文本表示技术,通过对文本表示技术的研究来提高话题跟踪系统的跟踪性能。通过分析报道文本的内容特点,提出了采用双向量来表示报道文本,将文本中的命名实体进行了单独处理。对命名实体识别技术进行了简要介绍,详细描述了基于双向量模型的话题跟踪系统的构建。实验结果表明,在话题跟踪中,双向量的文本示方法比单向量的文本表示方法更准确。 展开更多
关键词 话题跟踪 双向量模型 命名实体 文本表示
下载PDF
大数据下的基于主题模型的社交网络链接预测 被引量:2
9
作者 骆梅柳 裴可锋 《计算机技术与发展》 2020年第4期36-40,共5页
计算机技术和网络的发展使得数据呈爆炸式的涌现,社交媒体不断融入到人们的生活中,社会网络分析已成为研究的热点。随着大数据时代的到来,对社交网络链接算法研究产生巨大影响,原有的基于网络结构的预测方法已经渐渐不适应现状。因此,... 计算机技术和网络的发展使得数据呈爆炸式的涌现,社交媒体不断融入到人们的生活中,社会网络分析已成为研究的热点。随着大数据时代的到来,对社交网络链接算法研究产生巨大影响,原有的基于网络结构的预测方法已经渐渐不适应现状。因此,提出了一种基于主题模型的社交网络链接预测方法。首先以微博社交网络为数据源,将实验网络分为测试集和训练集;其次利用主题模型得到用户的主题特征,结合命名实体集和用户联系特征集合得到用户的兴趣特征相似性度量,加上网络结构相似性从而得到用户节点相似度,进而对社交网络链接进行预测;最终使用链接预测最常用的评价体系AUC来评价链接预测方法的效果。通过实验验证,该方法的预测准确率更高。 展开更多
关键词 大数据 网络链接 主题模型 命名实体 联系特征
下载PDF
基于功能分解结构模型的工程知识自动提取与组织方法
10
作者 赵书彬 徐诚 《兵工学报》 EI CAS CSCD 北大核心 2020年第10期1950-1961,共12页
知识的提取与重用对提高工程设计效率、减少设计活动中的重复工作有着重要意义,针对工程领域知识形式的多样化、结构化等特点,提出一种基于功能分解结构模型的半自动化知识提取方法。通过功能分解完成结构模板的构建;采用命名实体识别... 知识的提取与重用对提高工程设计效率、减少设计活动中的重复工作有着重要意义,针对工程领域知识形式的多样化、结构化等特点,提出一种基于功能分解结构模型的半自动化知识提取方法。通过功能分解完成结构模板的构建;采用命名实体识别技术从工程文本中提取设计相关关键信息;进一步基于隐含狄利克雷分布模型完成文本主题聚类,在此基础上实现关键信息与功能分解结构的关联;在提出该方法与流程的基础上,完成原型系统的设计与开发,并以自动武器概念设计以及闭锁机构的设计为例展示了完整的功能分解以及知识提取过程。研究结果表明:半自动知识提取方法能有效地减少知识提取过程中的人为工作;知识重用适应工程领域的设计思路,可向设计者提供相关的领域知识。 展开更多
关键词 自动武器 知识提取 知识重用 命名实体识别 主题模型
下载PDF
基于主题提示的电力命名实体识别
11
作者 康雨萌 何玮 +2 位作者 翟千惠 程雅梦 俞阳 《计算机系统应用》 2022年第9期272-279,共8页
传统的命名实体识别方法可以凭借充足的监督数据实现较好的识别效果.而在针对电力文本的命名实体识别中,由于对专业知识的依赖,往往很难获取足够的监督数据,即存在少样本场景.同时,由于电力行业的精确性要求,相比于一般的开放领域任务,... 传统的命名实体识别方法可以凭借充足的监督数据实现较好的识别效果.而在针对电力文本的命名实体识别中,由于对专业知识的依赖,往往很难获取足够的监督数据,即存在少样本场景.同时,由于电力行业的精确性要求,相比于一般的开放领域任务,电力领域的实体类型更多,因此难度更大.针对这些挑战,本文提出了一个基于主题提示的命名实体识别方法.该方法将每个实体类型视为一个主题,并使用主题模型从训练语料中获取与类型相关的主题词.通过枚举实体跨度、实体类型、主题词以填充模板并构建提示句.使用生成式预训练语言模型对提示句排序,最终识别出实体与对应类型标签.实验结果表明,在中文电力命名实体识别数据集上,相比于几种传统命名实体方法,基于主题提示的方法取得了更好的效果. 展开更多
关键词 命名实体识别 预训练模型 提示模板 主题模型 电力语料
下载PDF
基于语义分析的政府开放数据平台隐私政策量化评价研究 被引量:1
12
作者 陈美 曹语嫣 《图书情报工作》 北大核心 2024年第1期65-76,共12页
[目的/意义]在政府开放数据持续推进的过程中,如何确保个人隐私的安全性成为重要课题。系统梳理政府开放数据平台隐私政策,为推动政府开放数据和隐私保护的平衡发展提供参考和借鉴。[方法/过程]以15个省级政府开放数据平台隐私政策(211... [目的/意义]在政府开放数据持续推进的过程中,如何确保个人隐私的安全性成为重要课题。系统梳理政府开放数据平台隐私政策,为推动政府开放数据和隐私保护的平衡发展提供参考和借鉴。[方法/过程]以15个省级政府开放数据平台隐私政策(211条政策细则)为研究样本,综合运用LDA2Vce主题模型、命名实体识别以及PMC指数模型,从“政策主题—政策客体—政策效力”3个维度对各省政府开放数据平台隐私政策进行系统性梳理和量化评价。[结果/结论]我国政府数据开放平台隐私政策存在政策主题有待细化、政策客体参与失衡、政策效力仍需提升等问题,并提出相应的对策建议。 展开更多
关键词 开放政府数据 隐私保护 LDA2Vec主题模型 命名实体识别 PMC指数模型
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部