期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
基于匹配词权重优化的中文命名实体识别方法
1
作者 戴高阳 孟小艳 +2 位作者 张容祯 陈燕红 汪洋 《计算机与数字工程》 2024年第2期521-527,共7页
命名实体识别是知识抽取中的重要任务之一,为了更有效地利用词典匹配信息,提出了基于匹配词权重优化的中文命名实体识别模型。首先利用与训练模型和分词工具获得每个字符的向量表示和词性标注;然后在词典中匹配潜在词组,跟据匹配词词频... 命名实体识别是知识抽取中的重要任务之一,为了更有效地利用词典匹配信息,提出了基于匹配词权重优化的中文命名实体识别模型。首先利用与训练模型和分词工具获得每个字符的向量表示和词性标注;然后在词典中匹配潜在词组,跟据匹配词词频和文档计数的优化权重对词组加权,结合字符向量得到字符的多特征融合表示;最后使用双向长短期记忆网络(Bi-directional Long-Short Term Memory,Bi-LSTM)网络进行训练,使用条件随机场(Conditional Random Field,CRF)完成标签推理得到识别实体。试验结果表明,该模型在Resume和影视-音乐-书籍数据集上的F1值分别达到了95.55%和85.39%,有效地提高了中文命名实体识别效果。 展开更多
关键词 命名实体识别 循环神经网络 条件随机场 词典匹配 权重优化
下载PDF
基于上下文语义增强的实体关系联合抽取 被引量:1
2
作者 雷景生 剌凯俊 +1 位作者 杨胜英 吴怡 《计算机应用》 CSCD 北大核心 2023年第5期1438-1444,共7页
基于span的联合抽取模型在实体和关系抽取(RE)任务中共享实体span的语义表示,能有效降低流水线模型带来的级联误差,但现有模型无法充分地将上下文信息融入实体和关系的表示中。针对上述问题,提出一个基于上下文语义增强的实体关系联合抽... 基于span的联合抽取模型在实体和关系抽取(RE)任务中共享实体span的语义表示,能有效降低流水线模型带来的级联误差,但现有模型无法充分地将上下文信息融入实体和关系的表示中。针对上述问题,提出一个基于上下文语义增强的实体关系联合抽取(JERCE)模型。首先通过对比学习的方法获取句子级文本和实体间文本的语义特征表示;然后,将该表示加入实体和关系的表示中,对实体关系进行联合预测;最后,动态调整两个任务的损失以使联合模型的整体性能最优化。在公共数据集CoNLL04、ADE和ACE05上进行实验,结果显示JERCE模型与触发器感知记忆流框架(TriMF)相比,实体识别F1值分别提升了1.04、0.13和2.12个百分点,RE的F1值则分别提升了1.19、1.14和0.44个百分点。实验结果表明,JERCE模型可以充分获取上下文中的语义信息。 展开更多
关键词 命名实体识别 关系抽取 对比学习 文本span 加权损失
下载PDF
基于损失函数优化的命名实体识别算法研究
3
作者 樊康男 沈春锋 王池社 《金陵科技学院学报》 2023年第3期16-23,共8页
命名实体识别(NER)算法在解码实体时,高标签预测精度可能解码出低实体预测精度。针对此问题,选择W2NER作为基模型,对其交叉熵损失函数进行优化,提出了RCL-NER算法。该算法在保证全局关系标签高预测精度的同时,实现了较高的关系实体转换... 命名实体识别(NER)算法在解码实体时,高标签预测精度可能解码出低实体预测精度。针对此问题,选择W2NER作为基模型,对其交叉熵损失函数进行优化,提出了RCL-NER算法。该算法在保证全局关系标签高预测精度的同时,实现了较高的关系实体转换率。算法在两个广泛使用的公共数据集上的实验结果表明,在不连续数据集CADEC中,实体F1值最多提高了1.81个百分点,关系实体转换率最多提高了1.52个百分点;在连续数据集CoNLL-2003中,实体F1值最多提高了0.36个百分点,关系实体转换率最多提高了0.11个百分点。提出的RCL-NER算法通过对损失函数进行优化,提高了实体的预测精度。 展开更多
关键词 命名实体识别 损失函数 关系解码 权重因子
下载PDF
基于姓氏驱动的中国姓名自动识别方法 被引量:8
4
作者 张仰森 徐波 +1 位作者 曹元大 宗成庆 《计算机工程与应用》 CSCD 北大核心 2003年第4期62-65,共4页
文章基于姓氏驱动和上下文信息,利用从真实姓名样本库和文本语料库中得到的大量统计数据,提出了一种中国姓名识别的分级加权筛选模型,利用基于这一模型的识别算法和冲突解决策略,实现中国人名的自动识别。通过从《人民日报》随机抽取的... 文章基于姓氏驱动和上下文信息,利用从真实姓名样本库和文本语料库中得到的大量统计数据,提出了一种中国姓名识别的分级加权筛选模型,利用基于这一模型的识别算法和冲突解决策略,实现中国人名的自动识别。通过从《人民日报》随机抽取的500个含有人名的句子进行测试,表明:中国姓名召回率达89.2%,精确率达93.15%。 展开更多
关键词 人名识别知识库 中国姓名识别 分级加权模型 姓氏驱动 自动识别
下载PDF
基于颜色属性直方图的尺度目标跟踪算法研究 被引量:22
5
作者 毕笃彦 库涛 +2 位作者 查宇飞 张立朝 杨源 《电子与信息学报》 EI CSCD 北大核心 2016年第5期1099-1106,共8页
利用目标颜色信息的跟踪算法,容易受到环境光照、尺度变化、相似背景等因素的干扰,导致跟踪任务失败。为了克服以上问题,该文提出一种基于颜色属性空间的鲁棒尺度目标跟踪算法。该算法首先将原始的RGB颜色空间映射到颜色属性(Color Name... 利用目标颜色信息的跟踪算法,容易受到环境光照、尺度变化、相似背景等因素的干扰,导致跟踪任务失败。为了克服以上问题,该文提出一种基于颜色属性空间的鲁棒尺度目标跟踪算法。该算法首先将原始的RGB颜色空间映射到颜色属性(Color Names,CN)空间,减少目标颜色在跟踪过程中受环境变化影响。然后采用一种背景加权约束的颜色属性直方图,来抑制相似背景的干扰。最后,为了解决目标尺度变化带来的影响,先用梯度上升法粗略估计尺度,再用约束项精确求解尺度,并利用反向一致性检验,进一步提高尺度估计的准确性。该文选取了5段典型视频进行实验,并与相关算法进行比较。结果表明所提算法能够消除环境光照、阴影、相似背景和尺度变化等因素所带来的影响,在中心位置误差和跟踪成功率性能指标上,优于其它算法。 展开更多
关键词 目标跟踪 颜色属性 背景加权抑制 尺度自适应
下载PDF
多社区网络上的命名博弈
6
作者 郭东伟 孟翔燕 +1 位作者 刘淼 侯彩芳 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期487-498,共12页
为了模仿人类对新物体认知和命名的过程,提出了一种新型的命名博弈模型,它通过词汇的权重表示个体的认知程度,低权重词汇被删除模拟个体有限记忆的过程.实验发现,在单社区网络上,所有个体的词汇最终能够统一,通过总词汇数、不同词汇数... 为了模仿人类对新物体认知和命名的过程,提出了一种新型的命名博弈模型,它通过词汇的权重表示个体的认知程度,低权重词汇被删除模拟个体有限记忆的过程.实验发现,在单社区网络上,所有个体的词汇最终能够统一,通过总词汇数、不同词汇数和平均协议成功率的分析解释了新个体命名的演化过程.衰减因子和删除阈值的取值对于演化速度影响较大,当它们之间存在线性关系时演化收敛较快.通过将该模型应用到多社区网络模型上,发现收敛词汇数可能不唯一,会与社区数相同,且收敛词汇数的稳定性与网络社区化强度和社区内节点的平均度有关,而与社区内节点数无关.最后,使用微分动力学的方法对这种情况进行了定量分析. 展开更多
关键词 多社区网络 命名博弈 词汇权重 演化 收敛词汇
下载PDF
中文名实体识别中的特征组合与特征融合的比较 被引量:7
7
作者 赵健 王晓龙 关毅 《计算机应用》 CSCD 北大核心 2005年第11期2647-2649,共3页
先分析了最大熵模型常用的特征线性组合方法中的权值偏置问题,然后提出了在线性组合之前,对特征进行融合,并根据融合特征和目标类别之间的互信息选择有效复合特征的方法。通过在包含2000个人名的语料库上的测试,表明特征融合能有效地提... 先分析了最大熵模型常用的特征线性组合方法中的权值偏置问题,然后提出了在线性组合之前,对特征进行融合,并根据融合特征和目标类别之间的互信息选择有效复合特征的方法。通过在包含2000个人名的语料库上的测试,表明特征融合能有效地提高名实体识别的精度和召回率。 展开更多
关键词 名实体识别 特征组合 权值偏置 特征融合 最大熵模型
下载PDF
我国省级政府门户网站搜索引擎优化调查分析 被引量:2
8
作者 陈玲霞 谢明生 熊洁 《情报探索》 2013年第10期78-81,共4页
采用直接访问和查询工具调研的方式,对全国31个省级政府门户网站的搜索引擎优化效果、站内优化和站外优化3个方面展开调研和统计分析。建议应增强搜索引擎优化意识,从站内和站外两方面实施搜索引擎优化策略,以提高政府门户网站的访问率... 采用直接访问和查询工具调研的方式,对全国31个省级政府门户网站的搜索引擎优化效果、站内优化和站外优化3个方面展开调研和统计分析。建议应增强搜索引擎优化意识,从站内和站外两方面实施搜索引擎优化策略,以提高政府门户网站的访问率和用户体验度,更好地为公众服务。 展开更多
关键词 省级政府门户网站 搜索引擎优化 权重 域名 反向链接
下载PDF
面向互联网舆情的热词分析技术 被引量:17
9
作者 李渝勤 孙丽华 《中文信息学报》 CSCD 北大核心 2011年第1期48-53,59,共7页
热词是一种网络词汇现象,反映了某一特定时空范围内人们普遍关注的问题。该文对热词分析的两项关键技术——热词发现和热词关联技术进行了深入的研究。在热词发现阶段,首先采用命名实体识别技术和高频串统计技术进行短语串的挖掘,继而... 热词是一种网络词汇现象,反映了某一特定时空范围内人们普遍关注的问题。该文对热词分析的两项关键技术——热词发现和热词关联技术进行了深入的研究。在热词发现阶段,首先采用命名实体识别技术和高频串统计技术进行短语串的挖掘,继而采用基础权值和波动权值两项指标进行热度权值的计算。在热词关联阶段,按热词权值高低进行热词类的划分,通过同现率的原则确定热词类之间的关联计算。该文所采用的方法已经成功应用到TRS舆情监测系统的热点发现模块。 展开更多
关键词 热词 命名实体识别 热度计算 波动权值 词群关系
下载PDF
仫佬语借词浅说 被引量:2
10
作者 银云忠 《河池学院学报》 2006年第3期110-113,共4页
本文对仫佬语的原有词汇和汉语借词作了一些粗浅的探讨,并以一些量词和地名名词作为实例,证明汉语借词是仫佬语能够保持和发展的主要因素及其活力所在。
关键词 仫佬语 借词 度量衡 地名名词
下载PDF
平淡出奇巧 简明蕴繁复——鲁迅《风波》重量人名巧用 被引量:2
11
作者 张江元 《重庆交通学院学报(社会科学版)》 2004年第4期73-75,共3页
鲁迅《风波》中七斤一家的重量人名是其小说中常用的数字人名之一种。作者结合秤的度量标准的变化和人的生理规律,经过仔细推算确定、使用的重量人名,在表面的民俗现象之下,暗示出辛亥革命时期社会经济凋敝,民众饱受通货膨胀之苦的生存... 鲁迅《风波》中七斤一家的重量人名是其小说中常用的数字人名之一种。作者结合秤的度量标准的变化和人的生理规律,经过仔细推算确定、使用的重量人名,在表面的民俗现象之下,暗示出辛亥革命时期社会经济凋敝,民众饱受通货膨胀之苦的生存现实。这与小说反映的民众的精神意识相辅相成,完整勾勒了辛亥革命时期的社会风貌,从而在经济状况这一层面表达了鲁迅对社会变革的深重忧虑。 展开更多
关键词 《风波》 鲁迅 小说 平淡 社会风貌 人名 精神意识 简明 作者 现象
下载PDF
点状地名信息的加权泰森多边形检索法 被引量:7
12
作者 张宇 王琦 +1 位作者 吴文周 苏奋振 《测绘学报》 EI CSCD 北大核心 2017年第11期1919-1926,共8页
鉴于地名库中多数地名仅以中心点坐标形式记录其空间位置信息,缺乏其空间范围的具体描述,造成地名检索中的片面性和局限性,本文在深入分析地名及其空间属性、空间关系的基础上,考虑同类型地名的不同性质在检索中的重要作用,利用泰森多... 鉴于地名库中多数地名仅以中心点坐标形式记录其空间位置信息,缺乏其空间范围的具体描述,造成地名检索中的片面性和局限性,本文在深入分析地名及其空间属性、空间关系的基础上,考虑同类型地名的不同性质在检索中的重要作用,利用泰森多边形在地名边界近似中的优势,提出了针对点状地名信息的加权泰森多边形检索法,依据同类型地名的面积属性作为权重指标构建泰森多边形,以近似表达地名的空间范围,进而描述地名间的各类空间关系;并从拓扑关系、方位关系与距离关系3个方面给出了具体公式以计算地名间的空间相似性;最后以行政区划边界近似与检索为例验证该方法。试验结果表明,该方法可较好地近似表达地名空间范围及空间关系,增强了检索词与地理信息资源在空间位置上的相似性度量,检索结果优于传统方法。 展开更多
关键词 加权泰森多边形 地名信息检索 地名 边界近似 空间关系相似性
下载PDF
度量衡与中国早期哲学 被引量:1
13
作者 闫月珍 《江西师范大学学报(哲学社会科学版)》 CSSCI 北大核心 2022年第2期63-72,共10页
中国早期哲学的言说,在一定程度上通过隐喻得以实现。其中,关于道德和法度的描述,主要通过作为器物的度量衡得以实现。首先,度、量主要用以隐喻技艺和制作中的法式;其次,权、衡、准主要用以隐喻具有平衡意义的社会治理现象;再者,表、律... 中国早期哲学的言说,在一定程度上通过隐喻得以实现。其中,关于道德和法度的描述,主要通过作为器物的度量衡得以实现。首先,度、量主要用以隐喻技艺和制作中的法式;其次,权、衡、准主要用以隐喻具有平衡意义的社会治理现象;再者,表、律用以隐喻月令、时间和社会规范。在这些隐喻中,度量衡被儒家、法家、墨家和道家各家加以发挥,用以表述其治国理念。在探寻社会秩序话语的过程中,人们参照了度量衡的物理功能,引申出了社会意义,由此确立了道德和法度领域的基本表述方式。 展开更多
关键词 度量衡 隐喻 制名
下载PDF
小麦HMW-GS的命名、遗传及对品质的贡献 被引量:2
14
作者 郑威 刘卫平 汪盛松 《绿色科技》 2013年第12期71-76,共6页
为避免关于小麦高分子量谷蛋白亚基(HMW-GS)方面的重复研究,开拓新的研究思路,在阐述小麦HMW-GS的命名原则、遗传特点的基础上,综述了小麦HMW-GS对小麦品质贡献方面的研究成果。
关键词 小麦 高分子量谷蛋白亚基(HMW—GS) 命名 遗传 品质
下载PDF
命名数据网络中的一种主动拥塞控制策略 被引量:3
15
作者 王文静 雒江涛 《计算机工程与应用》 CSCD 北大核心 2018年第10期115-120,共6页
为解决命名数据网络(Named Data Networking,NDN)中的拥塞控制问题,在加权公平排队(Weighted Fair Queuing,WFQ)算法的基础上,提出了基于即时调整兴趣包发送速率的名字加权公平排队(Name Weighted Fair Queuing,NWFQ)算法。当网络拥塞时... 为解决命名数据网络(Named Data Networking,NDN)中的拥塞控制问题,在加权公平排队(Weighted Fair Queuing,WFQ)算法的基础上,提出了基于即时调整兴趣包发送速率的名字加权公平排队(Name Weighted Fair Queuing,NWFQ)算法。当网络拥塞时,利用基于令牌桶算法的速率限制机制对超速流进行降速惩罚,同时更新兴趣包中的拥塞信息域并将其逐跳反馈给下游路由器;利用数据包将拥塞信息反馈给请求端,请求端据此调整兴趣包的发送速率,从而解决网络拥塞。基于ndn SIM的仿真结果表明,该算法能有效提升瓶颈链路利用率并接近95%,同时保证较低的丢包率和平均流完成时间。 展开更多
关键词 命名数据网络 拥塞控制 名字加权公平排队算法 惩罚函数 显式反馈
下载PDF
融合词典特征的Bi-LSTM-WCRF中文人名识别 被引量:7
16
作者 成于思 施云涛 《中文信息学报》 CSCD 北大核心 2020年第4期69-76,共8页
受限于标注语料的领域和规模以及类别不均衡,中文人名识别性能偏低。相比人名识别训练语料,人名词典获取较为容易,利用词典提升人名识别性能有待进一步研究。该文提取人名词典特征,融入到双向长短期记忆(Bi-LSTM)网络模型中,在损失函数... 受限于标注语料的领域和规模以及类别不均衡,中文人名识别性能偏低。相比人名识别训练语料,人名词典获取较为容易,利用词典提升人名识别性能有待进一步研究。该文提取人名词典特征,融入到双向长短期记忆(Bi-LSTM)网络模型中,在损失函数中提高人名标签权重,设计加权条件随机场(WCRF)。从人名词典中获取姓和名相关的特征信息,Bi-LSTM网络捕获句子中上下文信息,WCRF提高人名识别的召回率。在《人民日报》语料和工程法律领域语料上进行实验,结果表明:在领域测试语料上,与基于隐马尔可夫模型的方法相比,人名识别的F1值提高18.34%,与传统Bi-LSTM-CRF模型相比,召回率提高15.53%,F1提高8.83%。WCRF还可以应用到其他类别不均衡的序列标注或分类问题中。 展开更多
关键词 人名识别 双向长短期记忆网络 加权条件随机场 词典特征
下载PDF
基于查询热度和实体识别的查询推荐 被引量:1
17
作者 任育伟 吕学强 +1 位作者 李卓 徐丽萍 《计算机应用研究》 CSCD 北大核心 2016年第3期657-660,共4页
查询推荐已经成为改善用户搜索体验和提高搜索引擎服务质量的重要方法,提高查询推荐串的质量和用户满意度显得尤为迫切。已有研究方法在相似度计算上忽略了命名实体的重要性和搜索日志整体的信息量度,通过对查询串进行聚类后的热度评估... 查询推荐已经成为改善用户搜索体验和提高搜索引擎服务质量的重要方法,提高查询推荐串的质量和用户满意度显得尤为迫切。已有研究方法在相似度计算上忽略了命名实体的重要性和搜索日志整体的信息量度,通过对查询串进行聚类后的热度评估,提取查询串中的命名实体;然后融合查询串热度信息和命名实体特征到相似度计算公式中,提出了一种新的查询推荐方法。该方法所得结果的满意度平均值均比最新的三种方法的推荐结果值高,表明了该方法的有效性;该方法在相似度计算上利用了识别出的命名实体,同时考虑了推荐串在全局日志中的热度,提高了推荐词的总体质量,但方法局限于提取特征的精确度,有赖于特征进一步的丰富和优化。 展开更多
关键词 聚类 特征提取 热度 命名实体 模板权重 查询推荐
下载PDF
一种基于共坐标上升算法的人名识别方法 被引量:2
18
作者 戴播 毛奇 袁春风 《计算机应用与软件》 CSCD 2010年第4期7-9,22,共4页
共坐标上升算法(coordinate ascent algorithm)是一种迭代优化技术,可以用来指导特征权值的训练。提出一种基于该算法的中国人名识别方法,避免了已有的一些方法中人为指定特征权值的问题,更好地体现特征之间存在的隐含关系。该方法从基... 共坐标上升算法(coordinate ascent algorithm)是一种迭代优化技术,可以用来指导特征权值的训练。提出一种基于该算法的中国人名识别方法,避免了已有的一些方法中人为指定特征权值的问题,更好地体现特征之间存在的隐含关系。该方法从基础语料中获取特征库及成名概率词典,在训练语料上提取相应特征后,采用共坐标上升学习算法训练得到特征权重以及成名阈值参数,运用学习得到的各参数对普通文本中的中国人名进行识别。提出的方法无需对训练语料进行人工标注,在人名识别时也无需进行分词和词性标注处理,代价低、性能优良、有较好的实用性,在开放测试集上F1值达到93.02%。 展开更多
关键词 共坐标上升算法 人名识别 特征权重训练
下载PDF
一种多源领域自适应命名实体识别方法 被引量:1
19
作者 李佳芮 刘健 +2 位作者 陈钰枫 徐金安 张玉洁 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第4期617-623,共7页
领域自适应是解决低资源问题的一种通用方式,可应用于各种自然语言处理的任务中.当前针对命名实体识别(named entity recognition,NER)任务的领域自适应研究通常从单一的源领域迁移到目标领域,在目标领域和源领域相近的情况下,这种方式... 领域自适应是解决低资源问题的一种通用方式,可应用于各种自然语言处理的任务中.当前针对命名实体识别(named entity recognition,NER)任务的领域自适应研究通常从单一的源领域迁移到目标领域,在目标领域和源领域相近的情况下,这种方式能够取得较好的识别效果,但是在目标领域与源领域相关度不高的情况下,单一领域迁移方式存在很大的局限性.针对这一问题,提出一种融合多源领域贡献度加权的自适应NER模型(multi-domain adaptation NER model based on importance weighting,MDAIW).1)通过多个领域的知识迁移来提升目标领域的实体识别性能;2)根据不同领域及其领域内样本对目标领域的重要性,计算领域贡献度;3)将领域贡献度引入到NER模型中,以此来实现更好的模型领域适应性.最终在多个目标领域上进行实验,性能皆优于当前性能最好的方法,验证了模型的有效性. 展开更多
关键词 命名实体识别 领域自适应 贡献度加权 多源
下载PDF
基于多特征融合和图匹配的维汉句子对齐 被引量:2
20
作者 倪耀群 许洪波 程学旗 《中文信息学报》 CSCD 北大核心 2016年第4期124-133,共10页
维吾尔语新闻网页与对应的中文翻译网页在内容上往往并非完全可比,主要表现为双语句子序列的错位甚至部分句子缺失,这给维汉句子对齐造成了困难。此外,作为新闻要素的人名地名很多是未登录词,这进一步增加了维汉句子对齐的难度。为了提... 维吾尔语新闻网页与对应的中文翻译网页在内容上往往并非完全可比,主要表现为双语句子序列的错位甚至部分句子缺失,这给维汉句子对齐造成了困难。此外,作为新闻要素的人名地名很多是未登录词,这进一步增加了维汉句子对齐的难度。为了提高维汉词汇的匹配概率,作者自动提取中文人名、地名并翻译为维吾尔译名,构造双语名称映射表并加入维汉双语词典。然后用维文句中词典词对应的中文译词在中文句中进行串匹配,以避免中文分词错误,累计所有匹配词对得到双语句对的词汇互译率。最后融合数字、标点、长度特征计算双语句对的相似度。在所有双语句子相似度构成的矩阵上,使用图匹配算法寻找维汉平行句对,在900个句对上最高达到95.67%的维汉对齐准确率。 展开更多
关键词 句子对齐 人名、地名翻译 多特征融合 二部图最佳匹配
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部