期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于实体级联类型的中文关系抽取管道模型
1
作者 饶东宁 吴倩梅 黄观琚 《计算机应用研究》 CSCD 北大核心 2024年第9期2685-2689,共5页
端到端实体关系抽取任务可以被分解成命名实体识别和关系抽取两个子任务,最近的工作多将这两个子任务联合建模。现有的流水线方法验证了在关系模型中融合实体类型信息的重要性和管道模型的潜力,但是它们忽略了文本中的某些实体可能同时... 端到端实体关系抽取任务可以被分解成命名实体识别和关系抽取两个子任务,最近的工作多将这两个子任务联合建模。现有的流水线方法验证了在关系模型中融合实体类型信息的重要性和管道模型的潜力,但是它们忽略了文本中的某些实体可能同时具有多个类型,这种多义性的情况在中文数据集中尤为常见。为解决上述问题,提出了一种实体级联类型机制,并在此基础上开发了一个更适合中文关系抽取的管道模型,取名为CENTRELINE。该流水线方法的实体模块是一个词-词关系分类模型,它以BERT和双向LSTM作为编码器、经过条件层归一化后引入空洞卷积,最后通过级联类型预测器输出实体及其级联类型。关系模块的输入仅由实体模块构建。该方法在DuIE1.0、DuIE2.0和CMeIE-V2数据集上的F_(1)值分别比基线方法提高了7.23、6.93和8.51百分点,并在DuIE1.0和DuIE2.0数据集上都实现了最先进的性能。消融实验表明,提出的级联类型机制和根据中文语言特征改进的管道模型,均对关系抽取性能具有明显的促进作用。 展开更多
关键词 中文关系抽取 管道模型 空洞卷积 实体级联类型
下载PDF
中文重叠关系抽取的动态分层级联标记模型
2
作者 张利 张欢欢 袁玉波 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期450-458,共9页
构建了动态分层级联标记中文重叠关系抽取(RWG-LSA)模型:首先基于预训练语言模型和gated机制构建了动态字词融合特征学习模型(RWG),有效避免了主体标记模块的特征缺失和无法并行计算等问题;其次引入动态权局部自注意力(LSA),自主学习到... 构建了动态分层级联标记中文重叠关系抽取(RWG-LSA)模型:首先基于预训练语言模型和gated机制构建了动态字词融合特征学习模型(RWG),有效避免了主体标记模块的特征缺失和无法并行计算等问题;其次引入动态权局部自注意力(LSA),自主学习到主体层面的语义特征;最后在有效融合了输入序列的全局和主体局部特征的基础上,实现RWG-LSA模型对文本中实体对和关系的抽取。在SKE中文数据集上的实验表明,本模型对重叠关系抽取有显著效果,F1值达到了82.44%。 展开更多
关键词 文本挖掘 中文重叠关系抽取 动态字词融合 预训练语言模型 gated机制 局部自注意力机制
下载PDF
基于大语言模型的中文科技文献标注方法 被引量:2
3
作者 杨冬菊 黄俊涛 《计算机工程》 CAS CSCD 北大核心 2024年第9期113-120,共8页
高质量的标注数据是中文科技文献领域自然语言处理任务的重要基石。针对目前缺乏中文科技文献的高质量标注语料以及人工标注质量参差不齐且效率低下的问题,提出一种基于大语言模型的中文科技文献标注方法。首先,制定适用于多领域中文科... 高质量的标注数据是中文科技文献领域自然语言处理任务的重要基石。针对目前缺乏中文科技文献的高质量标注语料以及人工标注质量参差不齐且效率低下的问题,提出一种基于大语言模型的中文科技文献标注方法。首先,制定适用于多领域中文科技文献的细粒度标注规范,明确标注实体类型以及标注粒度;其次,设计结构化文本标注提示模板和生成解析器,将中文科技文献标注任务设置成单阶段单轮问答过程,将标注规范和带标注文本填充至提示模板中相应的槽位以构建任务提示词;然后,将提示词注入到大语言模型中生成包含标注信息的输出文本,经由解析器解析得到结构化的标注数据;最后,利用基于大语言模型的提示学习生成中文科技文献实体标注数据集ACSL,其中包含分布在48个学科的10000篇标注文档以及72536个标注实体,并在ACSL上提出基于RoBERTa-wwm-ext的3个基准模型。实验结果表明,BERT+Span模型在长跨度的中文科技文献实体识别任务中表现最佳,F1值为0.335。上述结果可作为后续研究的测试基准。 展开更多
关键词 文本标注方法 中文科技文献 大语言模型 提示学习 信息抽取
下载PDF
基于语义的中文事件触发词抽取联合模型 被引量:36
4
作者 李培峰 周国栋 朱巧明 《软件学报》 EI CSCD 北大核心 2016年第2期280-294,共15页
中文事件触发词抽取是一项具有挑战性的任务.针对中文事件触发词抽取中存在的事件论元语义信息难以获取以及部分贫信息事件实例难以抽取的问题,提出了基于语义的中文事件触发词抽取联合学习模型.首先,根据中文句子结构灵活和句法成分多... 中文事件触发词抽取是一项具有挑战性的任务.针对中文事件触发词抽取中存在的事件论元语义信息难以获取以及部分贫信息事件实例难以抽取的问题,提出了基于语义的中文事件触发词抽取联合学习模型.首先,根据中文句子结构灵活和句法成分多省略的特点,提出了基于模式匹配的核心论元和辅助论元抽取方法,这两类论元可以较好地表示论元语义,进一步提高中文事件触发词抽取性能;其次,根据同一文档中关联事件实例间存在的高度一致性,构造了一个关联事件语义驱动的中文事件触发词识别和类型分配二维联合模型,用于抽取贫信息事件实例.在ACE 2005中文语料上的实验结果表明:与现有最好的中文事件抽取系统相比,所提出方法的性能得到了明显提升. 展开更多
关键词 中文触发词抽取 论元语义 关联事件语义 联合学习模型 核心论元
下载PDF
基于动词论元结构的中文事件抽取方法 被引量:11
5
作者 肖升 何炎祥 《计算机科学》 CSCD 北大核心 2012年第5期161-164,176,共5页
为将动词与其论元间的约束规则应用于事件抽取,在事件模型中引入动词论元结构形成模型变体,围绕模型变体提出基于动词论元结构的中文事件抽取方法。此方法首先对待抽取文本进行预处理和句法分析,得出其语法结构;然后将所得结构与动词论... 为将动词与其论元间的约束规则应用于事件抽取,在事件模型中引入动词论元结构形成模型变体,围绕模型变体提出基于动词论元结构的中文事件抽取方法。此方法首先对待抽取文本进行预处理和句法分析,得出其语法结构;然后将所得结构与动词论元结构属性进行比较,找出每个动词支配的论元;最后利用论元的语义属性确定与之对应的事件特征并由此完成事件抽取。实验结果显示,此方法能有效提高抽取系统的性能和效率。 展开更多
关键词 动词 论元结构 事件特征 触发词 事件模型 中文事件 信息抽取
下载PDF
HMM模型和句法分析相结合的事件属性信息抽取 被引量:10
6
作者 吴家皋 周凡坤 张雪英 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2014年第1期30-34,共5页
自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向,其中信息抽取是近年来新兴起的一个研究领域.由于汉语自身结构松散、语法语义灵活等特点,使得中文文本中信息抽取具有较大的难度.本文提出句法分析和隐马尔科夫模型相... 自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向,其中信息抽取是近年来新兴起的一个研究领域.由于汉语自身结构松散、语法语义灵活等特点,使得中文文本中信息抽取具有较大的难度.本文提出句法分析和隐马尔科夫模型相结合的事件属性抽取方法,其主要思想是先利用句法分析对中文文本进行分析,将得到的句法结构交给隐马尔科夫模型进行学习得到一个抽取模型,然后再由此模型对中文文本进行抽取.实验表明,该方法具有较高的准确率和召回率. 展开更多
关键词 自然语言处理 中文文本信息抽取 隐马尔科夫模型 句法分析 触发词
下载PDF
基于语义扩展模型的中文网页关键词抽取 被引量:4
7
作者 汪洋 帅建梅 《计算机工程》 CAS CSCD 2012年第22期163-166,共4页
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方... 提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。 展开更多
关键词 中文网页关键词抽取 语义扩展模型 邻接变化数 聚类算法 n—gram语言模型
下载PDF
基于语言模型增强的中文关系抽取方法 被引量:2
8
作者 薛平 李影 吴中海 《中文信息学报》 CSCD 北大核心 2023年第7期32-41,共10页
中文关系抽取任务旨在识别中文文本中实体对的语义关系。基于预训练语言模型的方法达到了当前最优结果。得益于大规模的训练语料,预训练语言模型能够学习到训练语料中的语言知识,提高了中文关系抽取模型的泛化能力,但其庞大的参数规模... 中文关系抽取任务旨在识别中文文本中实体对的语义关系。基于预训练语言模型的方法达到了当前最优结果。得益于大规模的训练语料,预训练语言模型能够学习到训练语料中的语言知识,提高了中文关系抽取模型的泛化能力,但其庞大的参数规模需要消耗大量的存储和计算资源。为此,该文提出了基于语言模型增强的中文关系抽取方法,该方法基于多任务学习范式,促进轻量级的中文关系抽取模型学习预训练语言模型中的语言知识。该文在三个中文关系抽取数据集上的实验结果表明了基于语言模型增强的中文关系抽取方法的有效性,仅使用预训练语言模型1%的参数即可达到其95%的性能。 展开更多
关键词 中文关系抽取 预训练语言模型 语言模型增强
下载PDF
结合统计特征和图模型的半监督式中文关键短语抽取方法 被引量:2
9
作者 谢海华 陈雪飞 +2 位作者 都仪敏 吕肖庆 汤帜 《中文信息学报》 CSCD 北大核心 2022年第4期57-65,共9页
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型... 关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型,该模型采用预训练语言模型来表征短语及文章,以减少算法对大量标注训练数据的依赖;进而提出图模型描述候选短语间的相似性空间并迭代计算各短语的重要度;同时结合了多项统计特征来进一步提高短语评估的准确率。对比实验表明,该文提出的方法在中文关键短语抽取方面比基线方法具有明显的提升效果。 展开更多
关键词 中文关键短语抽取 半监督式方法 模型 统计特征
下载PDF
基于句法分析和答案分类的中文问答系统 被引量:14
10
作者 孙昂 江铭虎 +2 位作者 贺一帆 陈林 袁保宗 《电子学报》 EI CAS CSCD 北大核心 2008年第5期833-839,共7页
本文根据疑问词和谓语的距离信息对问句进行细致的句型分析,然后对答句进行浅层句法分析,在此基础上,抽取出问题特征集、答句特征集和组合特征集作为分类特征,引入最大熵模型和支持向量机训练答案抽取分类器.基于不同特征组合训练得到... 本文根据疑问词和谓语的距离信息对问句进行细致的句型分析,然后对答句进行浅层句法分析,在此基础上,抽取出问题特征集、答句特征集和组合特征集作为分类特征,引入最大熵模型和支持向量机训练答案抽取分类器.基于不同特征组合训练得到的分类器在五类事实性问题上进行了测试,其F值分别达到70.87%和85.75%. 展开更多
关键词 中文问答系统 句法分析 答案抽取 最大熵模型 支持向量机
下载PDF
基于字典匹配和支持向量机的中文科技论文元数据抽取 被引量:3
11
作者 刘宇 钱跃 《工程数学学报》 CSCD 北大核心 2012年第4期586-592,共7页
针对中文PDF格式论文元数据抽取问题,对大量中文科技论文进行分析归纳,总结出中文论文元数据的互不包含性、排它性、重复性、顺序性和部分确定性,并据此定义简单元数据和复杂元数据的概念,应用字典匹配和支持向量机模型抽取中文科技论... 针对中文PDF格式论文元数据抽取问题,对大量中文科技论文进行分析归纳,总结出中文论文元数据的互不包含性、排它性、重复性、顺序性和部分确定性,并据此定义简单元数据和复杂元数据的概念,应用字典匹配和支持向量机模型抽取中文科技论文元数据.实验结果表明,该模型的综合性能指标在96%以上,优于条件随机场模型和隐马尔科夫模型. 展开更多
关键词 元数据抽取 抽取模型 字典匹配 支持向量机 中文科技论文
下载PDF
基于中文字邻接图的食品抽检公告实体及关系联合抽取 被引量:3
12
作者 郝志刚 刘冲 秦丽 《农业工程学报》 EI CAS CSCD 北大核心 2023年第14期283-292,共10页
在对中文食品抽检公告进行实体与关系抽取时,常会出现包含大量食品名称与食品分类的长句,现有深度学习模型在进行实体关系抽取时,只将文本看作一串字词序列来编码,当句子较长且词间距离过大时,词间强依赖关系的学习效果会减弱。而这一... 在对中文食品抽检公告进行实体与关系抽取时,常会出现包含大量食品名称与食品分类的长句,现有深度学习模型在进行实体关系抽取时,只将文本看作一串字词序列来编码,当句子较长且词间距离过大时,词间强依赖关系的学习效果会减弱。而这一问题在食品领域的实体关系抽取中少有被关注,所以该研究提出基于改进中文依存句法树与多特征融合的实体关系联合抽取模型(TAG-JE),该模型将词间具有的强依赖关系通过句法依存树建立关系图,再根据中文BERT编码的字处理模式,将关系图转化为字邻接图,再由图神经网络学习字邻接图的结构特征,最后将之与BERT提取的文本上下文特征融合,融合权重通过门网络结构自主调节,以获得公告文本的多特征融合特征表示。获得的融合特征将采用主流的联合抽取模型进行实体与关系的抽取,并在关系判断时使用强化学习训练的关系选择器来优化关系的嵌入信息,以提升联合抽取方法在关系判断上的准确率。为了验证TAG-JE的效果,将其与主流的深度学习模型在自建的非结构化食品抽检公告数据集上进行了抽取效果对比,结果证明TAG-JE的精确率、召回率与F1值分别达到90.86%,90.50%,90.68%,相对其他基线模型都有较大提升,证明了其在中文食品抽检文档中的知识挖掘能力。针对中文公共数据集的试验中,该模型相对GraphRel与CasRel这些经典联合抽取模型也取得较好的结果,证明TAG-JE也有较好的泛化效果。研究结果可为食品安全中文知识图谱的构建提供技术参考。 展开更多
关键词 模型 食品 食品抽检公告 实体关系联合抽取 中文依存句法树字 邻接图 多特征融合
下载PDF
机器阅读理解式中文事件抽取方法 被引量:2
13
作者 吴旭 卞文强 +1 位作者 颉夏青 孙利娟 《计算机工程与应用》 CSCD 北大核心 2023年第16期93-100,共8页
事件抽取是信息抽取的重要任务之一,在知识图谱构建、金融行业分析、内容安全分析等领域均有重要应用。现有中文事件抽取方法一般为实体识别、关系抽取、实体分类等任务的级联。将事件抽取转化为阅读理解任务,可为模型引入问题所含的先... 事件抽取是信息抽取的重要任务之一,在知识图谱构建、金融行业分析、内容安全分析等领域均有重要应用。现有中文事件抽取方法一般为实体识别、关系抽取、实体分类等任务的级联。将事件抽取转化为阅读理解任务,可为模型引入问题所含的先验信息。提出一种基于预训练模型的机器阅读理解式中文事件抽取方法(Chinese event extraction by machine reading comprehension,CEEMRC),将中文事件抽取简化为两个问答模型的级联。首先对事件触发词抽取、事件类型判定、属性抽取构建相应的问答任务问题。以RoBERTa为基础构建触发词抽取和事件类型识别联合模型、事件属性抽取两个问答模型,并融入触发词先验特征、分词信息、触发词相对位置等信息来提升模型效果。最后以模型预测回答的起始和结束位置完成所需的抽取。实验使用DuEE中文事件数据集,触发词抽取和属性抽取的F1值均优于同类方法,验证了该方法的有效性。 展开更多
关键词 机器阅读理解 问答任务 预训练模型 中文事件抽取
下载PDF
面向中文开放领域的多元实体关系抽取研究 被引量:5
14
作者 姚贤明 甘健侯 徐坚 《智能系统学报》 CSCD 北大核心 2019年第3期597-604,共8页
针对当前中文开放领域多元实体关系抽取研究较少的情况,借鉴国外已有的研究成果,结合中文自身的特点,提出了中文领域多元实体关系抽取的方法。该方法以句法分析结果的根节点作为入口,迭代地获取所有谓语的主语、宾语及其定语成分,再利... 针对当前中文开放领域多元实体关系抽取研究较少的情况,借鉴国外已有的研究成果,结合中文自身的特点,提出了中文领域多元实体关系抽取的方法。该方法以句法分析结果的根节点作为入口,迭代地获取所有谓语的主语、宾语及其定语成分,再利用句法分析结果对这些成分进行完善,最终获取句子中的多个实体之间的语义关系。该方法被应用在不同的领域并进行了对比分析,实验结果表明:其具有一定的参考价值。另外,对实验数据进行了详细的分析,归纳了错误的主要情形,为今后的研究工作指明了方向。 展开更多
关键词 中文、开放域 多元实体关系 依存句法分析 句法结构 关系抽取 语义关系 主谓宾
下载PDF
基于BERT的中文关系抽取方法 被引量:5
15
作者 马月坤 刘鑫 +1 位作者 裴嘉诚 秦帅波 《计算机产品与流通》 2019年第12期251-251,272,共2页
关系抽取是信息抽取的重要任务之一。当前最先进的关系抽取方法依赖于语义、句法特征,然而这些特征需要大量标注资源,特征提取步骤还会引入额外的错误,导致误差传播。最近,一种新的语言表示模型BERT能够在大型无监督语料上预训练深度双... 关系抽取是信息抽取的重要任务之一。当前最先进的关系抽取方法依赖于语义、句法特征,然而这些特征需要大量标注资源,特征提取步骤还会引入额外的错误,导致误差传播。最近,一种新的语言表示模型BERT能够在大型无监督语料上预训练深度双向表示,并在各种自然语言处理任务取得了先进的结果。本文提出了基于bert模型的关系抽取方法。实验结果表明,本文提出的方法在不使用额外特征的条件下能够有效捕捉语言的深层信息,获得较高的关系抽取效果。 展开更多
关键词 中文关系抽取 bert模型 预训练模型
下载PDF
地质领域开放式实体关系联合抽取 被引量:9
16
作者 王智广 文红英 +1 位作者 鲁强 申昊锴 《计算机工程与设计》 北大核心 2021年第4期996-1005,共10页
为解决地质领域实体关系类型复杂且缺乏大量标注语料的问题,建立基于句法结构的开放式实体关系联合抽取模型CSSEM(Chinese syntactic structure extraction model)。给出一种基于模式的地质领域实体识别方法,解决地质领域缺乏实体标注... 为解决地质领域实体关系类型复杂且缺乏大量标注语料的问题,建立基于句法结构的开放式实体关系联合抽取模型CSSEM(Chinese syntactic structure extraction model)。给出一种基于模式的地质领域实体识别方法,解决地质领域缺乏实体标注语料的问题;基于少量标注语料自动学习关系抽取模式,使用基于句法结构的抽取模式从非结构化文本中开放式地抽取三元组。基于AUC(area under curve)评价标准,CSSEM与其它方法在地质领域和通用领域的数据集上进行对比分析。分析结果表明,该模型在上述两个领域取得了更好的准确率和召回率。 展开更多
关键词 地质领域 句法结构 依存句法分析 实体关系抽取 模式 中文句法结构抽取模型
下载PDF
文本挖掘在中文医学疾病关系抽取中的应用
17
作者 姜智尹 程翔 《福建电脑》 2023年第8期56-58,共3页
随着新型冠状病毒在全球的爆发,人们越来越重视生命健康与用药安全。近些年,生物医学科研领域呈现快速发展趋势,形成了庞大的文本数据资源。本文聚焦于中文医学文本数据,提出了Bert-wwm编码与Casrel标注器解码相结合的抽取模型,并与原... 随着新型冠状病毒在全球的爆发,人们越来越重视生命健康与用药安全。近些年,生物医学科研领域呈现快速发展趋势,形成了庞大的文本数据资源。本文聚焦于中文医学文本数据,提出了Bert-wwm编码与Casrel标注器解码相结合的抽取模型,并与原模型进行了实验对比。结果表明,基于该模型的F1值为63.3%,与基础模型相比有了进一步的提升。 展开更多
关键词 中文医学文本挖掘 关系抽取 预训练模型 层级标注器
下载PDF
中文微博情感分析研究与实现 被引量:29
18
作者 李勇敢 周学广 +1 位作者 孙艳 张焕国 《软件学报》 EI CSCD 北大核心 2017年第12期3183-3205,共23页
中文微博的大数据、指数传播和跨媒体等特性,决定了依托人工方式监控和处理中文微博是不现实的,迫切需要依托计算机开展中文微博情感自动分析研究.该项研究可分为3个任务:中文微博观点句识别、情感倾向性分类和情感要素抽取.为完成上述... 中文微博的大数据、指数传播和跨媒体等特性,决定了依托人工方式监控和处理中文微博是不现实的,迫切需要依托计算机开展中文微博情感自动分析研究.该项研究可分为3个任务:中文微博观点句识别、情感倾向性分类和情感要素抽取.为完成上述任务,研制了一个评测系统:通过构建多级词库、制定成词规则、开展串频统计等给出一种基于规则和统计的新词识别方法,在情感词和评价对象的依存模式的基础上给出基于词语特征的观点句识别算法;以词序流表示文本的LDA-Collocation模型,采用吉布斯抽样法推导了算法,实现中文微博情感倾向性自动分类;针对中文微博情感要素抽取召回率较低的问题,利用依存关系分析理论,按主语类和宾语类把依存模式分为两类,建立了6个优先级的评价对象和情感词汇的依存模式,通过评价对象归并算法实现计算机自动抽取情感要素.实验包括两个部分:一是参加NLP&CC2012的公开评测,所提方法在微博观点句识别任务中的准确率为第2,在中文微博情感要素抽取任务中的准确率和F值均为第2,验证了该算法的实用性;二是在分析公开评测结果的基础上,分别比较了参加公开评测的各类算法在处理中文微博情感分析时的效率,给出了相关结论. 展开更多
关键词 中文微博 情感分析 依存分析 情感倾向性分类 情感要素抽取 无监督主题情感模型
下载PDF
面向商务信息抽取的产品命名实体识别研究 被引量:47
19
作者 刘非凡 赵军 +3 位作者 吕碧波 徐波 于浩 夏迎炬 《中文信息学报》 CSCD 北大核心 2006年第1期7-13,共7页
市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点... 市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchical hid-den Markov model)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统。实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7%,86.9%,75.8%。通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力。 展开更多
关键词 计算机应用 中文信息处理 产品命名实体识别 商务信息抽取 层级隐马尔可夫模型
下载PDF
农业科技信息个性化服务推送模型研究 被引量:5
20
作者 肖红 李书琴 王超 《计算机应用与软件》 CSCD 北大核心 2013年第6期93-96,136,共5页
针对农业科技信息共享率低、分散分布等问题,应用Web信息抽取方法实现自动采集多源农业科技信息入库,采用XML文件实现失败重试机制。通过对日志文件进行处理,采用改进的k-means聚类方法建立用户访问模式,并得到访问模式的网页特征词及... 针对农业科技信息共享率低、分散分布等问题,应用Web信息抽取方法实现自动采集多源农业科技信息入库,采用XML文件实现失败重试机制。通过对日志文件进行处理,采用改进的k-means聚类方法建立用户访问模式,并得到访问模式的网页特征词及权重的集合,构建用户兴趣模型库,为来访会话推送网页。在实际应用中,定时更新用户模型库,从而保证了站点内容的及时性、推送服务的可靠性、可用性。 展开更多
关键词 信息抽取 用户兴趣模型 中文分词 定时机制 信息推送
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部