期刊文献+
共找到65篇文章
< 1 2 4 >
每页显示 20 50 100
基于条件随机域CRF模型的文本信息抽取 被引量:8
1
作者 周晶 吴军华 +1 位作者 陈佳 陈沈焰 《计算机工程与设计》 CSCD 北大核心 2008年第23期6094-6097,共4页
为了抽取文本中的信息,在分析对比了4种统计建模原型后,选用条件随机域CRF建立抽取模型,提出了一种文本信息抽取的方法。该方法对文本分析后加标注,确定文本特征集,采用有限内存拟牛顿迭代方法L-BFGS算法估计CRF模型参数,根据训练学习... 为了抽取文本中的信息,在分析对比了4种统计建模原型后,选用条件随机域CRF建立抽取模型,提出了一种文本信息抽取的方法。该方法对文本分析后加标注,确定文本特征集,采用有限内存拟牛顿迭代方法L-BFGS算法估计CRF模型参数,根据训练学习得出的模型,实现科研论文数据集头部文本信息的抽取。实验结果表明,使用CRF模型的抽取准确率达到90%以上,远远高于使用HMM模型的抽取准确率。 展开更多
关键词 条件随机 文本信息抽取 参数估计 L—BFGS迭代法 特征集
下载PDF
基于条件随机域的复杂最长名词短语识别 被引量:16
2
作者 冯冲 陈肇雄 +2 位作者 黄河燕 张亮 王江伟 《小型微型计算机系统》 CSCD 北大核心 2006年第6期1134-1139,共6页
识别句子中的最长名词短语是一个对机器翻译等任务具有重要实际价值的难题.为了克服传统方法在处理词之间的长程关联的不足和标注偏置等问题,本文采用条件随机域建立统计模型,有针对性的研究了复杂最长名词短语的识别,并给出了一种带置... 识别句子中的最长名词短语是一个对机器翻译等任务具有重要实际价值的难题.为了克服传统方法在处理词之间的长程关联的不足和标注偏置等问题,本文采用条件随机域建立统计模型,有针对性的研究了复杂最长名词短语的识别,并给出了一种带置信度估计的解码算法,提高了本文工作的实用性. 展开更多
关键词 最长名词短语 条件随机 机器翻译
下载PDF
基于条件随机域的词性标注模型 被引量:12
3
作者 姜维 关毅 王晓龙 《计算机工程与应用》 CSCD 北大核心 2006年第21期13-16,42,共5页
词性标注主要面临兼类词消歧以及未知词标注的难题,传统隐马尔科夫方法不易融合新特征,而最大熵马尔科夫模型存在标注偏置等问题。论文引入条件随机域建立词性标注模型,易于融合新的特征,并能解决标注偏置的问题。此外,又引入长距离特... 词性标注主要面临兼类词消歧以及未知词标注的难题,传统隐马尔科夫方法不易融合新特征,而最大熵马尔科夫模型存在标注偏置等问题。论文引入条件随机域建立词性标注模型,易于融合新的特征,并能解决标注偏置的问题。此外,又引入长距离特征有效地标注复杂兼类词,以及应用后缀词与命名实体识别等方法提高未知词的标注精度。在条件随机域模型框架下,进一步探讨了融合模型的方法及性能。词性标注开放实验表明,条件随机域模型获得了96.10%的标注精度。 展开更多
关键词 词性标注 条件随机 触发对
下载PDF
基于条件随机域的生物命名实体识别 被引量:17
4
作者 彭春艳 张晖 +1 位作者 包玲玉 陈昌平 《计算机工程》 CAS CSCD 北大核心 2009年第22期197-199,共3页
提出一种基于条件随机域模型的生物命名实体识别方法,结合单词构词特性以及距离依赖特性,在JNLPBA的GENIAV3.02数据上进行实验,测试结果表明,引入距离依赖后,系统的识别性能比只利用单特性的条件随机域方法提高2.54%,可获得较好的识别效... 提出一种基于条件随机域模型的生物命名实体识别方法,结合单词构词特性以及距离依赖特性,在JNLPBA的GENIAV3.02数据上进行实验,测试结果表明,引入距离依赖后,系统的识别性能比只利用单特性的条件随机域方法提高2.54%,可获得较好的识别效果,提高了系统的识别效率。 展开更多
关键词 生物命名实体识别 条件随机 隐马尔科夫模型
下载PDF
基于条件随机域和语义类的中文组块分析方法 被引量:5
5
作者 孙广路 郎非 薛一波 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2011年第7期135-139,共5页
为了解决中文组块分析精度不高和未利用词的语义信息的问题,提出了一种基于条件随机域模型和语义类的中文组块分析方法.该方法通过研究中文组块分析任务及其序列化特性,采用条件随机域模型融合不同类型特征,克服标记偏置问题,将语义词... 为了解决中文组块分析精度不高和未利用词的语义信息的问题,提出了一种基于条件随机域模型和语义类的中文组块分析方法.该方法通过研究中文组块分析任务及其序列化特性,采用条件随机域模型融合不同类型特征,克服标记偏置问题,将语义词典中抽取的语义类特征应用到中文组块分析中,提高分析精度.实验表明,该方法取得了F值为92.77%的中文组块分析性能,实验进一步还表明了特征模板的选取和训练语料的规模对于分析性能的影响. 展开更多
关键词 条件随机 中文组块分析 特征模板 语义词典
下载PDF
条件随机域与上下文线索结合的生物实体识别 被引量:3
6
作者 杨志豪 林鸿飞 李彦鹏 《计算机工程》 CAS CSCD 北大核心 2008年第7期203-204,208,共3页
介绍一个用于在生物医学文献中识别基因、蛋白质等生物实体的识别方法。该方法基于条件随机域方法,选取适当特征进行实体识别,利用上下文线索进一步提高识别性能。实验结果表明上下文线索的引入使识别性能在条件随机域方法基础上提高了... 介绍一个用于在生物医学文献中识别基因、蛋白质等生物实体的识别方法。该方法基于条件随机域方法,选取适当特征进行实体识别,利用上下文线索进一步提高识别性能。实验结果表明上下文线索的引入使识别性能在条件随机域方法基础上提高了近3%,从而获得了较好的最终识别效果。 展开更多
关键词 文本挖掘 生物实体识别 条件随机 上下文线索
下载PDF
中文名实体识别:基于词触发对的条件随机域方法 被引量:3
7
作者 赵健 王晓龙 +1 位作者 关毅 徐志明 《高技术通讯》 CAS CSCD 北大核心 2006年第8期795-801,共7页
首次把条件随机域(CRF)模型应用到了中文名实体识别中,且根据中文的特点,定义了多种特征模板。同时,为了解决长距离约束问题,将词语触发对融合到了CRF模型中。提出了基于词语方差(word variance)的选词方法,在词语相关性计算... 首次把条件随机域(CRF)模型应用到了中文名实体识别中,且根据中文的特点,定义了多种特征模板。同时,为了解决长距离约束问题,将词语触发对融合到了CRF模型中。提出了基于词语方差(word variance)的选词方法,在词语相关性计算上,采用了平均互信息(AMI)方法和χ^2统计量方法。通过在半年人民日报上的测试,结果表明在采用相同特征集合的条件下,条件随机域模型较其他概率模型有更好的性能表现;融合长距离触发对的条件随机域模型可以使系统的F量度提高约1.38%。 展开更多
关键词 中文名实体识别 概率模型 条件随机 词语触发对 信息抽取 自然语言处理
下载PDF
基于条件随机域的Web信息抽取 被引量:2
8
作者 史庆伟 赵政 鲍虎 《辽宁工程技术大学学报(自然科学版)》 EI CAS 北大核心 2007年第4期570-572,共3页
为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,... 为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,实现网页搜索结果的抽取。与HMM模型相比,CRF模型支持网页文本的语言特征,抽取准确率高。实验结果表明,使用CRF模型的抽取准确率达到90%以上,高于使用HMM模型的抽取准确率。 展开更多
关键词 条件随机 信息抽取 网页文档 拟牛顿法
下载PDF
条件随机域模型及在语言分析系统中的应用 被引量:1
9
作者 孙广路 王晓龙 +1 位作者 郎非 刘远超 《电机与控制学报》 EI CSCD 北大核心 2008年第1期113-116,共4页
分析了判别式模型的标记偏置问题对序列化标记的影响,利用条件随机域模型的全序列概率归一思想解决标记偏置问题。在条件随机域模型和特征选择的基础上,将语言分析任务转化成序列化标记问题进行求解,建立了由分词、词性标注和组块分析... 分析了判别式模型的标记偏置问题对序列化标记的影响,利用条件随机域模型的全序列概率归一思想解决标记偏置问题。在条件随机域模型和特征选择的基础上,将语言分析任务转化成序列化标记问题进行求解,建立了由分词、词性标注和组块分析组成的语言分析系统。实验表明,条件随机域模型有效地克服了标记偏置问题,在语言分析系统中取得的性能优于其他判别式模型。 展开更多
关键词 条件随机 语言分析 标记偏置 判别式模型
下载PDF
利用膜粒子群优化的条件随机域特征选择 被引量:3
10
作者 豆增发 高琳 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2012年第5期107-112,共6页
提出了一种新的基于膜粒子群优化的特征选择方法.该方法利用了膜系统的分层结构和消息传递机制,将粒子群优化算法作为区域子算法部署到各个区域中.不同于传统粒子群优化算法,该方法将粒子群优化的搜索速率分解为局部搜索速率和全局搜索... 提出了一种新的基于膜粒子群优化的特征选择方法.该方法利用了膜系统的分层结构和消息传递机制,将粒子群优化算法作为区域子算法部署到各个区域中.不同于传统粒子群优化算法,该方法将粒子群优化的搜索速率分解为局部搜索速率和全局搜索速率.膜系统的所有外层区域采用局部搜索速率,搜索局部最优解;最内层区域采用全局搜索速率,搜索全局最优解.所有外部区域将最优解传递给相邻内部区域,内部区域将最差解传递给相邻外部区域,最内区域向相邻外部区域传递最差解.当各个区域之间的解传递在一段时间内停止时,或者算法迭代次数达到限定次数时,算法收敛,取最内层区域的最优解为最终解.以条件随机域模型的最大似然估计函数为目标函数,利用膜粒子群优化计算各个特征权重系数,最后剔除那些权重系数小于阈值的特征.实验结果表明,在进行生物文本的基因名称识别时,利用该方法对条件随机域的特征进行选择后,可以消除冗余特征的干扰,能获得更高的准确度。 展开更多
关键词 膜系统 粒子群优化 生物医学文本 特征选择 条件随机
下载PDF
应用粒子群优化-条件随机域的文本生物实体识别 被引量:2
11
作者 豆增发 高琳 《西安交通大学学报》 EI CAS CSCD 北大核心 2010年第12期38-42,124,共6页
针对生物医学文本中传统生物实体识别算法的精确度不高的问题,提出了一种新的基于粒子群优化-条件随机域的生物实体识别算法.新算法利用改进的粒子群优化算法训练条件随机域模型,并将训练后的条件随机域模型应用到生物实体的识别上.改... 针对生物医学文本中传统生物实体识别算法的精确度不高的问题,提出了一种新的基于粒子群优化-条件随机域的生物实体识别算法.新算法利用改进的粒子群优化算法训练条件随机域模型,并将训练后的条件随机域模型应用到生物实体的识别上.改进的粒子群优化算法引入粒子群聚集度来防止粒子群过早地陷入局部收敛,用迭代间对数似然相对变化率来控制算法的收敛,用线性变化的惯性因子和学习因子来控制搜索范围.实验结果表明,基于改进粒子群优化的条件随机域模型较隐马尔科夫模型、最大熵马尔科夫模型、支持向量机以及传统条件随机域模型等方法具有更高的精确率和召回率. 展开更多
关键词 条件随机模型 粒子群优化 粒子群聚集度 对数似然相对变化率 生物实体识别
下载PDF
基于条件随机域的上下文人类动作识别 被引量:1
12
作者 朱文球 刘强 《计算机工程与应用》 CSCD 北大核心 2008年第28期180-183,共4页
提出一种新的基于条件随机域和隐马尔可夫模型(HMM)的人类动作识别方法——HMCRF。目前已有的动作识别方法均使用隐马尔可夫模型及其变型,这些模型一个最突出的不足就是要求观察值相互独立。条件模型很容易表示上下文相关性,且可使用动... 提出一种新的基于条件随机域和隐马尔可夫模型(HMM)的人类动作识别方法——HMCRF。目前已有的动作识别方法均使用隐马尔可夫模型及其变型,这些模型一个最突出的不足就是要求观察值相互独立。条件模型很容易表示上下文相关性,且可使用动态规划做到有效且精确的推论,它的参数可以通过凸函数优化训练得到。把条件图形模型应用于动作识别之上,并通过大量的实验表明,所提出的方法在识别正确率方面明显优于一般线性结构的CRF和HMM。 展开更多
关键词 条件随机 隐马尔可夫模型 联合树算法 动作识别
下载PDF
复杂环境下基于图和条件随机域的运动车辆检测 被引量:1
13
作者 傅沈文 《计算机应用》 CSCD 北大核心 2012年第6期1581-1584,1588,共5页
针对当前车辆检测方法中存在难以有效消除阴影干扰的缺点,提出了一种能够消除阴影干扰的车辆区域检测方法。该算法首先运用选择性背景更新法进行背景相减,获取感兴趣区域,然后提出基于图的区域分割算法,对感兴趣区域进行再分割。该方法... 针对当前车辆检测方法中存在难以有效消除阴影干扰的缺点,提出了一种能够消除阴影干扰的车辆区域检测方法。该算法首先运用选择性背景更新法进行背景相减,获取感兴趣区域,然后提出基于图的区域分割算法,对感兴趣区域进行再分割。该方法充分考虑了视频图像全局和局部的空间信息,根据分割区域的大小自动自适应地调节对图像局部细节的忽略程度,从而获取局部区域特征较为一致的分割块。最后基于分割过程中所具有的马尔可夫属性,运用条件随机域的方法建立分割后验概率分布,求取最大后验概率确定标号,并对具有相同标号的相邻分割块进行合并。 展开更多
关键词 车辆检测 阴影消除 图区分割 马尔可夫属性 条件随机
下载PDF
基于条件随机域的垃圾信息特征复原
14
作者 刘卫红 方卫东 张凌 《计算机应用与软件》 CSCD 2010年第7期67-70,106,共5页
通过加入噪声、替代文字等手段隐藏信息内容的真实符号分布,是目前垃圾制造者干扰或躲避过滤器检测的主要手段。介绍一种使用基于条件随机域的序列方法实现垃圾信息特征复原的技术。该方法比现有的基于模式匹配、基于序列比对和基于隐... 通过加入噪声、替代文字等手段隐藏信息内容的真实符号分布,是目前垃圾制造者干扰或躲避过滤器检测的主要手段。介绍一种使用基于条件随机域的序列方法实现垃圾信息特征复原的技术。该方法比现有的基于模式匹配、基于序列比对和基于隐马尔科夫模型等方法在模型建立上有着更大的灵活性和鲁棒性。实验表明,使用条件随机域的特征复原方法可以明显提高基于压缩和内容过滤器的过滤性能。 展开更多
关键词 条件随机 垃圾信息 特征复原
下载PDF
基于属性分组的条件随机域网络入侵检测模型
15
作者 尚福华 于剑光 李建平 《哈尔滨商业大学学报(自然科学版)》 CAS 2009年第3期321-326,共6页
将条件随机域(Conditional Random Fields,CRFs)理论引入网络入侵检测研究中,并结合网络连接数据序列的属性特征,提出一种基于属性分组的CRFs网络入侵检测的方法.该方法利用CRFs模型能够标记和切分序列化数据的优点,不但使用网络连接数... 将条件随机域(Conditional Random Fields,CRFs)理论引入网络入侵检测研究中,并结合网络连接数据序列的属性特征,提出一种基于属性分组的CRFs网络入侵检测的方法.该方法利用CRFs模型能够标记和切分序列化数据的优点,不但使用网络连接数据序列中的各种连接信息,而且使用数据序列中各属性组间和属性间的关联性信息,进行异常检测.讨论了该模型的工作过程,并且通过KDD cup 1999数据集的检测实验结果,与其他检测方法的结果比较,表明提出的方法能够有效地提高网络入侵检测中的各项统计指标. 展开更多
关键词 入侵检测 异常检测 条件随机 网络安全 误警率 漏警率
下载PDF
针对最大熵模型和条件随机域模型的研究
16
作者 张坤 刘妍 王达 《黑龙江科技信息》 2007年第12X期31-31,共1页
随着基于统计技术的自然语言处理方法的兴起,怎样在语料规模有限的情况下,尽可能的提高系统的效果就显得十分重要。以下主要介绍两种基于统计方法:最大熵模型和条件随机域模型。最大熵统计模型获得的是所有满足约束条件的模型中信息熵... 随着基于统计技术的自然语言处理方法的兴起,怎样在语料规模有限的情况下,尽可能的提高系统的效果就显得十分重要。以下主要介绍两种基于统计方法:最大熵模型和条件随机域模型。最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型;条件随机域模型允许在观察序列上的任意的依赖关系,并且特征不需要一定是一个完整的状态或观察值,因此,可以期待用较少的训练数据来训练出模型。 展开更多
关键词 基于统计 最大熵 条件随机
下载PDF
基于长距离依赖条件随机域的文本信息抽取 被引量:2
17
作者 朱道辉 肖基毅 +1 位作者 程阳 吴诗祥 《计算机应用与软件》 CSCD 2011年第5期203-205,共3页
信息抽取中,同一token在文本中可能出现多次,且token多次出现的位置通常相隔很远,传统线性链CRF模型由于Markov假设不能表达长距离依赖关系于是将多次出现的同一token分开标注,丧失了全局信息。提出了长距离依赖条件随机域模型,该模型... 信息抽取中,同一token在文本中可能出现多次,且token多次出现的位置通常相隔很远,传统线性链CRF模型由于Markov假设不能表达长距离依赖关系于是将多次出现的同一token分开标注,丧失了全局信息。提出了长距离依赖条件随机域模型,该模型能结合多次出现的同一token各处的特征,对其进行联合标注。由于长距离依赖使得精确的标注算法不可计算,采用了TRP估计算法。实验表明该模型抽取性能优于线性链CRF模型,尤其是speaker域上的召回率有了很大的提高。 展开更多
关键词 长距离依赖 条件随机 线性链 同一token 文本
下载PDF
基于条件随机域模型的中文实体关系抽取 被引量:2
18
作者 周晶 《计算机工程》 CAS CSCD 北大核心 2010年第24期192-194,共3页
针对信息抽取领域中存在的抽取结果难以满足需要的问题,给出基于条件随机域模型的方法,以解决组块标注和实体关系抽取问题。通过定义中文组块和实体关系的标注方式,选择比较通用的《人民日报》语料,训练出效率较高的二阶模板来抽取文本... 针对信息抽取领域中存在的抽取结果难以满足需要的问题,给出基于条件随机域模型的方法,以解决组块标注和实体关系抽取问题。通过定义中文组块和实体关系的标注方式,选择比较通用的《人民日报》语料,训练出效率较高的二阶模板来抽取文本中的实体关系。实验结果表明,该方法可以获得更好的抽取效果。 展开更多
关键词 信息抽取 组块标注 实体关系抽取 条件随机模型
下载PDF
基于CRF的分区倒排索引压缩算法
19
作者 王子琛 瞿有利 《计算机与现代化》 2024年第2期36-42,55,共8页
倒排索引是大型搜索引擎的核心数据结构,本质是倒排列表中整数序列的集合。倒排索引压缩可以有效减少倒排索引所占空间,提高对关键词的检索效率。本文提出的基于条件随机场(CRF)的分区倒排索引压缩算法主要关注域值分区的分区方式。该... 倒排索引是大型搜索引擎的核心数据结构,本质是倒排列表中整数序列的集合。倒排索引压缩可以有效减少倒排索引所占空间,提高对关键词的检索效率。本文提出的基于条件随机场(CRF)的分区倒排索引压缩算法主要关注域值分区的分区方式。该算法对序列进行预分区,并且使用条件随机场对预分区进行标注并重组,有效减少了压缩时间。根据分区类型,该算法使用相应的编码方式,进一步减少了压缩后的空间占用。与其他倒排索引压缩算法进行对比实验分析,结果表明本文算法在压缩率上超过目前一些域值分区的算法,并且在解压时间上与其他域值分区算法相当。该算法在时间和空间上取得了较好的平衡。 展开更多
关键词 倒排索引 数据压缩 值分区 条件随机 搜索引擎
下载PDF
分布式策略与CRFs相结合识别汉语组块 被引量:6
20
作者 黄德根 于静 《中文信息学报》 CSCD 北大核心 2009年第1期16-22,共7页
该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F... 该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F值大小顺序处理类型冲突。实验结果表明,基于CRFs的分布式策略及错误驱动方法识别汉语组块是有效的,系统开放式测试的精确率、召回率、F值分别达到94.90%、91.00%和92.91%,好于单独的CRFs方法、分布式策略方法及其他组合方法。 展开更多
关键词 计算机应用 中文信息处理 组块识别 条件随机(crfs) 分布式策略 基于crfs的错误驱动 浅层句法分析
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部