期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 被引量:16
1
作者 毛伟 徐蔚然 郭军 《中文信息学报》 CSCD 北大核心 2006年第3期29-35,共7页
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数... 本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。 展开更多
关键词 计算机应用 中文信息处理 中文文本分类 N-GRAM语言模型 链状朴素贝叶斯分类器
下载PDF
用于脱机手写数字识别的隐马尔可夫模型 被引量:10
2
作者 刘刚 张洪刚 郭军 《计算机研究与发展》 EI CSCD 北大核心 2003年第8期1252-1257,共6页
将隐马尔可夫模型 (HMM)用于脱机手写数字识别中 ,系统如何建模是一个值得研究的问题 在考虑手写数字自身特点及特征抽取的基础上 ,对HMM模型的训练方法及模型参数的选取进行了研究 ,以提高系统识别率 在银行票据OCR的应用中 ,与基于... 将隐马尔可夫模型 (HMM)用于脱机手写数字识别中 ,系统如何建模是一个值得研究的问题 在考虑手写数字自身特点及特征抽取的基础上 ,对HMM模型的训练方法及模型参数的选取进行了研究 ,以提高系统识别率 在银行票据OCR的应用中 ,与基于神经网络的方法结合使用 ,使得整张票据的拒识率降低了 3% ,明显提高了银行票据OCR系统的性能 . 展开更多
关键词 隐马尔可夫模型(HMM) 手写数字识别 银行票据OCR
下载PDF
基于SVM的手写数字相似字识别研究 被引量:2
3
作者 张闯 吴铭 +1 位作者 郭军 魏锋 《计算机工程与应用》 CSCD 北大核心 2003年第11期33-35,44,共4页
该文针对银行票据识别系统中的手写数字的识别问题,利用神经网络和支撑向量机相结合的方法构建了手写数字的识别核,并利用支撑向量机对神经网络输出的识别结果中的相似字进行了二次识别,解决了手写数字中相似字的识别问题,最终的单字误... 该文针对银行票据识别系统中的手写数字的识别问题,利用神经网络和支撑向量机相结合的方法构建了手写数字的识别核,并利用支撑向量机对神经网络输出的识别结果中的相似字进行了二次识别,解决了手写数字中相似字的识别问题,最终的单字误识率达到2.0426%~5.4369%,满足了银行票据识别系统中的手写数字识别的实际要求。 展开更多
关键词 手写数字 神经网络 支撑向量机 识别 票据处理
下载PDF
基于改进的LBP的低分辨率车牌汉字识别 被引量:4
4
作者 王叶 张洪刚 +1 位作者 方旭 郭军 《中文信息学报》 CSCD 北大核心 2009年第5期86-91,共6页
低分辩率的车牌汉字识别是字符识别中的一个难题。随着智能交通和模式识别技术的发展,传统的基于二值图的识别方法已不能满足实际要求。该文采用基于灰度图的汉字识别方法,避免了在传统二值化过程中不必要的结构信息丢失。该文将局域二... 低分辩率的车牌汉字识别是字符识别中的一个难题。随着智能交通和模式识别技术的发展,传统的基于二值图的识别方法已不能满足实际要求。该文采用基于灰度图的汉字识别方法,避免了在传统二值化过程中不必要的结构信息丢失。该文将局域二值模式(Local Binary Patterns,LBP)算子运用于字符识别,使得车牌汉字的识别率由过去的74.25%提高到98.80%;并在已有的局域二值模式算子的基础上提出了一种改进的局部二值模式(Advanced Local Binary Pattern,ALBP)算法,使得汉字的识别时间大幅度缩短。实验结果表明,该文提出的方法对于低质量的车牌灰度汉字具有较强的鲁棒性,与传统识别方法相比,识别准确率和识别速度都有了较大的改进。 展开更多
关键词 人工智能 模式识别 汉字识别 ALBP 识别准确率 识别速度
下载PDF
智能文本搜索新技术 被引量:3
5
作者 王占一 徐蔚然 郭军 《智能系统学报》 北大核心 2012年第1期40-49,共10页
面对当今互联网上海量的信息,以及搜索信息准确、高效、个性化等需求,提出了一套包括信息检索、信息抽取和信息过滤在内的智能文本搜索新技术.首先举荐了与信息检索新技术相关的企业检索、实体检索、博客检索、相关反馈子任务.然后介绍... 面对当今互联网上海量的信息,以及搜索信息准确、高效、个性化等需求,提出了一套包括信息检索、信息抽取和信息过滤在内的智能文本搜索新技术.首先举荐了与信息检索新技术相关的企业检索、实体检索、博客检索、相关反馈子任务.然后介绍了与信息抽取技术相关的实体关联和实体填充子任务,以及与信息过滤技术相关的垃圾邮件过滤子任务.这些关键技术融合在一起,在多个著名的国际评测中得到应用,如美国主办的文本检索会议评测和文本分析会议评测,并且在互联网舆情、短信舆情和校园网对象搜索引擎等实际系统中得到了检验. 展开更多
关键词 智能文本搜索 文本检索 文本分析
下载PDF
基于模型混淆度的模型组合算法研究 被引量:3
6
作者 吴娅辉 刘刚 郭军 《自动化学报》 EI CSCD 北大核心 2009年第5期551-555,共5页
传统的声学模型训练算法如最大似然估计(Maximum likelihood estimation,MLE),在训练时只考虑了模型自身而没有考虑模型之间的相互影响.为了进一步提升模型的识别效果,区分性训练算法被提出.本文在最小音素错误(Minimum phone error,MPE... 传统的声学模型训练算法如最大似然估计(Maximum likelihood estimation,MLE),在训练时只考虑了模型自身而没有考虑模型之间的相互影响.为了进一步提升模型的识别效果,区分性训练算法被提出.本文在最小音素错误(Minimum phone error,MPE)区分性训练算法的基础上提出一种基于模型间混淆程度进行模型组合的算法:针对单混合分量模型,依据模型间混淆程度对MLE和MPE的模型进行加权组合;针对多混合分量模型,提出一种模型选择的算法来获取新的模型参数.实验表明,与MPE算法相比,对单分量的情况,该算法可以使系统的误识率相对降低4%左右;对于多分量的情况,该算法可以使系统的误识率相对降低3%左右. 展开更多
关键词 模型加权 区分性训练 最小音素错误 最大似然估计
下载PDF
基于字符边缘特征的手写账号切分算法
7
作者 张闯 吴铭 郭军 《计算机工程》 CAS CSCD 北大核心 2003年第21期34-35,72,共3页
结合银行票据自动识别系统(Bank-OCR)的开发研究,提出了基于手写数字串边 缘特征的手写数字串的切分算法。文章分析了手写数字串的切分难点,提出了数字账号边缘 特征的概念,并在利用下边缘特征判断连体字符个数的基础上,利用上下... 结合银行票据自动识别系统(Bank-OCR)的开发研究,提出了基于手写数字串边 缘特征的手写数字串的切分算法。文章分析了手写数字串的切分难点,提出了数字账号边缘 特征的概念,并在利用下边缘特征判断连体字符个数的基础上,利用上下边缘中波峰波谷的 特征来对连写数字进行有效切分。实验结果表明对于非限制自由手写数字串的最终切分正切 率达到 86.3%,满足了银行票据的预处理要求。 展开更多
关键词 票据处理 手写账号 字符切分 边缘特征
下载PDF
基于NARX神经网络的热负荷预测中关键影响因素分析 被引量:9
8
作者 谢吉洋 闫冬 +1 位作者 谢垚 马占宇 《计算机应用》 CSCD 北大核心 2018年第11期3180-3187,共8页
在区域供热(DH)网络中,精确预测热负荷已被认为是提高效率和节省成本的重要环节。为了提高预测精度,研究不同影响因素对热负荷预测的影响极为重要。使用引入不同影响因素的数据集训练得到带外部输入的非线性自回归(NARX)神经网络模型,... 在区域供热(DH)网络中,精确预测热负荷已被认为是提高效率和节省成本的重要环节。为了提高预测精度,研究不同影响因素对热负荷预测的影响极为重要。使用引入不同影响因素的数据集训练得到带外部输入的非线性自回归(NARX)神经网络模型,并比较其预测性能,以讨论直接太阳辐射和风速对热负荷预测的影响程度。实验结果表明,直接太阳辐射和风速都是热负荷预测中的关键影响因素。只引入风速时,预测模型的平均绝对百分比误差(MAPE)和均方根误差(RMSE)均低于只引入直接太阳辐射,同时引入风速和直接太阳辐射能够得到最佳的模型预测性能,但是对于MAPE和RMSE降低的贡献不大。 展开更多
关键词 区域供热 热负荷预测 非线性自回归神经网络 直接太阳辐射 风速
下载PDF
面向中文成语的阅读理解方法研究 被引量:2
9
作者 徐家伟 刘瑞芳 +1 位作者 高升 李思 《中文信息学报》 CSCD 北大核心 2021年第7期118-125,共8页
在自然语言处理领域,全局注意力机制通过考虑编码器的所有隐藏状态来捕获信息,从而帮助预测结果。然而在理解汉语成语这种复杂的语言现象时,模型往往会因特定语境的干扰而产生错误的决定和认知。因此,为了使模型更好地感知成语在不同语... 在自然语言处理领域,全局注意力机制通过考虑编码器的所有隐藏状态来捕获信息,从而帮助预测结果。然而在理解汉语成语这种复杂的语言现象时,模型往往会因特定语境的干扰而产生错误的决定和认知。因此,为了使模型更好地感知成语在不同语境下的语法功能,该文提出了一种增强型的全局注意力机制,通过对每个位置空间产生额外的注意因子来调整原始的全局注意力,最终提高了模型对特定语义的学习能力。该文将增强型全局注意力机制与BERT语言模型相结合,设计了一个用于完形填空任务的模型,并在最近发布的中文成语完形填空数据集ChID上进行了实验。结果表明,相比于传统的BERT模型和全局注意模型,该模型取得的效果更优。 展开更多
关键词 阅读理解 分类 注意力机制 完形填空
下载PDF
短期电力负荷预测模型的比较研究 被引量:11
10
作者 严慧峰 黄定疆 +4 位作者 谢垚 程霄 谢吉洋 朱晓蒙 马占宇 《中国科学技术大学学报》 CAS CSCD 北大核心 2019年第2期119-124,共6页
为了解决提高电力负荷预测精确度这一问题,越来越多的人工智能方法应用于能量功率预测.为此利用湖南省2014年至2017年的电力负荷数据,比较自回归(AR)模型、BP神经网络(BPNN)和指数平滑(ES)模型在预测日度电力负荷和月度电力负荷上的性能... 为了解决提高电力负荷预测精确度这一问题,越来越多的人工智能方法应用于能量功率预测.为此利用湖南省2014年至2017年的电力负荷数据,比较自回归(AR)模型、BP神经网络(BPNN)和指数平滑(ES)模型在预测日度电力负荷和月度电力负荷上的性能,并运用统计学知识来分析三种模型之间的差异.最终根据实验结果得出两个结论:AR模型对日度数据预测的结果优于其他两个模型以及ES模型对月度数据预测的结果优于其他两个模型. 展开更多
关键词 短时电力负荷预测 自回归模型 BP神经网络 指数平滑模型
下载PDF
基于社会化媒体节点属性的信息预测 被引量:7
11
作者 张闯 姜杨 +2 位作者 吴铭 肖文君 李泰 《北京邮电大学学报》 EI CAS CSCD 北大核心 2012年第4期24-27,共4页
针对多数研究仅将社会化媒体作为数据来源的现状,深入分析社会化媒体特点,重点将节点属性分为静态和动态进行研究,提出基于预测目标的节点影响力的概念.在此基础上提出了一种基于节点属性进行信息预测的属性、节点数、倾向(ANV)模型.实... 针对多数研究仅将社会化媒体作为数据来源的现状,深入分析社会化媒体特点,重点将节点属性分为静态和动态进行研究,提出基于预测目标的节点影响力的概念.在此基础上提出了一种基于节点属性进行信息预测的属性、节点数、倾向(ANV)模型.实验采用后向传播(BP)神经网络预测方法,通过新浪微博数据预测电影票房.仿真表明,带有节点属性的方法比没有节点属性的方法拟合和预测更为准确. 展开更多
关键词 社会化媒体 节点属性 预测模型 BP神经网络模型 票房预测
原文传递
基于COAE2016数据集的中文实体关系抽取算法研究 被引量:13
12
作者 孙建东 顾秀森 +1 位作者 李彦 徐蔚然 《山东大学学报(理学版)》 CAS CSCD 北大核心 2017年第9期7-12,18,共7页
实体关系抽取是知识图谱技术的重要环节之一。英文实体关系抽取的研究已经比较成熟,相比之下,中文实体关系抽取的发展却并不理想。由于相关语料的匮乏,中文实体关系抽取的发展受到了一定的限制。针对这一问题,COAE2016在任务三中提出了... 实体关系抽取是知识图谱技术的重要环节之一。英文实体关系抽取的研究已经比较成熟,相比之下,中文实体关系抽取的发展却并不理想。由于相关语料的匮乏,中文实体关系抽取的发展受到了一定的限制。针对这一问题,COAE2016在任务三中提出了中文实体关系抽取任务。通过分别使用了基于模板、基于SVM与基于CNN的实体关系抽取算法解决了这一问题,并根据其在COAE2016任务三的评测数据集上的效果,对比分析了三种实体关系抽取算法的优缺点。实验证明,基于SVM的算法和基于CNN的算法均在评测数据集上表现出了良好的效果。 展开更多
关键词 关系抽取 模板匹配 SVM CNN
原文传递
基于Bootstrapping的英文产品评论属性词抽取方法 被引量:1
13
作者 王辉 陈光 《山东大学学报(理学版)》 CAS CSCD 北大核心 2014年第12期23-29,共7页
针对英文产品方面属性词抽取,提出了一种基于Bootstrapping的抽取方法。该方法利用少数几个种子模板,通过增量迭代的过程发现新的属性词,在每一轮迭代中通过统计技术,结合情感词典的情感词分析,利用属性词与模板的亲密度关系得到属性词... 针对英文产品方面属性词抽取,提出了一种基于Bootstrapping的抽取方法。该方法利用少数几个种子模板,通过增量迭代的过程发现新的属性词,在每一轮迭代中通过统计技术,结合情感词典的情感词分析,利用属性词与模板的亲密度关系得到属性词被抽取出的概率得分,对候选属性词进行排序过滤。对于抽取后的特征词集利用Wordnet计算属性词间的相似度,根据得分进行聚类,得到产品不同方面的属性词类簇,同时过滤掉得分较低的类簇,进一步去掉噪声。此外还利用种子模板代替种子属性词以提高系统的可移植性。实验结果表明,利用该方法进行产品方面属性词抽取的准确率为0.799,召回率为0.779,调和平均值为0.789,具有较好的抽取性能。 展开更多
关键词 属性词抽取 自扩展 信息抽取 WORDNET
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部