期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
一种两阶段的中文专利语义检索方法
1
作者 吕学强 梁虎 +1 位作者 赵颖 游新冬 《小型微型计算机系统》 CSCD 北大核心 2024年第10期2378-2383,共6页
专利检索系统主要以传统的术语匹配方式提供检索服务,语义扩展性不足,使得具有语义相似的专利在Top_N的检出率较低.为了提升相似专利的Top_N检出率,该文提出了一种两阶段的中文专利语义检索方法.第1阶段基于Sentence-BERT进行语义编码,... 专利检索系统主要以传统的术语匹配方式提供检索服务,语义扩展性不足,使得具有语义相似的专利在Top_N的检出率较低.为了提升相似专利的Top_N检出率,该文提出了一种两阶段的中文专利语义检索方法.第1阶段基于Sentence-BERT进行语义编码,然后基于近似最近邻算法进行语义匹配,能够从海量专利文献库中快速匹配到语义相似的专利.第2阶段以BERT为基础模型,基于交叉编码器(Cross-Encoder)捕获专利文本之间更细粒度的语义相关性,对第1阶段的候选专利集进行重新排序.此外,该文还提出了难负例(hard negative)采样和白化转换(whitening)两种简单有效的模型训练优化策略,使模型从简单的训练数据逐渐过度到复杂的训练数据,提高模型区分相似专利的能力.实验表明,该文提出的方法相比于主流的方法在检出率上均有提升,且相比市面上现有的检索系统同样具有优势. 展开更多
关键词 专利检索 语义检索 难负例采样 白化转换
下载PDF
多特征融合的专利功效短语抽取
2
作者 游新冬 赵颖 +1 位作者 刘佳琦 吕学强 《计算机工程与设计》 北大核心 2024年第5期1413-1419,共7页
为提高专利功效短语抽取的准确率和召回率,保障专利布局等研究工作的高质量进行,提出一种融合多特征的专利功效短语抽取模型。基于Bert-BiLSTM-CRF的整体框架,利用Bert模型对文本进行向量化,融合偏旁部首、五笔、词长+词性等特征输入到B... 为提高专利功效短语抽取的准确率和召回率,保障专利布局等研究工作的高质量进行,提出一种融合多特征的专利功效短语抽取模型。基于Bert-BiLSTM-CRF的整体框架,利用Bert模型对文本进行向量化,融合偏旁部首、五笔、词长+词性等特征输入到BiLSTM或Transformer进行编码,使用CRF解码得到对应输入的标签序列,得到专利功效短语。实验采用新能源汽车领域的专利文本作为训练数据,尝试组合不同的特征进行实验,实验结果表明,所提模型在准确率、召回率、F1值上均取得了明显提升,验证了多特征融合在功效短语抽取任务上的有效性。 展开更多
关键词 多特征融合 专利功效短语 深度学习 词语抽取 双向长短期记忆模型 条件随机场模型 词向量模型
下载PDF
基于SNMP++网络管理软件的编程实 被引量:2
3
作者 刘雪飞 吴伯桥 +1 位作者 凌涛 王申强 《信息安全与技术》 2013年第5期63-65,共3页
大规模网络离不开自动网络管理软件。网络管理软件的开发通常以已有的开发包为基础。论文介绍了HP公司的SNMP++开发包,包括如何找到开发包,如何编译开发包,如何使用开发包。最后,给出了如何获取网络管理信息的例子以及如何构建测试环境。
关键词 网络管理软件 简单网络管理协议 开发包 SNMP++
下载PDF
ASN.1在网络管理中的应用研究 被引量:1
4
作者 刘雪飞 吴伯桥 凌涛 《信息安全与技术》 2013年第6期95-97,共3页
ASN.1语言定义了网络管理信息结构、网络管理信息库、简单网络管理协议。以这些网络管理相关RFC文档为例,对应用于网络管理中的常用ASN.1语法进行了总结性研究。
关键词 抽象语法标记语言 网络管理信息结构 网络管理信息库 简单网络管理协议
下载PDF
基于内容和兴趣漂移模型的电影推荐算法研究 被引量:32
5
作者 吕学强 王腾 +1 位作者 李雪伟 董志安 《计算机应用研究》 CSCD 北大核心 2018年第3期717-720,802,共5页
针对基于内容的推荐算法中,内容相似度计算精度低、用户兴趣漂移等问题,提出一种结合影评内容相似度和长短期兴趣模型来计算电影相似度的推荐方法。算法利用TextRank、Word2Vec等技术和模型对影评进行关键词抽取和词向量构建,同时基于Wo... 针对基于内容的推荐算法中,内容相似度计算精度低、用户兴趣漂移等问题,提出一种结合影评内容相似度和长短期兴趣模型来计算电影相似度的推荐方法。算法利用TextRank、Word2Vec等技术和模型对影评进行关键词抽取和词向量构建,同时基于Word2Vec训练结果进行电影内容相似度计算,一定程度上解决了近义词、网络词等带来的准确率下降问题;然后基于长短期兴趣漂移模型,统计用户对不同内容属性的偏好权重,并随时间窗口动态计算电影相似度矩阵,缓解了用户兴趣随时间漂移而改的问题;最后根据不同推荐策略获得推荐结果。实验结果证明,该算法比对比方法正确率提高了5%左右,同时兴趣模型提取了用户长短期兴趣标签,在工业界及基于标签的算法等场景中都具有很高的实用价值。 展开更多
关键词 个性推荐 词向量模型 用户偏好 兴趣漂移 聚类 集合相似度
下载PDF
基于边界标记集的专利文献术语抽取方法 被引量:7
6
作者 丁杰 吕学强 刘克会 《计算机工程与科学》 CSCD 北大核心 2015年第8期1591-1598,共8页
目前,大部分术语边界的确定方法是通过选取合适的统计量,设置合适的阈值计算字符串之间的紧密程度,但该类方法在抽取长术语时不能得到很好的效果。为了解决在术语抽取过程中长术语抽取召回率低的问题,在研究了大量专利文献的基础上,提... 目前,大部分术语边界的确定方法是通过选取合适的统计量,设置合适的阈值计算字符串之间的紧密程度,但该类方法在抽取长术语时不能得到很好的效果。为了解决在术语抽取过程中长术语抽取召回率低的问题,在研究了大量专利文献的基础上,提出了一种基于专利术语边界标记集的术语抽取方法。方法中提出了边界标记集的概念,并结合专利文献中术语边界的特点构建专利术语边界标记集;提出了一种种子术语权重计算方法抽取种子术语;使用人民日报语料作为对比语料抽取专利文献术语部件词库,提高候选术语的术语度;最后采用左右边界熵的方法对识别出的术语进行过滤。实验表明,所提出的方法具有较好的实验结果,正确率81.67%,召回率71.92%,F值0.765,较对比实验有较大提高。 展开更多
关键词 边界标记集 种子术语 部件库 左右边界熵
下载PDF
基于查询热度和实体识别的查询推荐 被引量:1
7
作者 任育伟 吕学强 +1 位作者 李卓 徐丽萍 《计算机应用研究》 CSCD 北大核心 2016年第3期657-660,共4页
查询推荐已经成为改善用户搜索体验和提高搜索引擎服务质量的重要方法,提高查询推荐串的质量和用户满意度显得尤为迫切。已有研究方法在相似度计算上忽略了命名实体的重要性和搜索日志整体的信息量度,通过对查询串进行聚类后的热度评估... 查询推荐已经成为改善用户搜索体验和提高搜索引擎服务质量的重要方法,提高查询推荐串的质量和用户满意度显得尤为迫切。已有研究方法在相似度计算上忽略了命名实体的重要性和搜索日志整体的信息量度,通过对查询串进行聚类后的热度评估,提取查询串中的命名实体;然后融合查询串热度信息和命名实体特征到相似度计算公式中,提出了一种新的查询推荐方法。该方法所得结果的满意度平均值均比最新的三种方法的推荐结果值高,表明了该方法的有效性;该方法在相似度计算上利用了识别出的命名实体,同时考虑了推荐串在全局日志中的热度,提高了推荐词的总体质量,但方法局限于提取特征的精确度,有赖于特征进一步的丰富和优化。 展开更多
关键词 聚类 特征提取 热度 命名实体 模板权重 查询推荐
下载PDF
一种办公软件自动化测试方法 被引量:3
8
作者 张林 李宁 +1 位作者 侯霞 田英爱 《北京信息科技大学学报(自然科学版)》 2020年第1期32-37,共6页
异构平台下,办公软件测试存在自动化程度低、测试方法难以重用等问题。提出了一种办公软件自动化测试方法。将接口的运行平台和渲染效果测试平台分离,使不同平台上的办公软件共享测试工具和环境,有效降低了异构平台下的测试难度。以测... 异构平台下,办公软件测试存在自动化程度低、测试方法难以重用等问题。提出了一种办公软件自动化测试方法。将接口的运行平台和渲染效果测试平台分离,使不同平台上的办公软件共享测试工具和环境,有效降低了异构平台下的测试难度。以测试案例为驱动,提高了测试的自动化程度。实验证明,该方法在办公软件测试上的准确率和效率更高。 展开更多
关键词 办公软件 接口测试 异构平台 自动化测试 批量测试
下载PDF
搜索日志中热点查询的内容抽取 被引量:1
9
作者 任育伟 吕学强 +1 位作者 李卓 徐丽萍 《计算机应用与软件》 CSCD 2015年第12期16-21,共6页
搜索日志中蕴含海量的信息,利用搜索日志进行挖掘以及分析热点查询内容,对于提高搜索服务的质量有很大的价值和意义。在融合K-means聚类中心迭代优点和查询词向量长度信息的基础上,提出SKHC(类K-means层次聚类)方法,并以该方法对搜索日... 搜索日志中蕴含海量的信息,利用搜索日志进行挖掘以及分析热点查询内容,对于提高搜索服务的质量有很大的价值和意义。在融合K-means聚类中心迭代优点和查询词向量长度信息的基础上,提出SKHC(类K-means层次聚类)方法,并以该方法对搜索日志聚类。然后,分析聚类后的查询用户数、查询频次、查询累计时间、查询数、统计量特征与热点查询的关系,提出基于各类热度值进行热点查询内容抽取的方法,同时融合了日志热度值和倒排日志频率统计特征。通过对抽取出的结果进行统计分析,并和日志所在月份发生的热点事件进行相关性比较,发现四川地震和北京奥运月平均热度分别达到最高的0.89和0.81,证明了该方法的有效性。 展开更多
关键词 搜索日志 聚类 热点查询 热度
下载PDF
融合多特征的专利功效短语识别 被引量:3
10
作者 罗艺雄 吕学强 游新冬 《中文信息学报》 CSCD 北大核心 2022年第12期139-148,共10页
专利功效短语是专利文本的关键信息,专利功效短语的识别是构建技术功效图的重要一环。针对现有功效短语识别方法精度较低的问题,该文提出融合多特征的专利功效短语识别方法。特征根据粒度大小,分为字符级特征和单词级特征,其中字符级特... 专利功效短语是专利文本的关键信息,专利功效短语的识别是构建技术功效图的重要一环。针对现有功效短语识别方法精度较低的问题,该文提出融合多特征的专利功效短语识别方法。特征根据粒度大小,分为字符级特征和单词级特征,其中字符级特征包括字符、字符拼音和字符五笔,单词级特征为包含当前字符的单词的集合。字符级特征使用Word2Vec或BERT进行向量化,单词级特征通过注意力机制将集合中单词的向量表示融合为匹配输入序列的单词级特征向量。在嵌入层融合各特征向量并将其输入到BiLSTM或Transformer进行编码,最后使用CRF解码得到对应输入序列的标签序列。该文使用新能源汽车领域的专利作为语料,分析了不同的特征组合和神经网络模型对功效短语识别效果的影响。实验结果表明,最优特征组合为Word2Vec字向量、BERT字向量、五笔特征向量和单词级特征向量。在最优特征组合的基础上,使用BiLSTM+CRF识别专利功效词短语的F_(1)值达到91.15%,识别效果优于现有方法,证明了该方法的有效性。 展开更多
关键词 专利功效短语 多特征融合 神经网络 注意力机制
下载PDF
基于融合模型的名词隐喻识别 被引量:1
11
作者 苏魁麟 张凯 +1 位作者 吕学强 张乐 《计算机技术与发展》 2022年第6期192-197,共6页
隐喻识别是自然语言处理各前沿领域中所面临的难题。为了解决名词性隐喻中忽视的潜在特征和语义的信息利用不足从而导致隐喻识别效果不高的问题,利用深度学习的优势,该文提出一种特征融合神经网络模型—CB,针对名词性隐喻进行识别。使... 隐喻识别是自然语言处理各前沿领域中所面临的难题。为了解决名词性隐喻中忽视的潜在特征和语义的信息利用不足从而导致隐喻识别效果不高的问题,利用深度学习的优势,该文提出一种特征融合神经网络模型—CB,针对名词性隐喻进行识别。使用卷积神经网络模型—CNN挖掘名词性隐喻句中的潜在特征,预训练表征模型—BERT对词语之间的关系和词的位置信息进行向量化表征,以此有效地学习名词性隐喻句中的语义信息。在隐藏层特征维度上融合两者提取到的信息,最后通过线性分类器进行识别。由于模型本身具有局限性,名词性隐喻句中还蕴含少量抽象的特性,因此无法只依靠模型挖掘所有的特征信息,但针对大部分非抽象名词性隐喻句能够在不耗费人力资源的条件下有较好的识别效果。经过实验对比发现CB模型在准确率上达到0.9047、召回率0.9362、F1值0.9262,其综合指标均高于现有的最优深度学习模型。 展开更多
关键词 隐喻识别 名词隐喻 特征融合 语义信息 CNN BERT
下载PDF
流式文档排版效果自动化测试方法
12
作者 左阔 李宁 +1 位作者 田英爱 侯霞 《计算机工程与应用》 CSCD 北大核心 2021年第2期273-278,共6页
为提高流式文档格式的标准符合性和兼容性测试效率,面向基于XML的流式文档,提出了一种排版效果自动化测试方法。结合流式文档特点和图像分析技术,通过逆向关联分析和排版格式分析实现对流式文档的排版效果分析,通过统计和层次分析法构... 为提高流式文档格式的标准符合性和兼容性测试效率,面向基于XML的流式文档,提出了一种排版效果自动化测试方法。结合流式文档特点和图像分析技术,通过逆向关联分析和排版格式分析实现对流式文档的排版效果分析,通过统计和层次分析法构建评价模型,对分析结果进行评价,给出量化的测试结果。相比人工测试可以大幅提高测试的自动化程度和准确率,对于文档格式标准的研制以及提高文字处理软件的质量均有重要的作用。 展开更多
关键词 自动化测试 文档格式 标准符合性测试 兼容性测试 版面效果分析
下载PDF
基于聚类和双向门控循环单元-条件随机场的多类型流式文档结构识别
13
作者 王娟 李宁 +1 位作者 姜雨彤 田英爱 《科学技术与工程》 北大核心 2021年第17期7208-7216,共9页
流式文档结构识别对于文档自动排版和优化、信息检索等领域有着重要作用。以往针对流式文档结构识别主要集中于学术论文领域,对于其他诸如公文、报告等多类型的文档结构识别研究较少。针对此现状,使用聚类的方法对文档进行分类,在此基... 流式文档结构识别对于文档自动排版和优化、信息检索等领域有着重要作用。以往针对流式文档结构识别主要集中于学术论文领域,对于其他诸如公文、报告等多类型的文档结构识别研究较少。针对此现状,使用聚类的方法对文档进行分类,在此基础上提出了针对不同文档分类的、基于双向门控循环单元-条件随机场(bidirectional gated recurrent unit-conditional random field,BIGRU-CRF)的文档结构识别方法,以此来解决多类型文档结构识别的问题。实验结果表明,该方法不仅能够提高学术论文结构识别的效果,对其他类型的文档结构也能够进行较好地识别。 展开更多
关键词 流式文档 结构识别 聚类 多类型文档
下载PDF
基于两点法的医疗化验单倾斜校正算法
14
作者 贾智彬 吕学强 +1 位作者 何健 董志安 《计算机与数字工程》 2022年第10期2280-2284,共5页
医疗化验单自动处理中,采集到的化验单不可避免地会出现倾斜现象,会给后续的处理和识别带来困难。论文提出一种基于两点法改进的倾斜校正方法,该方法将二值化后化验单中的斜线分割成多个近似直线的线段,通过最小求和方法得到其线段左右... 医疗化验单自动处理中,采集到的化验单不可避免地会出现倾斜现象,会给后续的处理和识别带来困难。论文提出一种基于两点法改进的倾斜校正方法,该方法将二值化后化验单中的斜线分割成多个近似直线的线段,通过最小求和方法得到其线段左右两个端点的坐标,然后计算化验单图像的倾斜角度,最后利用旋转变换将化验单进行倾斜校正。与传统校正方法相比,该校正方法对化验单的倾斜校正效果较好,具有速度快、正确率高的优点。 展开更多
关键词 医疗化验单 倾斜校正 两点法
下载PDF
基于构件理解的文档格式优化方法
15
作者 王娟 李宁 郝海利 《北京信息科技大学学报(自然科学版)》 2020年第5期14-19,共6页
针对文档纠错方法的不足,提出了一种统计与规则相结合的文档构件查错纠错方法。针对文档构件不同的错误情况,采取不同的查错纠错方法:对于文档局部构件的结构错误采用Schema有效性验证与统计相结合的方法处理;对于文档列表、标题、公式... 针对文档纠错方法的不足,提出了一种统计与规则相结合的文档构件查错纠错方法。针对文档构件不同的错误情况,采取不同的查错纠错方法:对于文档局部构件的结构错误采用Schema有效性验证与统计相结合的方法处理;对于文档列表、标题、公式等构件的编号内容采用规则的方法处理。实验表明,该方法有较好的纠错效果。 展开更多
关键词 文档纠错 文档构件 文档规范化
下载PDF
专利术语抽取的层次过滤方法 被引量:6
16
作者 侯婷 吕学强 李卓 《现代图书情报技术》 CSSCI 2015年第1期24-30,共7页
【目的】专利术语作为专利文献的核心内容和重要组成部分,其抽取任务是专利研究的基础工作。【方法】提出一种基于层次过滤的方法抽取专利术语。基于后缀数组获取重复字串作为候选词,根据候选词集合中无效字串的特点将其分为破碎字串、... 【目的】专利术语作为专利文献的核心内容和重要组成部分,其抽取任务是专利研究的基础工作。【方法】提出一种基于层次过滤的方法抽取专利术语。基于后缀数组获取重复字串作为候选词,根据候选词集合中无效字串的特点将其分为破碎字串、冗余字串和通用词,通过识别和过滤三类无效字串获得专利术语。分别提出计算独立性算法过滤破碎字串,相对活跃度计算方法和分词纠错法过滤冗余字串。【结果】实验结果表明,该方法对中文专利术语抽取有较好的效果,平均正确率为90.54%,平均召回率为87.33%。【局限】只针对重复字串,无法识别文献中出现频次为1的专利术语。【结论】该方法用于专利术语抽取是有效的。 展开更多
关键词 专利术语 层次过滤 独立性计算 相对活跃度
原文传递
中文专利侵权检测研究综述 被引量:3
17
作者 吕学强 罗艺雄 +1 位作者 李家全 游新冬 《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第3期60-68,共9页
【目的】分析并总结专利侵权检测的相关研究,为下一步研究提供理论基础和发展趋势。【文献范围】利用知网和Bing Scholar以"专利侵权"、"Patent Infringement"、"专利相似度"和"Patent Similarity&q... 【目的】分析并总结专利侵权检测的相关研究,为下一步研究提供理论基础和发展趋势。【文献范围】利用知网和Bing Scholar以"专利侵权"、"Patent Infringement"、"专利相似度"和"Patent Similarity"等关键词进行检索,经过手工筛选获得代表性文献53篇。【方法】总结基于聚类、基于向量空间模型、基于SAO(Subject-Action-Object)结构、基于深度学习和基于专利结构等专利侵权检测方法;在分析现有方法优缺点的基础上,总结优化专利侵权检测的方向。【结果】专利侵权检测旨在从大量专利文献中检索出小批量的侵权风险较高的专利,从而减少需要人工进行专利侵权判定的专利数量。专利侵权检测通过计算专利间相似度来判断专利侵权的风险,相似度主要使用不同粒度的统计信息计算得到。【局限】由于标准数据集的缺失,未能对专利侵权检测相关方法进行量化比较。【结论】提出从引入预训练模型、融合专利不同组成部分计算相似度和构建高质量的专利侵权检测数据集等方向开展该主题后继研究的建议。 展开更多
关键词 专利相似度 专利侵权检测 深度学习 人工智能
原文传递
基于专利知识图谱的专利术语相似度计算研究 被引量:5
18
作者 李家全 李宝安 +1 位作者 游新冬 吕学强 《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第10期104-112,共9页
【目的】利用专利知识图谱计算专利术语之间的相似度,从而计算专利文本之间的相似度以判断专利是否侵权。【方法】利用已构建的新能源汽车专利的知识图谱,结合术语的概念层次结构、术语在知识图谱中的距离、术语的语义相似度以及术语的... 【目的】利用专利知识图谱计算专利术语之间的相似度,从而计算专利文本之间的相似度以判断专利是否侵权。【方法】利用已构建的新能源汽车专利的知识图谱,结合术语的概念层次结构、术语在知识图谱中的距离、术语的语义相似度以及术语的属性计算术语之间的相似度。【结果】专利术语分类的准确率和召回率都在80%以上,相较于传统方法有明显提升。【局限】人工构建概念层次结构树以及标注术语的分类,可能会存在部分的分类错误。【结论】基于专利的知识图谱计算专利术语之间的相似度是可行的,使用分类的指标对方法进行评价时,指标的准确率达80%以上,对于后续的专利侵权检测研究具有很好的参考作用。 展开更多
关键词 专利知识图谱 专利术语相似度 专利侵权检测
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部