期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
基于改进SVM的中文专利文本分类比较研究 被引量:3
1
作者 杨超宇 陈雯君 耿显亚 《武汉理工大学学报(信息与管理工程版)》 2023年第2期292-298,303,共8页
为深入挖掘中文专利文本特征,使专利类别划分更清晰、技术联系更紧密。首先,从专利信息平台爬取智能家居领域专利,构建智能家居专利信息语料库并进行分词与去停用词处理;其次,通过TF-IDF-LDA和均值Word2Vec两种自然语言处理算法,分别对... 为深入挖掘中文专利文本特征,使专利类别划分更清晰、技术联系更紧密。首先,从专利信息平台爬取智能家居领域专利,构建智能家居专利信息语料库并进行分词与去停用词处理;其次,通过TF-IDF-LDA和均值Word2Vec两种自然语言处理算法,分别对语料库中的文本信息向量化并输出结果,绘制词云图展示筛选出的具有文档代表性的词语;最后,引入SVM进行文本分类并将两组平行实验的分类结果进行对比分析选出最优模型。通过样本上采样解决数据分布不均问题,进一步提升专利分类的准确率。结果表明:均值Word2Vec准确率为97.15%,而LDA准确率为86.91%,经过采样优化后的均值Word2Vec模型准确率为98.51%。为中文专利文本再分类提供新思路,有助于深入挖掘关键共现技术,促进国家产学研一体化发展。 展开更多
关键词 LDA主题模型 均值Word2Vec 支持向量机 产学研 中文专利分类
下载PDF
面向本体学习的中文专利术语抽取研究 被引量:18
2
作者 王昊 王密平 苏新宁 《情报学报》 CSSCI 北大核心 2016年第6期573-585,共13页
本文提出了一个无或少训练语料环境下抽取中文专利术语的解决方案。以"钢铁冶金"领域专利文本为例,首先总结了该领域中文术语的基本特征,进而建立了基于字角色标注的机器学习术语识别模型,并通过循环迭代方式重复条件随机场... 本文提出了一个无或少训练语料环境下抽取中文专利术语的解决方案。以"钢铁冶金"领域专利文本为例,首先总结了该领域中文术语的基本特征,进而建立了基于字角色标注的机器学习术语识别模型,并通过循环迭代方式重复条件随机场的学习过程,最大限度避免因核心词汇库代替人工带来的标注不准确不充分问题;在此基础上,进一步依据合成规则构造新术语,并经过领域专家确认后添加至核心词汇库中。经过实验论证,基于字角色标注的基本术语抽取F1值高于94%,而基于合成规则的复杂术语抽取准确率也可达到75%。在7597件专利的题名和摘要文本中,最终可获得中文基本术语244672个,合成术语61536个,为领域本体的构建奠定了基础。 展开更多
关键词 中文专利术语 机器学习 条件随机场 字角色标注 循环迭代 合成规则 本体学习
下载PDF
中文专利侵权检索模型研究 被引量:8
3
作者 马文姗 赵海宁 翟东升 《情报杂志》 CSSCI 北大核心 2012年第4期175-179,195,共6页
随着专利数量的剧增,专利侵权检索的重要性越来越凸显。目前专利侵权检索方法主要是以布尔检索为主,并且大多数研究是针对英文、日文专利进行的,对中文专利侵权检索缺乏系统性的研究。本文在研究中文专利权利要求书的特点及专利侵权判... 随着专利数量的剧增,专利侵权检索的重要性越来越凸显。目前专利侵权检索方法主要是以布尔检索为主,并且大多数研究是针对英文、日文专利进行的,对中文专利侵权检索缺乏系统性的研究。本文在研究中文专利权利要求书的特点及专利侵权判定原则的基础上,提出了一种改进的侵权判定方法,与以往的相似度计算方法相比具有一定的进步性。 展开更多
关键词 专利侵权 本体 覆盖度 中文专利权利要求书
下载PDF
基于权利要求结构信息的中文专利无效检索模型 被引量:4
4
作者 刘玉琴 汪雪锋 吕琳 《计算机应用研究》 CSCD 北大核心 2008年第7期2068-2070,共3页
中文专利独立权利要求分为前序部分和特征部分。文中构建的专利无效检索模型,充分考虑了这一信息,从专利数据库中统计出40个分割词对独立权利要求进行分割处理。具体检索中采用两步检索:第一步进行布尔检索以提高召回率;第二步对申请专... 中文专利独立权利要求分为前序部分和特征部分。文中构建的专利无效检索模型,充分考虑了这一信息,从专利数据库中统计出40个分割词对独立权利要求进行分割处理。具体检索中采用两步检索:第一步进行布尔检索以提高召回率;第二步对申请专利与第一步返回专利独立权利要求的前序部分和特征部分分别进行相似度计算,适当组合后作为整体的相似度。实验中对分割前后以及分割后不同的词语权重选择方法对检索效果的影响作了比较,结果显示该模型是非常有效的。 展开更多
关键词 中文专利 专利检索 无效检索 权利要求 相似性
下载PDF
基于SOM的中文专利侵权检测研究 被引量:9
5
作者 武玉英 马羽翔 翟东升 《情报杂志》 CSSCI 北大核心 2014年第2期33-39,共7页
知识产权作为一种重要的生产要素,得到广泛关注,专利侵权检测是规避侵权和防范第三方侵权的有效手段。但专利信息具有规模大、专业程度高的特点,增加了侵权检测的难度。专利侵权检测通常以基于专利文本向量的相似度测量为主,但本文考虑... 知识产权作为一种重要的生产要素,得到广泛关注,专利侵权检测是规避侵权和防范第三方侵权的有效手段。但专利信息具有规模大、专业程度高的特点,增加了侵权检测的难度。专利侵权检测通常以基于专利文本向量的相似度测量为主,但本文考虑到大量专利数据的环境下,中文专利文本向量呈现出高维稀疏的特性,难以通过相似度的测量达到高效检测的目标,因此,本文提出采用基于SOM算法的模糊聚类对专利侵权进行判定,为专利审查人员和专利的利益相关者提供可视化程度高、技术特点细分的专利侵权检测方法。 展开更多
关键词 侵权检测 中文专利 模糊聚类 知识产权 专利检测
下载PDF
中文专利术语层次关系解析研究 被引量:7
6
作者 吴志祥 王昊 王密平 《情报学报》 CSSCI CSCD 北大核心 2017年第4期401-410,共10页
对非结构化专利文本中的领域术语进行抽取以及语义关系的解析是挖掘蕴藏在专利文献中的丰富知识,并进行深入应用的前提。本文在领域专利术语有效抽取的基础上,探讨并实现较大规模术语层次关系的解析,构建了含有层次关系的领域知识本体... 对非结构化专利文本中的领域术语进行抽取以及语义关系的解析是挖掘蕴藏在专利文献中的丰富知识,并进行深入应用的前提。本文在领域专利术语有效抽取的基础上,探讨并实现较大规模术语层次关系的解析,构建了含有层次关系的领域知识本体。着重研究了基于位置加权的术语语义空间构建方法,基于主成分分析降维技术进行术语分布可视化以辅助聚类类目的确定方法以及术语层次关系结构中非重复性类目标签的抽取方法。本文工作尽可能实现了较大规模中文专利术语层次关系解析的自动化进行,为术语非层次关系解析以及基于术语语义关系解析的深入应用打下基础。 展开更多
关键词 中文专利术语 位置加权 PCA降维 类目标签抽取 术语层次关系 本体学习
下载PDF
面向中文专利文献的有标记并列结构的统计分析 被引量:4
7
作者 石翠 周俏丽 张桂平 《中文信息学报》 CSCD 北大核心 2013年第5期43-50,59,共9页
该文在中文专利语料的基础上,统计分析了中文专利文献中有标记并列结构的内部特征和外部特征。内部特征主要考察了中文专利文献中有标记并列结构的并列标记、并列结构内部分析和词性分布等。外部特征主要统计了可能的边界特征词,并分析... 该文在中文专利语料的基础上,统计分析了中文专利文献中有标记并列结构的内部特征和外部特征。内部特征主要考察了中文专利文献中有标记并列结构的并列标记、并列结构内部分析和词性分布等。外部特征主要统计了可能的边界特征词,并分析了有标记并列结构在中文专利文献中出现的外部环境。 展开更多
关键词 有标记并列结构 中文专利文献 内部特征 外部特征
下载PDF
基于马尔科夫逻辑网的中文专利最大名词短语识别 被引量:2
8
作者 蔡东风 赵奇猛 +1 位作者 饶齐 王裴岩 《中文信息学报》 CSCD 北大核心 2016年第4期21-28,共8页
缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔... 缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔符的识别上,利用句子自身特征、领域迁移特征以及双语对齐特征来识别最大名词短语的边界。结果说明,双语信息较好地促进了动词、介词、连词等MNP边界的识别。MNP识别的F值可达83.27%。 展开更多
关键词 最大名词短语 马尔科夫逻辑网 中文专利
下载PDF
中文专利发明人重名消解问题研究
9
作者 邢晓昭 郑彦宁 《数字图书馆论坛》 CSSCI 2018年第10期2-8,共7页
专利发明人分析为技术人才评价和科研团队识别提供有力的数据支撑。然而,中文姓名存在大量重名现象,使得基于发明人的研究结果出现偏差。本文提出一种基于规则的中文专利发明人重名消解方法。针对专利申请人因为并购、拆分、重组或战略... 专利发明人分析为技术人才评价和科研团队识别提供有力的数据支撑。然而,中文姓名存在大量重名现象,使得基于发明人的研究结果出现偏差。本文提出一种基于规则的中文专利发明人重名消解方法。针对专利申请人因为并购、拆分、重组或战略转型等原因造成的名称不一致情况,采用基于向量空间模型的余弦相似度算法进行识别;针对因门牌号书写不规范而造成的地址不一致情况,采用基于邮编和门牌地址的分级匹配算法进行识别;合作者相似度采用Jaccard系数计算。以中国科学技术信息研究所《电动汽车专题数据库》为例,验证该方法的科学性和有效性。 展开更多
关键词 重名消解 中文专利 发明人 相似度 向量空间模型
下载PDF
中文专利文本聚类方法研究
10
作者 林俊 黄雄杰 陈平 《海峡科学》 2013年第12期31-33,共3页
该文提出了一种针对中文专利文本的聚类方法。使用自组织特征映射算法获得初始的聚类中心,并以此作为K-means算法的初始输入,从而得到最终的聚类结果。这样的组合可以在提高聚类准确率的同时,降低运行时间。在聚类之前还对文本进行LSI... 该文提出了一种针对中文专利文本的聚类方法。使用自组织特征映射算法获得初始的聚类中心,并以此作为K-means算法的初始输入,从而得到最终的聚类结果。这样的组合可以在提高聚类准确率的同时,降低运行时间。在聚类之前还对文本进行LSI降维操作,降低了特征向量的维数,使得SOM和K-means两个对维数敏感的算法可以更加有效和快捷。 展开更多
关键词 K-MEANS SOM LSI 文本聚类 中文专利
下载PDF
中文专利文献名词性短语中的并列结构的标注和分析
11
作者 刘小蝶 《曲靖师范学院学报》 2017年第5期42-46,共5页
在HNC理论的指导下,在30篇共3613句的中文专利文献基础上,从数量、层级、语义类型、语义特征、干扰特征、结构特征、外部环境和位置特征等八个维度对中文专利文献名词性短语中并列结构进行语料标注,进而分析并列结构的分类及其分布情况... 在HNC理论的指导下,在30篇共3613句的中文专利文献基础上,从数量、层级、语义类型、语义特征、干扰特征、结构特征、外部环境和位置特征等八个维度对中文专利文献名词性短语中并列结构进行语料标注,进而分析并列结构的分类及其分布情况,并在此基础上考察并总结并列结构的语义特征、结构特征和外部词特征,目的是辅助设计自动识别汉语名词性短语并列结构的策略、语言学规则和算法。 展开更多
关键词 语言学 中文专利文献 并列结构 语义块 语义特征
下载PDF
基于词句重要性的中文专利关键词自动抽取研究 被引量:5
12
作者 王志宏 过弋 《情报理论与实践》 CSSCI 北大核心 2018年第9期123-129,160,共8页
[目的/意义]专利关键词是对专利核心内容的概括,高效准确地抽取专利关键词不仅可以辅助人们对专利的快速查找,同时对专利分类、聚类、翻译等具有重要意义。[方法/过程]提出了"关键词在关键句中"的关键词抽取新思路。首先构建... [目的/意义]专利关键词是对专利核心内容的概括,高效准确地抽取专利关键词不仅可以辅助人们对专利的快速查找,同时对专利分类、聚类、翻译等具有重要意义。[方法/过程]提出了"关键词在关键句中"的关键词抽取新思路。首先构建了一个联合句网络语义图特征和启发式规则特征的专利摘要句排序模型,然后仅选择Top-KS%的句子参与关键词计算,同时将句子语义权重参数引入到关键词权重计算过程中,从而使得句子的重要性传递到句中的词上。[结果/结论]在真实中文专利数据集中实验表明,从中文专利中选择适当比例关键句参与关键词抽取计算,相较于传统关键词抽取算法F值提升了6%~13%左右,有效地降低原始文档的噪声数据,提升了关键词抽取的效果。 展开更多
关键词 中文专利 关键句 句排序 专利关键词 自动抽取
下载PDF
面向中文专利的开放式实体关系抽取研究 被引量:3
13
作者 赵奇猛 王裴岩 +1 位作者 冯好国 蔡东风 《计算机工程与应用》 CSCD 北大核心 2015年第1期125-129,171,共6页
针对传统实体关系抽取需要预先指定关系类型和制定抽取规则等无法胜任大规模文本的情况,开放式信息抽取(Open Information Extraction,OIE)在以英语为代表的西方语言中取得了重大进展,但对于汉语的研究却显得不足。为此,研究了在组块层... 针对传统实体关系抽取需要预先指定关系类型和制定抽取规则等无法胜任大规模文本的情况,开放式信息抽取(Open Information Extraction,OIE)在以英语为代表的西方语言中取得了重大进展,但对于汉语的研究却显得不足。为此,研究了在组块层次标注基础上应用马尔可夫逻辑网分层次进行中文专利开放式实体关系抽取的方法。实验表明:以组块为出发点降低了对句子理解的难度,外层和内层组块可以统一处理,减少了工程代价;而且在相同特征条件下与支持向量机相比,基于马尔可夫逻辑网的关系抽取效果更理想,外层和内层识别结果的F值分别可达到77.92%和69.20%。 展开更多
关键词 中文专利依存树库 开放式实体关系抽取 MARKOV逻辑网
下载PDF
基于word2vec和logistic回归的中文专利文本分类研究 被引量:5
14
作者 程盼 徐弼军 《浙江科技学院学报》 CAS 2021年第6期454-460,共7页
专利文本作为重要的信息载体,对其实现自动分类具有重要的研究意义。针对海量的专利文本,提出一种基于word2vec和logistic回归的中文专利文本分类模型的机器学习方法。本方法利用word2vec产生的词向量对专利文本进行表示,然后配合logis... 专利文本作为重要的信息载体,对其实现自动分类具有重要的研究意义。针对海量的专利文本,提出一种基于word2vec和logistic回归的中文专利文本分类模型的机器学习方法。本方法利用word2vec产生的词向量对专利文本进行表示,然后配合logistic回归模型,对专利说明和摘要合并的文本语料进行学习和训练,从而实现对专利文本的自动分类。试验结果表明,我们提出的机器学习方法能够得到较好的分类效果,其中个别类别的分类准确率达到了84%;并且与k近邻算法相比,该模型在精确度、召回率及F_(1)值方面均有显著提高。本方法可为专利文本自动分类提供可靠的研究依据。 展开更多
关键词 中文专利 文本分类 word2vec LOGISTIC回归 机器学习
下载PDF
中文专利属性值对抽取技术及应用 被引量:1
15
作者 孙东普 朱鸣华 林鸿飞 《计算机工程与科学》 CSCD 北大核心 2016年第4期800-806,共7页
专利信息抽取是专利分析的基础,属性及属性值的识别与抽取是专利信息抽取所要解决的关键问题。目前,在中文专利信息抽取领域针对属性和属性值同步抽取的研究较少。本文以中文专利摘要作为实验语料,运用统计学习知识,提出一种基于条件随... 专利信息抽取是专利分析的基础,属性及属性值的识别与抽取是专利信息抽取所要解决的关键问题。目前,在中文专利信息抽取领域针对属性和属性值同步抽取的研究较少。本文以中文专利摘要作为实验语料,运用统计学习知识,提出一种基于条件随机场的抽取方法。该方法将属性和属性值视为命名实体,利用语料训练得到条件随机场模型,从而实现对属性和属性值的抽取;再利用挖掘的关联规则完成属性与属性值匹配。实验结果的准确率、召回率和F值分别是80.8%、81.2%和81.0%,其表明该方法能够高效同步抽取属性和属性值。同时,在抽取结果的基础上,本文完成了对专利的分析和同类专利的比较,体现了本方法的实用价值。 展开更多
关键词 属性抽取 属性值抽取 中文专利 条件随机场
下载PDF
中文专利文档关键词自动提取方法研究进展 被引量:1
16
作者 马运运 孙志一 +1 位作者 刘海波 彭勇 《世界科学技术-中医药现代化》 2015年第1期29-34,共6页
专利是一种包含学术、商业、法律等信息的科技文献,记录了大量新颖、实用的研究成果,近年来关注度不断提高。利用共词分析、文本聚类等方法对专利文献进行信息分析时,往往需要借助关键词提取技术达到降低数据复杂度、过滤噪声的目的。... 专利是一种包含学术、商业、法律等信息的科技文献,记录了大量新颖、实用的研究成果,近年来关注度不断提高。利用共词分析、文本聚类等方法对专利文献进行信息分析时,往往需要借助关键词提取技术达到降低数据复杂度、过滤噪声的目的。关键词提取技术多数基于统计规律。本文对基于词频、关联信息和多特征的关键词提取方法研究进展进行了总结,介绍了常用的分别以TF-IDF、熵、词汇链、Text Rank、遗传算法、决策树学习、朴素贝叶斯分类器、支持向量机等为主导的方法。另外,本文还总结了在专利文档关键词提取中可能用到的词频、位置、语义、关联、自身等方面的特征。实际应用中,关键词自动提取技术可作为一种有力的辅助手段,降低数据处理过程中的人力和时间成本。 展开更多
关键词 中文专利文档 关键词提取 TF-IDF 关联信息 机器学习
下载PDF
KEC:基于cw2vec的中文专利关键词提取方法 被引量:1
17
作者 谭婷婷 陈高荣 徐建 《计算机应用研究》 CSCD 北大核心 2020年第10期2907-2911,2916,共6页
关键词提取是诸多文本挖掘任务的前置任务,其精度直接影响了下游任务的性能。以中文专利为研究对象,针对专利文本的特点,将关键词提取问题转换成词向量聚类问题,提出了一种基于cw2vec词向量的关键词提取方法,称为KEC。该方法首先利用科... 关键词提取是诸多文本挖掘任务的前置任务,其精度直接影响了下游任务的性能。以中文专利为研究对象,针对专利文本的特点,将关键词提取问题转换成词向量聚类问题,提出了一种基于cw2vec词向量的关键词提取方法,称为KEC。该方法首先利用科技文献的关键词以及开源词典构建领域词典;接着,基于领域词典对专利文本进行预处理获取候选关键词,并采用构建cw2vec模型获得候选关键词的词向量表示;最后,采用聚类算法提取最终的关键词。在真实的专利数据集上进行了实验验证,结果表明KEC在精确率、召回率、综合指标F 1等指标项上优于现有的其他基于词聚类的关键词提取方法。 展开更多
关键词 中文专利 词向量 关键词提取 词聚类
下载PDF
中文专利文献摘要的知识表示 被引量:1
18
作者 郑红 胡思康 《山东科技大学学报(自然科学版)》 CAS 2015年第5期104-108,共5页
在分析与领域相关的中文专利文献摘要内容和结构的基础上,提出用三元组语义网络表示知识以及知识间的语义关系,并用一阶谓词逻辑分析语义三元组的语义。推导出专利文献知识融合将要面临的问题,包括句法分析后获取的描述性知识的不一致... 在分析与领域相关的中文专利文献摘要内容和结构的基础上,提出用三元组语义网络表示知识以及知识间的语义关系,并用一阶谓词逻辑分析语义三元组的语义。推导出专利文献知识融合将要面临的问题,包括句法分析后获取的描述性知识的不一致、信息的补足、冗余的发现和模糊信息的处理等。研究成果为后续中文专利文献知识融合分析和推理奠定了基础。 展开更多
关键词 知识表示 中文专利文献 三元组语义网络 一阶谓词逻辑 本体
下载PDF
基于预训练语言模型的中文专利自动分类研究 被引量:1
19
作者 马俊 吕璐成 +1 位作者 赵亚娟 李聪颖 《中华医学图书情报杂志》 CAS 2022年第11期20-28,共9页
目的:支撑大规模中文专利精准自动分类工作,利用改进中文专利文本表示的预训练语言模型实现专利的自动分类。方法:基于中文预训练语言模型RoBERTa,在大规模中文发明专利语料上分别使用单字遮盖策略和全词遮盖策略遮盖语言模型任务进行... 目的:支撑大规模中文专利精准自动分类工作,利用改进中文专利文本表示的预训练语言模型实现专利的自动分类。方法:基于中文预训练语言模型RoBERTa,在大规模中文发明专利语料上分别使用单字遮盖策略和全词遮盖策略遮盖语言模型任务进行迁移学习,得到改进中文专利文本表示的RoBERTa模型(ZL-RoBERTa)和RoBERTa-wwm模型(ZL-RoBERTa-wwm);将模型应用到专利文本分类任务中进行实验研究,并与典型深度学习模型(Word2Vec+BiGRU+ATT+TextCNN)和当前先进的预训练语言模型BERT、RoBERTa进行对比分析。结果:基于ZL-RoBERTa和ZL-RoBERTa-wwm的中文专利自动分类模型在专利文本分类任务上的分类精准率/召回率/F1值更为突出。结论:改进文本表示的中文专利预训练语言模型用于专利文本分类具有更优效果,这为后续专利情报工作中应用预训练模型提供了模型基础。 展开更多
关键词 中文专利 文本表示 预训练语言模型 文本分类
下载PDF
基于中文专利的产业概念层次体系构建方法研究
20
作者 李贞贞 钟永恒 《情报杂志》 CSSCI 北大核心 2020年第9期73-80,共8页
[目的/意义]构建丰富的产业概念层次体系,有助于对产业数据资源进行有序组织,研究构建过程中关键词识别与层级关系确定的方法。[方法/过程]以产业中文专利数据为来源,引入平衡语料与平均信息熵提取通用词并过滤;融合位置、词性、TF-IDF... [目的/意义]构建丰富的产业概念层次体系,有助于对产业数据资源进行有序组织,研究构建过程中关键词识别与层级关系确定的方法。[方法/过程]以产业中文专利数据为来源,引入平衡语料与平均信息熵提取通用词并过滤;融合位置、词性、TF-IDF与外部知识库特征,改进TextRank模型有效识别关键词;最后结合产业专家知识、深度学习和近邻传播聚类(AP)算法生成产业概念层次体系。[结果/结论]实验选取“汽车制造”产业进行实证分析,结果显示在关键词抽取上较传统方法有了明显的提高,自动生成的三层次体系包含6个一级关键词和23个二级关键词。该方法能够有效提升构建效率,实现高效的动态更新,为产业数据资源科学管理提供新思路。 展开更多
关键词 产业概念层次体系 中文专利 TextRank模型 近邻传播聚类算法 通用词 平均信息熵
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部