中文专利文献中连续符号串的语义识别被引量：1

Recognizing Semantics of Continuous Strings in Chinese Patent Documents

导出

摘要【目的】解决汉语文档中连续字符串的语义识别问题。【方法】使用钢铁冶金领域专利文献中已识别语义的部分符号串作为学习语料,利用基础特征、汉字特征、符号串特征进行测试,根据实验结果确定最佳模型。使用最佳模型,对规则未能判别语义的符号串展开测试。【结果】将测试结果与人工判别的真实角色进行比对,发现Y的P值最小为98.15%,最大为99.62%,N的P值最小为96.87%,最大为99.34%;Y的R值最小为96.56%,最大为99.04%,N的R值最小为98.73%,最大为99.67%;Y的F1值最小为97.71%,最大为99.33%;N的F1值最小为97.98%,最大为99.42%,可以看出识别效果较为理想。【局限】受学习语料规模的影响和研究时间的限制,未能将已识别角色的语料加入样本中学习。【结论】该模型在中文专利文献中连续符号串的语义判别方面具有较高的可行性、有效性和可移植性,为英文文献中符号串的语义判别提供思路。 [Objective] This paper aims to extract the semantic information from continuous strings in Chinese patent documents in the field of iron and steel metallurgy. [Methods] First, we collected strings with identified the semantics as the learning corpus. Then, we examined the basic features, as well as characteristics of Chinese characters and strings with the corpus to establish the best model. Finally, we used this model to recognize the semantics of other strings. [Results] The proposed model could effectively extract semantics of the continuous strings. [Limitations] We did not include the identified characters to the training corpus. [Conclusions] The new model could identify the semantics of continuous strings in Chinese patent documents, which could be used to study the continuous strings in English literature.

作者王雪颖王昊张紫玄 Wang Xueying;Wang Hao;Zhang Zixuan(School of Information Management, Nanjing University, Nanjing 210023, China;Jiangsu Key Laboratory of Data Engineering and Knowledge Service （Nanjing University）, Nanjing 210023, China)

机构地区南京大学信息管理学院江苏省数据工程与知识服务重点实验室(南京大学)

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第5期11-22,共12页 Data Analysis and Knowledge Discovery

基金江苏省"333工程"项目"面向知识服务的中文本体学习研究"(项目编号:BRA2015401) 国家自然科学基金青年项目"面向学术资源的TSD与TDC测度及分析研究"(项目编号:71503121)的研究成果之一

关键词中文专利钢铁冶金领域连续符号串语义识别 Chinese Patent Documents Iron and Steel Metallurgy Continuous Strings Semantic Recognition

分类号 G306 [文化科学]

引文网络
相关文献

参考文献30

1陈志雄,曾辉.中文专利文献自动分类[J].嘉应学院学报,2010,28(2):24-29. 被引量：2
2徐川,施水才,房祥,吕学强.中文专利文献术语抽取[J].计算机工程与设计,2013,34(6):2175-2179. 被引量：10
3王密平,王昊,邓三鸿,吴志祥.基于CRFs的冶金领域中文专利术语抽取研究[J].现代图书情报技术,2016(6):28-36. 被引量：12
4罗俊,王清丽,张华,林彦铨,陈由强.不同甘蔗基因型光合特性的数值分类[J].应用与环境生物学报,2007,13(4):461-465. 被引量：13
5刘晓云,陈文新.三叶草、猪屎豆和含羞草植物根瘤菌16S rDNA PCR-RFLP分析和数值分类研究[J].中国农业大学学报,2003,8(3):1-6. 被引量：22
6刘勇,孙中海,刘德春,吴波,江东.部分柚类品种数值分类研究[J].果树学报,2006,23(1):35-40. 被引量：26
7杜琪珍,李名君,刘维华,王海思.茶组植物的化学分类及数值分类[J].茶叶科学,1990,10(2):1-12. 被引量：29
8罗礼溥,郭宪国.云南医学革螨数值分类研究(英文)[J].热带医学杂志,2007,7(1):7-10. 被引量：4
9陈晓琴,陈强,张世熔,赵芯,赵珂,吴翔.流沙河流域土壤自生固氮菌数值分类及BOX-PCR研究[J].农业环境科学学报,2006,25(B09):528-532. 被引量：14
10么枕生.用于数值分类的聚类分析[J].海洋湖沼通报,1994(2):1-12. 被引量：34

二级参考文献367

1赵静雅,张孝羲,张广学,陈晓峰.棉蚜种下变型的数值分类研究[J].昆虫学报,2002,45(z1):123-127. 被引量：5
2陈振光,赖钟雄.中国柚的种质资源及其研究[J].福建农学院学报,1993,22(3):290-295. 被引量：15
3李阳兵.大渡河流域生态环境建设问题[J].云南地理环境研究,2004,16(4):5-9. 被引量：4
4吕学强,张乐,黄志丹,胡俊峰.基于散列技术的快速子串归并算法[J].复旦学报（自然科学版）,2004,43(5):948-951. 被引量：4
5王丽侠,李英慧,李伟,朱莉,关媛,宁学成,关荣霞,刘章雄,常汝镇,邱丽娟.长江春大豆核心种质构建及分析[J].生物多样性,2004,12(6):578-585. 被引量：37
6陈强,陈文新,张小平,李登煜,K.Lindstrom.省葛藤属根瘤菌的遗传多样性研究[J].中国农业科学,2004,37(11):1641-1646. 被引量：17
7陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
8钟广炎,叶荫民.柑桔植物的数值分类学研究[J].植物分类学报,1993,31(3):252-260. 被引量：18
9葛煦,卢宝华,杨湘华.谈高校科技发展中专利文献的利用[J].技术与创新管理,2005,26(1):68-70. 被引量：6
10罗俊,张华,邓祖湖,徐良年,高三基,陈如凯,陈由强.甘蔗不同叶位叶片形态与冠层特征的关系[J].应用与环境生物学报,2005,11(1):28-31. 被引量：22

共引文献379

1薛福亮,刘丽芳.一种基于CRF与ATAE-LSTM的细粒度情感分析方法[J].数据分析与知识发现,2020,4(2):207-213. 被引量：9
2罗军武,施兆鹏.茶树种质资源亲缘关系的研究进展[J].生命科学研究,2000,4(S1):102-107. 被引量：4
3于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
4刘晶淼,丁裕国,申红艳.我国农业气候资源区划研究进展与述评[J].气象科技进展,2011,1(1):30-34. 被引量：4
5罗天琼,谭金玉,莫本田,赵明坤,龙忠富.猪屎豆种子萌发特性研究[J].湖北农业科学,2013,52(16):3878-3883. 被引量：5
6屈兴豫,闫伟.生态系统中根系共生的主要类型及其研究进展[J].内蒙古农业大学学报（自然科学版）,2004,25(2):130-136. 被引量：2
7曲永玲,陈新民.聚类分析法在土层划分中的应用[J].南京工业大学学报（自然科学版）,2005,27(5):85-88. 被引量：8
8李娟,江昌俊,王朝霞.中国茶树初选核心种质遗传多样性的RAPD分析[J].遗传,2005,27(5):765-771. 被引量：13
9刘吉峰,李世杰,丁裕国,陆其峰.一种用于中国年最高(低)气温区划的新的聚类方法[J].高原气象,2005,24(6):966-973. 被引量：23
10陈国顺.运用聚类分析和主成分分析筛选猪的血清指标[J].甘肃农业大学学报,2005,40(6):723-727. 被引量：15

同被引文献3

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：381
2张桂平,刘东生,尹宝生,徐立军,苗雪雷.面向专利文献的中文分词技术的研究[J].中文信息学报,2010,24(3):112-116. 被引量：17
3俞琰,陈磊,姜金德,赵乃瑄.结合词向量和统计特征的专利相似度测量方法[J].数据分析与知识发现,2019,3(9):53-59. 被引量：10

引证文献1

1肖悦珺,李红莲,张乐,吕学强,游新冬.特征融合的中文专利文本分类方法研究[J].数据分析与知识发现,2022,6(4):49-59. 被引量：8

二级引证文献8

1郭潇楠,王仁超,毛三军,彭相国.施工组织设计文档智慧辅助审查中的文本分类问题研究[J].科学技术与工程,2022,22(36):16180-16188. 被引量：1
2刘向,刘香,余博文.创新二重性视角下明星发明人类型的早期识别[J].数据分析与知识发现,2023,7(2):119-128. 被引量：2
3杨超宇,陈雯君,耿显亚.基于改进SVM的中文专利文本分类比较研究[J].武汉理工大学学报（信息与管理工程版）,2023,45(2):292-298. 被引量：3
4张国防,王鑫,徐建民.基于主题词共现的文档非对称关系量化研究[J].数据分析与知识发现,2023,7(3):110-120. 被引量：1
5赵雪峰,吴德林,吴伟伟,孙卓荦,胡瑾瑾,廉莹,单佳宇.基于深度学习与多分类轮询机制的高质量“卡脖子”技术专利识别模型——以专利申请文件为研究主体[J].数据分析与知识发现,2023,7(8):30-45. 被引量：3
6孙盟盟,奚洋洋.面向科技文献的国内外知识挖掘研究热点与展望——基于WOS核心合集与CNKI数据库的计量分析[J].河北科技图苑,2023,36(5):66-75.
7阮光册,周萌葳.基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例[J].情报杂志,2024,43(2):110-117. 被引量：1
8赵悦阳,崔雷.基于融合矩阵的文本相似度计算实现检索结果聚类[J].医学信息学杂志,2024,45(3):58-64.

1许丹虹.写字教学中的观察指导策略刍探[J].成才之路,2017,0(34):85-85.
2张海超,赵良伟.利用Doc2Vec判断中文专利相似性[J].情报工程,2018,4(2):64-72. 被引量：9
3吴鹏,张叙,路霞.基于模型检测方法的中文专利法律状态数据清洗研究[J].情报理论与实践,2018,41(3):49-56. 被引量：7
4彭艳.新闻校对出错的成因及对策探讨[J].传播力研究,2018,0(9):156-156. 被引量：1
5马炜,陈丽聪,王雪军,黄国胜.西藏主要天然林树种单木材积生长率模型[J].中南林业科技大学学报,2018,38(4):40-45. 被引量：5
6于玉海,林鸿飞,孟佳娜,郭海,赵哲焕.跨模态多标签生物医学图像分类建模识别[J].中国图象图形学报,2018,23(6):917-927. 被引量：11
7黄宝山,邹浙湘,温开元,吴光德.基于随机抽样一致性算法的PCB板定位方法研究[J].自动化与仪器仪表,2018,0(6):10-13. 被引量：2
8孙安,于英香,罗永刚,王祺.序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例[J].图书情报工作,2018,62(11):103-111. 被引量：9

数据分析与知识发现

2018年第5期

浏览历史

内容加载中请稍等...

中文专利文献中连续符号串的语义识别被引量：1

参考文献30

二级参考文献367

共引文献379

同被引文献3

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

中文专利文献中连续符号串的语义识别 被引量：1

参考文献30

二级参考文献367

共引文献379

同被引文献3

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

中文专利文献中连续符号串的语义识别被引量：1