中文专利权利要求书分词算法研究被引量：6

Research the Algorithm of Chinese Patent Claims Segmentation

下载PDF

导出

摘要中文专利权利要求书是一种半结构化的文本,应对各种检索需要,迫切需要将中文专利权利要求进行分词处理。本文在总结中文专利权利要求书的特点的基础上,提出了一种基于领域词典和规则相结合的面向中文专利权利要求书的中文分词模型,并对词典、规则的构建进行了说明。该方法在封闭式测试条件下取得了较好的分词结果,能够将文本分割为有意义的实体,并且对未登录词的识别效果较好。 Chinese claim is a semi-structured text. To deal with various search needs, the urgent need to word segmentation of Chinese patent claims. This paper summarizes the characteristics of Chinese patent claims and presented a field dictionaries and rules model to solve the word segmentation of Chinese patent claims. Besides, it described the construction of the dictionary and the rules. The method achieved good segmentation results in a closed test conditions that is the ability to split the text into meaningful entities. And the identification of unknown words is better.

作者翟东升马文姗

机构地区北京工业大学经济与管理学院

出处《情报杂志》 CSSCI 北大核心 2011年第11期152-155,共4页 Journal of Intelligence

基金北京自然科学基金"知识产权预警机制信息服务平台研究"(编号:9092002) 北京教委科技项目"基于MAS的专利预警系统关键技术研究"(编号:KM200910005027)研究成果之一

关键词中文分词领域词典中文权利要求书 Chinese word segmentation fiend dictionary Chinese claim

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1张桂平,刘东生,尹宝生,徐立军,苗雪雷.面向专利文献的中文分词技术的研究[J].中文信息学报,2010,24(3):112-116. 被引量：17

二级参考文献9

1孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
2张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
3黄昌宁.统计语言模型能做什么?[J].语言文字应用,2002(1):77-84. 被引量：31
4沈达阳,孙茂松,黄昌宁.汉语自动分词和词性标注一体化系统[J].中文信息,1996,13(5):17-19. 被引量：5
5黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
6刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1):17-25. 被引量：65
7宋彦,蔡东风,张桂平,赵海.一种基于字词联合解码的中文分词方法[J].软件学报,2009,20(9):2366-2375. 被引量：42
8刘挺,吴岩,王开铸.最大概率分词问题及其解法[J].哈尔滨工业大学学报,1998,30(6):37-41. 被引量：16
9赵铁军,吕雅娟,于浩,杨沐昀,刘芳.提高汉语自动分词精度的多步处理策略[J].中文信息学报,2001,15(1):13-18. 被引量：30

共引文献16

1李桂菊,陈伟,金波.天然气水合物研究相关专利申请趋势分析[J].可再生能源,2011,29(5):145-148. 被引量：2
2蔡君,张淋辉.通向三代移动通信的桥梁：GPRS技术及其解决方案概览[J].互联网世界,2000(4):26-31.
3岳金媛,徐金安,张玉洁.面向专利文献的汉语分词技术研究[J].北京大学学报（自然科学版）,2013,49(1):159-164. 被引量：16
4李莉,刘知远,孙茂松.基于中英平行专利语料的短语复述自动抽取研究[J].中文信息学报,2013,27(6):151-157. 被引量：7
5周栋,刘建勋,王弦,张三蓉.基于关键词提取的专利在先技术搜索方法研究[J].山西大学学报（自然科学版）,2014,37(1):34-41. 被引量：2
6张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9
7石翠.专利文献语料库建设问题分析与解决方案[J].辽宁行政学院学报,2016,18(5):70-74.
8张宁,朱礼军.中文问答系统问句分析研究综述[J].情报工程,2016,2(1):32-42. 被引量：12
9刘勇,魏光泽.基于双字哈希结构的最大匹配算法机制改进[J].电子设计工程,2017,25(16):11-15. 被引量：6
10倪维健,孙浩浩,刘彤,曾庆田.面向领域文献的无监督中文分词自动优化方法[J].数据分析与知识发现,2018,2(2):96-104. 被引量：9

同被引文献130

1郭炜强,戴天,文贵华.基于领域知识的专利自动分类[J].计算机工程,2005,31(23):52-54. 被引量：17
2李清海,刘洋,吴泗宗,许晓冰.专利价值评价指标概述及层次分析[J].科学学研究,2007,25(2):281-286. 被引量：90
3肖国华,熊树明,张娴.专利地图设计制作及影响因素分析[J].情报理论与实践,2007,30(3):372-377. 被引量：31
4赖院根,朱东华,刘玉琴.专利法律状态信息分析的理论研究及其实证[J].情报杂志,2007,26(8):56-59. 被引量：34
5瞿丽曼.论技术创新与贸易中的专利法律状态信息服务[J].现代情报,2007,27(8):215-220. 被引量：9
6国家知识产权局.审查指南[M].北京:知识产权出版社.2006,
7佟晓筠,宋国龙,刘强,张俐,姜伟.中文分词及词性标注一体化模型研究[J].计算机科学,2007,34(9):174-175. 被引量：10
8Tseng Y H, Lin C J, Lin Y I. Text mining techniques for patent analysis. Information Processing and Management, 2007, 43:1216-1247.
9中国科学院计算技术研究所.ICTCLAS汉语分词系统[CP/OL].(2010-12-21)[2012-05-30].http:Nictclas.org/.
10Frantzi K, Ananiadou S, Mima H. Automatic recognition of multi-word terms: the C-value/NC- value method. Intl Journal on Digital Libraries, 2000, 3(2): 115-130.

引证文献6

1蔡君,张淋辉.通向三代移动通信的桥梁：GPRS技术及其解决方案概览[J].互联网世界,2000(4):26-31.
2岳金媛,徐金安,张玉洁.面向专利文献的汉语分词技术研究[J].北京大学学报（自然科学版）,2013,49(1):159-164. 被引量：16
3马文姗,赵海宁,翟东升.中文专利侵权检索模型研究[J].情报杂志,2012,31(4):175-179. 被引量：8
4张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9
5郭诗琪,贠强,陈亮,周杰.专利无效对比文件判定方法研究[J].图书情报工作,2021,65(2):117-125. 被引量：1
6廖花林,文庭孝.国内外专利法律信息挖掘研究综述[J].高校图书馆工作,2021,41(2):28-35. 被引量：8

二级引证文献35

1雷孝平,桂婕,邢晓昭.欧洲专利局专利法律状态数据深加工的关键问题[J].科技管理研究,2023,43(4):162-168. 被引量：1
2蔡君,张淋辉.通向三代移动通信的桥梁：GPRS技术及其解决方案概览[J].互联网世界,2000(4):26-31.
3周群芳.相似专利检测研究[J].现代图书情报技术,2012(11):60-64. 被引量：3
4李莉,刘知远,孙茂松.基于中英平行专利语料的短语复述自动抽取研究[J].中文信息学报,2013,27(6):151-157. 被引量：7
5武玉英,马羽翔,翟东升.基于SOM的中文专利侵权检测研究[J].情报杂志,2014,33(2):33-39. 被引量：9
6周栋,刘建勋,王弦,张三蓉.基于关键词提取的专利在先技术搜索方法研究[J].山西大学学报（自然科学版）,2014,37(1):34-41. 被引量：2
7张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9
8侯婷,吕学强,李卓.专利术语抽取的层次过滤方法[J].现代图书情报技术,2015(1):24-30. 被引量：6
9洪婕,张健,胡亮.基于领域本体知识库的专业搜索引擎查询推荐算法研究--以盐湖化工领域为例[J].情报学报,2014,33(10):1091-1098. 被引量：5
10段宇锋,朱雯晶,陈巧,刘伟,刘凤红.条件随机场与领域本体元素集相结合的未登录词识别研究[J].现代图书情报技术,2015(4):41-49. 被引量：3

1张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9
2石翠,王杨.并列结构在依存句法分析中的应用[J].软件,2014,35(4):68-70. 被引量：1
3马文姗,赵海宁,翟东升.中文专利侵权检索模型研究[J].情报杂志,2012,31(4):175-179. 被引量：8
4林俊,黄雄杰,陈平.中文专利文本聚类方法研究[J].海峡科学,2013(12):31-33.
5鲁麒,任工昌,陈红柳.面向TRIZ理论的深度知识获取及应用研究[J].情报杂志,2013,32(8):145-149. 被引量：11
6张杰,孙宁宁,张海超,翟东升,冯秀珍.基于SAO结构的中文相似专利识别算法及其应用[J].情报学报,2016,35(5):472-482. 被引量：10
7张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：44
8张海营.网络信息检索中堆栈——最大匹配自动分词算法研究[J].计算机光盘软件与应用,2011(8):27-27.
9陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
10段灵修,林俊,黄达臻,黄志华.中文专利文本特征提取方法研究[J].福建电脑,2011,27(12):1-2. 被引量：1

情报杂志

2011年第11期

浏览历史

内容加载中请稍等...

中文专利权利要求书分词算法研究被引量：6

参考文献1

二级参考文献9

共引文献16

同被引文献130

引证文献6

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

中文专利权利要求书分词算法研究 被引量：6

参考文献1

二级参考文献9

共引文献16

同被引文献130

引证文献6

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

中文专利权利要求书分词算法研究被引量：6