期刊文献+

中文专利文献中连续符号串的语义识别 被引量:1

Recognizing Semantics of Continuous Strings in Chinese Patent Documents
原文传递
导出
摘要 【目的】解决汉语文档中连续字符串的语义识别问题。【方法】使用钢铁冶金领域专利文献中已识别语义的部分符号串作为学习语料,利用基础特征、汉字特征、符号串特征进行测试,根据实验结果确定最佳模型。使用最佳模型,对规则未能判别语义的符号串展开测试。【结果】将测试结果与人工判别的真实角色进行比对,发现Y的P值最小为98.15%,最大为99.62%,N的P值最小为96.87%,最大为99.34%;Y的R值最小为96.56%,最大为99.04%,N的R值最小为98.73%,最大为99.67%;Y的F1值最小为97.71%,最大为99.33%;N的F1值最小为97.98%,最大为99.42%,可以看出识别效果较为理想。【局限】受学习语料规模的影响和研究时间的限制,未能将已识别角色的语料加入样本中学习。【结论】该模型在中文专利文献中连续符号串的语义判别方面具有较高的可行性、有效性和可移植性,为英文文献中符号串的语义判别提供思路。 [Objective] This paper aims to extract the semantic information from continuous strings in Chinese patent documents in the field of iron and steel metallurgy. [Methods] First, we collected strings with identified the semantics as the learning corpus. Then, we examined the basic features, as well as characteristics of Chinese characters and strings with the corpus to establish the best model. Finally, we used this model to recognize the semantics of other strings. [Results] The proposed model could effectively extract semantics of the continuous strings. [Limitations] We did not include the identified characters to the training corpus. [Conclusions] The new model could identify the semantics of continuous strings in Chinese patent documents, which could be used to study the continuous strings in English literature.
作者 王雪颖 王昊 张紫玄 Wang Xueying;Wang Hao;Zhang Zixuan(School of Information Management, Nanjing University, Nanjing 210023, China;Jiangsu Key Laboratory of Data Engineering and Knowledge Service (Nanjing University), Nanjing 210023, China)
出处 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第5期11-22,共12页 Data Analysis and Knowledge Discovery
基金 江苏省"333工程"项目"面向知识服务的中文本体学习研究"(项目编号:BRA2015401) 国家自然科学基金青年项目"面向学术资源的TSD与TDC测度及分析研究"(项目编号:71503121)的研究成果之一
关键词 中文专利 钢铁冶金领域 连续符号串 语义识别 Chinese Patent Documents Iron and Steel Metallurgy Continuous Strings Semantic Recognition
  • 相关文献

参考文献30

二级参考文献367

共引文献379

同被引文献3

引证文献1

二级引证文献8

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部