-
题名基于网页信息和分词的中文机构名全称和简称提取方法
被引量:3
- 1
-
-
作者
张俊玲
耿光刚
延志伟
李晓东
-
机构
中国科学院大学
中国科学院计算机网络信息中心
中国互联网络信息中心
-
出处
《计算机应用研究》
CSCD
北大核心
2017年第4期972-976,共5页
-
基金
国家自然科学基金资助项目(61375039
61272433)
-
文摘
搜索引擎在处理全称和简称的对应关系时,以往只能通过人工添加,造成简称遗漏、搜索结果召回率低等问题。为此,提出了一种自动获取机构全称和简称的方法。根据域名地址获取机构网站首页源代码,从中提取相应机构全称,再结合机构名上下文特征词集合从中提取候选简称,最后计算候选简称与全称的相似度确定最终简称。通过对1 287个组织机构网站的实验,全称提取正确率达93.9%,简称召回率和正确率分别达85.3%和90.8%,实验表明该方法效果良好。
-
关键词
机构名简称提取
机构名全称提取
网页分析
简称相似度计算
-
Keywords
extraction of organization abbreviations
extraction of organization full name
Web page analysis
abbreviation similarity calculation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-