基于网页信息和分词的中文机构名全称和简称提取方法被引量：3

Extraction method of organization full names and abbreviations based on Web page and word segmentation

下载PDF

导出

摘要搜索引擎在处理全称和简称的对应关系时,以往只能通过人工添加,造成简称遗漏、搜索结果召回率低等问题。为此,提出了一种自动获取机构全称和简称的方法。根据域名地址获取机构网站首页源代码,从中提取相应机构全称,再结合机构名上下文特征词集合从中提取候选简称,最后计算候选简称与全称的相似度确定最终简称。通过对1 287个组织机构网站的实验,全称提取正确率达93.9%,简称召回率和正确率分别达85.3%和90.8%,实验表明该方法效果良好。 When processing the correspondence between full names and abbreviations, search engine can only use the way of manually adding in the past, resulting in abbreviations omission and low recall rate of search results. To solve these problems, this paper proposed an extraction method of organizations＇ full names and abbreviations based on Web page and word segmentation. It obtained source code of website homepage of organization firstly. Then it extracted relevant organization full name from the source code, and extracted candidate abbreviations based on contextual features collection of organization names. Finally it calculated the similarity between candidate abbreviations and full name to determine which candidates were the exact abbreviations. Through experiments on 1 287 organization websites, the full names＇ correct rate of this method is 93.9% , the abbreviations＇ recall rate and correct rate are 85.3% and 90.8% separately. Experimental results show that the method has a good effect.

作者张俊玲耿光刚延志伟李晓东

机构地区中国科学院大学中国科学院计算机网络信息中心中国互联网络信息中心

出处《计算机应用研究》 CSCD 北大核心 2017年第4期972-976,共5页 Application Research of Computers

基金国家自然科学基金资助项目(61375039 61272433)

关键词机构名简称提取机构名全称提取网页分析简称相似度计算 extraction of organization abbreviations extraction of organization full name Web page analysis abbreviation similarity calculation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1沈嘉懿,李芳,徐飞玉,Hans Uszkoreit.中文组织机构名称与简称的识别[J].中文信息学报,2007,21(6):17-21. 被引量：31
2郝娟,杨静.采用上下文特征匹配的中文机构名简称识别[J].小型微型计算机系统,2015,36(7):1432-1437. 被引量：4
3孙栩,王厚峰,王波.Predicting Chinese Abbreviations from Definitions:An Empirical Learning Approach Using Support Vector Regression[J].Journal of Computer Science & Technology,2008,23(4):602-611. 被引量：8
4连誉舜,赵宇明.基于分词信息的中文机构名简称自动生成方法[J].计算机应用与软件,2014,31(4):153-156. 被引量：3
5黄林晟,邓志鸿,唐世渭,王文清,陈凌.基于编辑距离的中文组织机构名简称-全称匹配算法[J].山东大学学报（理学版）,2012,47(5):43-48. 被引量：13
6李素建,张健,黄雄,白硕,刘群.Semantic Computation in a Chinese Question—Answering System[J].Journal of Computer Science & Technology,2002,17(6):933-939. 被引量：30
7钟良伍,郑方.基于中文机构名简称的检索方法研究[J].中文信息学报,2007,21(1):38-42. 被引量：7
8牛永洁,张成.多种字符串相似度算法的比较研究[J].计算机与数字工程,2012,40(3):14-17. 被引量：36
9刁兴春,谭明超,曹建军.一种融合多种编辑距离的字符串相似度计算方法[J].计算机应用研究,2010,27(12):4523-4525. 被引量：41

二级参考文献89

1殷志平.构造缩略语的方法和原则[J].语言教学与研究,1999(2):73-82. 被引量：46
2车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：63
3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
4钟良伍,郑方.基于中文机构名简称的检索方法研究[J].中文信息学报,2007,21(1):38-42. 被引量：7
5Wren J D, Chang J T, Pustejovsky J, Adar E, Garner H R, Altman R B. Biomedical term mapping databases. Nucleic Acid Research, 2005, 33: 289-293.
6Yoshida M, Fukuda K, Takagi T. Pnad-css: A workbench for constructing a protein name abbreviation dictionary. Bioinformatics, 2000, 16(2): 169-175.
7Nenadic G, Spasic I, Ananiadou S. Automatic acronym acquisition and term variation management within domain-specific texts. In Proc. the LREC-3, Las Palmas, Spain, 2002, pp.2155-2162.
8Schwartz A, Hearst M. A simple algorithm for identifying abbreviation definitions in biomedical texts. In Proc. the Pacific Symposium on Biocomputing (PSB 2003), pp.451-462.
9Manuel Zahariev. An efficient methodology for acronymexpansion matching. In Proc. the International Conference on Information and Knowledge Engineering ( IKE), Las Vegas, USA, 2003, pp.32-37.
10Adar E. Sarad: A simple and robust abbreviation dictionary. Bioinformatics, 2004, 20(4): 527-533.

共引文献150

1朱朦朦,武恺莉,洪宇,陈鑫,张民.面向问句复述识别的语义正交化匹配方法研究[J].中文信息学报,2021,35(11):34-42. 被引量：2
2唐坚,刘海燕.作战文书中部队番号的自动识别方法[J].兵器装备工程学报,2020,0(2):143-147. 被引量：1
3毛姝洁,张雪虎.基于兴趣点简称的检索方法研究[J].太原理工大学学报,2008,39(S1):52-55. 被引量：1
4彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
5夏天,樊孝忠,刘林,骆正华.基于ALICE的汉语自然语言接口[J].北京理工大学学报,2004,24(10):885-889. 被引量：11
6李志辉.智能答疑系统中概念词典的设计与应用[J].重庆科技学院学报（社会科学版）,2005(2):87-89. 被引量：2
7李鹏,陶兰,王弼佐.一种改进的本体语义相似度计算及其应用[J].计算机工程与设计,2007,28(1):227-229. 被引量：39
8Chen Yanmin Liu Bingquan Wang Xiaolong.AUTOMATIC TEXT SUMMARIZATION BASED ON TEXTUAL COHESION[J].Journal of Electronics(China),2007,24(3):338-346. 被引量：6
9聂卉,龙朝晖.结合语义相似度与相关度的概念扩展[J].情报学报,2007,26(5):728-732. 被引量：15
10杨思春,陈家骏.中文自动问答中句子相似度计算研究[J].情报学报,2008,27(1):35-41. 被引量：5

同被引文献47

1王艳梅,赵希男,郭梅.一种调整模糊判断矩阵一致性的方法[J].模糊系统与数学,2006,20(3):89-94. 被引量：24
2王敏,黄沈发,鄢忠纯.上海市生态环境功能区划研究中的两个重要指标[J].环境科学与技术,2006,29(11):102-105. 被引量：4
3谭雅懿,王烜.考虑相关关系的水环境安全评价指标定权法[J].环境科学与技术,2010,33(S1):432-435. 被引量：4
4张雪英,闾国年,李伯秋,陈文君.基于规则的中文地址要素解析方法[J].地球信息科学,2010,12(1):9-16. 被引量：73
5孙伟,陈雯,陈诚.水环境协同约束分区与产业布局引导研究--以江苏省为例[J].地理学报,2010,65(7):819-827. 被引量：44
6刘毅,黄建毅,马丽.基于DEA模型的我国自然灾害区域脆弱性评价[J].地理研究,2010,29(7):1153-1162. 被引量：109
7于滨,程昌秀,左廷英.面向全国经济普查需求的专家系统地理编码方法[J].计算机应用研究,2010,27(8):2976-2979. 被引量：4
8程昌秀,于滨.一种基于规则的模糊中文地址分词匹配方法[J].地理与地理信息科学,2011,27(3):26-29. 被引量：48
9徐兵兵,张妙仙,王肖肖.改进的模糊层次分析法在南苕溪临安段水质评价中的应用[J].环境科学学报,2011,31(9):2066-2072. 被引量：92
10孙才志,杨磊,胡冬玲.基于GIS的下辽河平原地下水生态敏感性评价[J].生态学报,2011,31(24):7428-7440. 被引量：31

引证文献3

1王宇璐,张伟,贺泽宇.面向复杂中文地址关联的三维关系评估模型[J].计算机应用研究,2018,35(12):3541-3546. 被引量：1
2黄秀常.基于广义线性模型的网页信息搜索错误概率分析[J].菏泽学院学报,2019,41(2):14-20.
3李想,肖桂荣,蔡圣准.结合网络文本的模糊层次分析法评价水环境敏感性[J].地球信息科学学报,2019,21(12):1832-1844. 被引量：10

二级引证文献11

1宁忠瑞,李虹彬.基于水质标识指数的黄河宁夏段水质评价与分析[J].灌溉排水学报,2020,39(S01):56-61. 被引量：14
2徐兵,石少青,陈超.基于自然语言的中文地址匹配研究[J].电子设计工程,2020,28(16):7-10. 被引量：4
3叶飞,陈玮.基于层次分析法的青年编委遴选方法[J].中国科技期刊研究,2020(5):530-534. 被引量：11
4张丽萍.基于层次分析法的水利工程滑坡体稳定性评估方法分析[J].水科学与工程技术,2020(4):75-79. 被引量：2
5杜明阳.铁路工程注浆加固中浆液对周围水环境的影响研究——以房屋为例[J].环境科学与管理,2020,45(9):86-89.
6姚华帅,李致家,赫冉,贾亦真.基于河流分段的秦淮河健康评价[J].河南大学学报（自然科学版）,2022,52(1):43-52. 被引量：4
7左潇懿,程亮,楚森森,吴洁,张雪东.南海海上搜救困难性评价[J].热带地理,2022,42(7):1138-1147. 被引量：1
8张翔,李愫.基于主成分分析的北洛河水质时空分布特征及污染源解析[J].水土保持通报,2022,42(4):153-160. 被引量：11
9朱贵玉,方世跃,尹春风,于飞,祁欣海.基于FAHP-CRITIC的暴雨洪涝灾害风险评估:以西安市临潼区为例[J].水利水电技术（中英文）,2023,54(4):37-48. 被引量：3
10闫佰忠,孙剑,陈佳琦,孙丰博,李晓萌,付庆杰.基于自适应BPNN-GIS耦合的地下水源热泵适宜性分区研究[J].现代地质,2023,37(4):963-971. 被引量：1

1钟良伍,郑方.基于中文机构名简称的检索方法研究[J].中文信息学报,2007,21(1):38-42. 被引量：7
2吴多智,陈益全.响应式网页设计案例实现与分析[J].安徽电子信息职业技术学院学报,2016,15(2):14-17. 被引量：7
3连誉舜,赵宇明.基于分词信息的中文机构名简称自动生成方法[J].计算机应用与软件,2014,31(4):153-156. 被引量：3
4赵强.主题爬虫的关键技术[J].现代计算机,2014,20(2):19-22.
5沙林斌.网站内容管理系统功能设计[J].信息通信,2015,28(6):105-106.
6曾中辉.域名地址结构分析[J].科学时代,2000(1):30-30.
7孙衍东.浅谈Internet[J].有线电视技术,2003,10(5):79-81.
8许明峰.说说Internet中的地址[J].现代通信,2001(4):37-39.
9毛莉娜,唐林燕,王晓军.基于网页分析的可视化系统[J].广东技术师范学院学报,2015,36(11):34-38.
10林昌平,郑皎凌.基于DOM规范的网页分析技术研究[J].成都信息工程学院学报,2007,22(z1):113-117. 被引量：2

计算机应用研究

2017年第4期

浏览历史

内容加载中请稍等...

基于网页信息和分词的中文机构名全称和简称提取方法被引量：3

参考文献9

二级参考文献89

共引文献150

同被引文献47

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于网页信息和分词的中文机构名全称和简称提取方法 被引量：3

参考文献9

二级参考文献89

共引文献150

同被引文献47

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于网页信息和分词的中文机构名全称和简称提取方法被引量：3