期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
CRF与规则相结合的中文地名识别 被引量:17
1
作者 李丽双 党延忠 +2 位作者 廖文平 黄德根 张颖 《大连理工大学学报》 EI CAS CSCD 北大核心 2012年第2期285-289,共5页
采用递增式学习策略优化条件随机域(conditional random fields,CRF)的特征模板以提高中文地名的识别效果,结合语言学相关知识构建规则库,以弥补机器学习模型获取知识不够全面导致召回率偏低的不足,最终实现了CRF与规则相结合的中文地... 采用递增式学习策略优化条件随机域(conditional random fields,CRF)的特征模板以提高中文地名的识别效果,结合语言学相关知识构建规则库,以弥补机器学习模型获取知识不够全面导致召回率偏低的不足,最终实现了CRF与规则相结合的中文地名识别系统.实验结果表明,采用CRF与规则相结合的方法识别中文文本中的地名是有效的,对Bakeoff2007NER任务的MSRA语料进行开放测试,召回率、精确率和F值分别为94.67%、92.35%和93.50%. 展开更多
关键词 中文信息处理 中文地名识别 条件随机域 基于规则的后处理
下载PDF
SVM与规则相结合的中文地名自动识别 被引量:32
2
作者 李丽双 黄德根 +1 位作者 陈春荣 杨元生 《中文信息学报》 CSCD 北大核心 2006年第5期51-57,共7页
在分析中文文本中地名特点的基础上,提出了一种支持向量机(SVM)与规则相结合的中文地名自动识别方法:按字抽取特征向量的属性,然后将这些属性转换成二进制向量并建立训练集,采用多项式Kernel函数,得到SVM识别地名的机器学习模型;通过对... 在分析中文文本中地名特点的基础上,提出了一种支持向量机(SVM)与规则相结合的中文地名自动识别方法:按字抽取特征向量的属性,然后将这些属性转换成二进制向量并建立训练集,采用多项式Kernel函数,得到SVM识别地名的机器学习模型;通过对错误识别结果的分析,构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面导致召回率偏低的不足。实验表明,用SVM与规则相结合的机制识别中文文本中的地名是有效的:系统开式召回率、精确率和F-值分别达89.57%、93.52%和91.50%。 展开更多
关键词 计算机应用 中文信息处理 中文地名识别 支持向量机 机器学习 基于规则的后处理
下载PDF
大数据环境下基于贝叶斯推理的中文地名地址匹配方法 被引量:11
3
作者 许普乐 王杨 +3 位作者 黄亚坤 黄少芬 赵传信 陈付龙 《计算机科学》 CSCD 北大核心 2017年第9期266-271,共6页
传统的中文地名地址匹配技术难以处理大数据环境下海量、多样和异构的智慧城市地理信息空间中的中文地名地址快速匹配问题。提出了一种Spark计算平台下基于中文地名地址要素的匹配框架及应用智能决策的匹配算法(An Intelligent Decision... 传统的中文地名地址匹配技术难以处理大数据环境下海量、多样和异构的智慧城市地理信息空间中的中文地名地址快速匹配问题。提出了一种Spark计算平台下基于中文地名地址要素的匹配框架及应用智能决策的匹配算法(An Intelligent Decision Matching Algorithm,AIDMA)。首先,从中文地名地址中富含的语义性和中文字符串、数字与字母之间的自然分隔性两个方面进行地址要素解析,构建了融合多距离信息的贝叶斯推理网络,从而提出了基于多准则评判的中文地名地址匹配决策方法。然后,利用芜湖市514967条脱敏后的燃气开户中文地名地址信息库与1770979条网格化社区中的中文地名地址信息库(包含网格化地址的地理空间信息)进行实验与分析。实验结果表明,在处理大规模中文地名地址信息时,相比于传统的中文地名地址匹配方法,该方法能够有效提高单条中文地名地址的匹配效率,同时在匹配度与精确度两个指标上匹配结果更加均衡。 展开更多
关键词 大数据 SPARK 中文地名地址匹配技术 贝叶斯推理
下载PDF
用支持向量机进行中文地名识别的研究 被引量:10
4
作者 李丽双 黄德根 +1 位作者 陈春荣 杨元生 《小型微型计算机系统》 CSCD 北大核心 2005年第8期1416-1419,共4页
用支持向量机(SVM)方法对中文地名的自动识别进行了探讨,对于含特征词的地名和非地名用支持向量机进行分类:结合中文地名的特点,抽取地名构词可信度及其前后词的词性作为特征向量的属性,建立了一定规模的训练集,并通过对不同kernel函数... 用支持向量机(SVM)方法对中文地名的自动识别进行了探讨,对于含特征词的地名和非地名用支持向量机进行分类:结合中文地名的特点,抽取地名构词可信度及其前后词的词性作为特征向量的属性,建立了一定规模的训练集,并通过对不同kernel函数的测试,得到了地名分类的机器学习模型.实验表明,对于切分正确的地名,本方法具有良好的效果. 展开更多
关键词 支持向量机 中文地名识别 机器学习
下载PDF
基于统计的中文地名识别 被引量:48
5
作者 黄德根 岳广玲 杨元生 《中文信息学报》 CSCD 北大核心 2003年第2期36-41,共6页
本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的... 本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整 ,系统闭式召回率和精确率分别为 90 2 4 %和 93 14 % ,开式召回率和精确率分别达 86 86 %和 91 4 8%。 展开更多
关键词 计算机应用 中文信息处理 中文地名识别 构词可信度 接续可信度 自动分词
下载PDF
汉语自动分词中中文地名识别 被引量:10
6
作者 高红 黄德根 杨元生 《大连理工大学学报》 EI CAS CSCD 北大核心 2006年第4期576-581,共6页
以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句... 以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句子最佳切分时识别句子中的中文地名.对真实语料进行封闭和开放测试,封闭测试结果为召回率93.55%,精确率94.14%,F-1值93.85%;开放测试结果为召回率91.27%,精确率73.48%,F-1值81.42%.取得了比较令人满意的结果. 展开更多
关键词 中文地名识别 汉语自动分词 未登录词识别
下载PDF
基于统计的中文地名自动识别研究 被引量:13
7
作者 邱莎 阿圆 +1 位作者 王付艳 丁海燕 《计算机技术与发展》 2011年第11期35-38,共4页
中文地名的自动识别是命名实体识别任务中难度较大的任务之一,目的是从中文文本中自动准确提取地理专用名词。文中使用统计模型中的条件随机场对中文地名的自动识别在字一级粒度进行了研究。在研究中利用条件随机场能任意添加特征的优点... 中文地名的自动识别是命名实体识别任务中难度较大的任务之一,目的是从中文文本中自动准确提取地理专用名词。文中使用统计模型中的条件随机场对中文地名的自动识别在字一级粒度进行了研究。在研究中利用条件随机场能任意添加特征的优点,合理引用了丰富的特征组合,在大规模语料上进行训练,统计获得标注序列基于特征集的条件概率分布,并采用序列标注的方式,实现中文地名的自动识别。多次闭合测试和开放测试结果F1值为90%左右,识别效果良好。 展开更多
关键词 中文地名识别 条件随机场 特征模板
下载PDF
中文地名数据清洗中的重复字段匹配 被引量:2
8
作者 叶鸥 张璟 李军怀 《应用科学学报》 CAS CSCD 北大核心 2013年第2期212-220,共9页
为了提高中文地名字段匹配的准确度,提出中文地名的相似重复检测与清洗策略和矩阵相似重复匹配方法.该清洗策略采用矩阵相似重复匹配方法,通过矩阵运算计算中文地名数据之间相同字符或者词语出现的频率,利用频率计算两者之间的语义相似... 为了提高中文地名字段匹配的准确度,提出中文地名的相似重复检测与清洗策略和矩阵相似重复匹配方法.该清洗策略采用矩阵相似重复匹配方法,通过矩阵运算计算中文地名数据之间相同字符或者词语出现的频率,利用频率计算两者之间的语义相似度和结构相似度,然后将语义和结构相似性有机结合,作为相似性判断和重复数据清洗的依据.实验验证了该方法的可行性和有效性.结果表明,该方法对于中文地名字段匹配在查准率和召回率方面优于已有的其他算法. 展开更多
关键词 数据清洗 字段匹配 矩阵相似重复匹配 中文地名 语义相似度 结构相似度
下载PDF
基于条件随机场与规则相结合的中文地名识别 被引量:2
9
作者 高国洋 戚银城 潘德锋 《电脑开发与应用》 2009年第8期26-28,共3页
对中文地名识别进行了研究,提出了一种结合多知识的地名识别方法,该方法首先以条件随机场模型为框架,充分利用地名的外部特征和内部颗粒特征,将局部特征、复合特征以及专家知识相融合进行中文地名识别;在此结果上,利用构建的专家规则库... 对中文地名识别进行了研究,提出了一种结合多知识的地名识别方法,该方法首先以条件随机场模型为框架,充分利用地名的外部特征和内部颗粒特征,将局部特征、复合特征以及专家知识相融合进行中文地名识别;在此结果上,利用构建的专家规则库对实验结果进行修正。实验结果表明,本文的方法是有效的,实验语料为1998年1月的《人民日报》,开放测试准确率、召回率、和F-值分别达到了93.64%、90.36%、92.03%。 展开更多
关键词 中文地名识别 命名实体识别 条件随机场 信息抽取
下载PDF
基于Google Earth的原始遥感影像中文地名标注方法
10
作者 潘志安 王茂发 +2 位作者 赵玲玲 李攀 冯燕茹 《电脑开发与应用》 2012年第8期50-51,54,共3页
Google Earth提供的免费遥感影像是一项重要的基础数据,能够方便、迅速确定对应经纬度处中文地名。将原始遥感数据和google earth同位置图像进行叠加计算,通过同步对照,在LandSate等卫星影像上标注出汶川地震主要涉及到的一些城市名称,... Google Earth提供的免费遥感影像是一项重要的基础数据,能够方便、迅速确定对应经纬度处中文地名。将原始遥感数据和google earth同位置图像进行叠加计算,通过同步对照,在LandSate等卫星影像上标注出汶川地震主要涉及到的一些城市名称,该工作将为遥感影像后续断层、断裂带识别解译奠定良好的基础,并解决了传统人工标注工作量大、效率低等缺点。实验结果表明原始遥感影像中文地名标注效果良好。 展开更多
关键词 遥感影像 GOOGLE EARTH 中文地名
下载PDF
双层CRF与规则相结合的中文地名识别方法研究 被引量:9
11
作者 孙虹 陈俊杰 《计算机应用与软件》 CSCD 北大核心 2014年第11期175-177,182,共4页
采用一种基于双层CRF模型与规则相结合的方法提高中文地名的识别性能。第一层CRF模型使用单字特征识别地名,将其结果添加至词典。第二层CRF模型利用词性、左指界词、右指界词和处理后的词典特征对地名进行识别。最后利用规则对识别结果... 采用一种基于双层CRF模型与规则相结合的方法提高中文地名的识别性能。第一层CRF模型使用单字特征识别地名,将其结果添加至词典。第二层CRF模型利用词性、左指界词、右指界词和处理后的词典特征对地名进行识别。最后利用规则对识别结果进行过滤修剪和补召。通过双层CRF模型获取文本的远距离特征,解决了同一词汇因位置不同而标记不一致的问题,结合依据地名语言学特点制定的规则提高召回率。实验表明,双层CRF与规则相结合的方法对中文地名的识别取得了较好的效果。对Bakeoff2007的MSRA语料进行开放测试,得到的准确率、召回率、F值分别为95.32%、90.34%、94.12%。 展开更多
关键词 自然语言处理 中文地名识别 双层CRF模型 规则
下载PDF
利用地名用字分析的中文地名识别处理 被引量:7
12
作者 李诺 张全 《计算机工程与应用》 CSCD 北大核心 2009年第28期230-232,共3页
对中文地名未登录词识别而言,首先充分挖掘地名用字本身的特征,及其上下文用字的特征,其次通过最大熵模型把这些来源不同的知识整合。在特征选择和知识获取时,通过对中文地名这个特定群体进行针对性分析,得到了更多的信息,如中文地名更... 对中文地名未登录词识别而言,首先充分挖掘地名用字本身的特征,及其上下文用字的特征,其次通过最大熵模型把这些来源不同的知识整合。在特征选择和知识获取时,通过对中文地名这个特定群体进行针对性分析,得到了更多的信息,如中文地名更常用哪些字以及这些字如何搭配更常见等。最终使得系统在真实语料的封闭测试和开放测试中分别达到了F值87%和83%的较好效果。 展开更多
关键词 中文地名识别 地名用字分析 最大熵
下载PDF
中文地名翻译浅谈 被引量:3
13
作者 孙乐乐 《科技经济市场》 2006年第11期359-,共1页
随着改革开放和经济建设的深入,中文地名的翻译已成为对外交流中非常重要的一个方面。因此,中文地名的翻译也应当规范化。本文主要分析了当前中文地名翻译的三种方法,供大家参考并思考如何规范中文地名翻译,以便中文地名在当今信息化时... 随着改革开放和经济建设的深入,中文地名的翻译已成为对外交流中非常重要的一个方面。因此,中文地名的翻译也应当规范化。本文主要分析了当前中文地名翻译的三种方法,供大家参考并思考如何规范中文地名翻译,以便中文地名在当今信息化时代中最大限度地发挥作用。 展开更多
关键词 中文地名 翻译 方法 规范
下载PDF
基于条件随机场的中文地名识别
14
作者 王凡秀 《中国西部科技》 2008年第28期8-8,3,共2页
近几年来,中文分词技术取得了可喜的进步,各种机器学习方法被应用到这一领域,而采用标注的方法进行分词也是应用得比较多的方法。本文尝试了一种不同以往的方法,不对字本身进行标注,而对字与字之间的切分点进行标注,并结合条件随机场模... 近几年来,中文分词技术取得了可喜的进步,各种机器学习方法被应用到这一领域,而采用标注的方法进行分词也是应用得比较多的方法。本文尝试了一种不同以往的方法,不对字本身进行标注,而对字与字之间的切分点进行标注,并结合条件随机场模型,实现了一个分词系统并参加了第三届国际中文处理评测的分词比赛,取得了较好的结果。 展开更多
关键词 条件随机扬 中文地名 切分点
下载PDF
中文地名英译规范新探索
15
作者 肖乐 邓思 《衡阳师范学院学报》 2022年第5期95-100,共6页
随着国际化进程的推进,准确地进行中文地名英译变得越来越重要。目前,中文地名英译方面仍存在诸多问题:中文地名英译标准不统一;政府地名管理部门和译者之间缺乏有效的互动;译者在英译实践中存在语意模糊、文化缺失等问题。中文地名英... 随着国际化进程的推进,准确地进行中文地名英译变得越来越重要。目前,中文地名英译方面仍存在诸多问题:中文地名英译标准不统一;政府地名管理部门和译者之间缺乏有效的互动;译者在英译实践中存在语意模糊、文化缺失等问题。中文地名英译要想进一步规范化,政府有关部门应完善中文地名英译法规,建立相关管理体系;译者应遵循多元化原则,从语言、文化、交际手段、运行机制等方面,运用集原语、译者、译文、读者和社会生态环境于一体的中文地名英译规范新模式来进行英译实践。 展开更多
关键词 中文地名英译 规范 多元化原则
下载PDF
南极的中文地名知多少
16
作者 张建松 《党建文汇(上半月)》 2024年第3期63-63,共1页
2024年2月7日,中国南极秦岭站开站,冰雪大陆南极洲又多了一个响亮的中文地名。截至目前,我国已发布364个南极地名。我国南极地名命名工作始于首次南极科学考察。考察队命名了南极地名“长城湾”,自此拉开了我国南极地名命名工作的序幕... 2024年2月7日,中国南极秦岭站开站,冰雪大陆南极洲又多了一个响亮的中文地名。截至目前,我国已发布364个南极地名。我国南极地名命名工作始于首次南极科学考察。考察队命名了南极地名“长城湾”,自此拉开了我国南极地名命名工作的序幕。此后我国在长城站区及菲尔德斯半岛地区命名了西湖、平顶山等100多处地名。 展开更多
关键词 南极科学考察 菲尔德斯半岛 地名命名 长城站 长城湾 考察队 中文地名 南极洲
原文传递
基于条件随机场的中文地名识别方法 被引量:45
17
作者 邬伦 刘磊 +1 位作者 李浩然 高勇 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2017年第2期150-156,共7页
在互联网迅速发展的现代化信息社会,大量地理信息都以非结构化的文本形式存在,而地名识别是挖掘这些地理信息的重要基础。目前已有的地名识别方法主要是从自然语言处理的角度来实现,并没有充分考虑到地名的构成和使用习惯等特征,造成识... 在互联网迅速发展的现代化信息社会,大量地理信息都以非结构化的文本形式存在,而地名识别是挖掘这些地理信息的重要基础。目前已有的地名识别方法主要是从自然语言处理的角度来实现,并没有充分考虑到地名的构成和使用习惯等特征,造成识别率偏低或过拟合等问题。本文引入语言学相关知识,分析中文地名用字特征,在传统的地名专名+通名的结构上,更细致地划分地名的词素类型,总结归纳各词素类型的特征,将这些特征融入条件随机场的方法中,使地名识别问题转化为序列标注问题。并根据中文地名的特征,制定形式化规则,设计基于字的标注规范。在此基础上,设计中文地名特征模板,通过条件随机场模型训练和预测,识别自然语言文本中的中文地名。采用170万字的人民日报标注语料进行实验验证,结果表明本文方法对中文地名识别的召回率、准确率和F值分别达到92.69%、96.73%和94.67%,优于已有研究成果,能为地理信息科学领域的研究和应用提供更有效的地名服务。 展开更多
关键词 地名识别 条件随机场 自然语言处理 中文地名
原文传递
混合神经网络的中文地名识别方法 被引量:5
18
作者 朱鹏 石丽红 +2 位作者 焦明连 刘晓东 孙浩 《测绘科学》 CSCD 北大核心 2021年第11期159-165,共7页
针对互联网媒体数据中地名信息表达不规范、实体边界不清晰、地名简化表达问题,该文提出了一种混合神经网络的中文地名识别方法。通过ALBERT层学习字级别特征表达与BiLSTM层提取文本上下文语义特征,由CRF层获得全局最优标记序列,更有效... 针对互联网媒体数据中地名信息表达不规范、实体边界不清晰、地名简化表达问题,该文提出了一种混合神经网络的中文地名识别方法。通过ALBERT层学习字级别特征表达与BiLSTM层提取文本上下文语义特征,由CRF层获得全局最优标记序列,更有效地识别并提取中文地名。数据测试表明:相较于BiLSTM的地名识别模型,本文模型精确率提高12.89%,F1值提高10.83%;相较于BiLSTM-CRF的地名识别模型,本文模型精确率提高3.56%,F1值提高2.1%;相较于ALBERT-CRF的地名识别模型,本文模型精确率提高1.22%,F1值提高0.72%。 展开更多
关键词 地名识别 ALBERT BiLSTM 中文地名
原文传递
顾及字符特征的中文地名词典查询方法 被引量:5
19
作者 叶鹏 张雪英 杜咪 《地球信息科学学报》 CSCD 北大核心 2018年第7期880-886,共7页
地名词典查询是地名校正、地名匹配等地名服务应用的重要基础,但是地名数量的快速增长使得词典查询性能面临严峻挑战。针对大规模数据环境中传统词典查询方法准确率不高且效率较低等问题,提出了一种顾及字符特征的中文地名词典查询方法(... 地名词典查询是地名校正、地名匹配等地名服务应用的重要基础,但是地名数量的快速增长使得词典查询性能面临严峻挑战。针对大规模数据环境中传统词典查询方法准确率不高且效率较低等问题,提出了一种顾及字符特征的中文地名词典查询方法(CGQM)。首先,查询具有相同字符特征的地名形成候选地名集合,同时构建单字索引提升查询效率;其次,依据字符数量特征比较查询地名与候选地名的差异,进一步过滤候选地名集合;最后,基于字符位置特征优化查询结果排序策略,使得结果排序更为合理。实验以全国地名词典为例,构建5组测试集进行CGQM方法与Lucene检索方法的对比分析。研究结果表明,CGQM方法对于增强地名词典查询功能、提升查询效率具有实际意义。 展开更多
关键词 中文地名 地名词典查询 地名词典单字索引 地名相似度 地名字符特征
原文传递
中文地名地址标注方法研究 被引量:1
20
作者 姚露露 李云岭 宋凯丽 《测绘地理信息》 CSCD 2021年第S01期182-184,共3页
针对中文地名地址的复杂性和多样性,本文提出一种基于角色的中文地址标注方法,既能顾及到不同角色之间的概率,也可以对地址成分中的语素和词、词和短语之间的关系进行分析。通过这种方法建立的标注集作为自然语言标注的扩充,能为后续的... 针对中文地名地址的复杂性和多样性,本文提出一种基于角色的中文地址标注方法,既能顾及到不同角色之间的概率,也可以对地址成分中的语素和词、词和短语之间的关系进行分析。通过这种方法建立的标注集作为自然语言标注的扩充,能为后续的地址要素相似性度量提供理论支持,也可以应用在提高地址匹配精度方面。 展开更多
关键词 中文地名地址 词性标注 标注集
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部