期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
一种中文地址知识库支撑的中文地址分词算法 被引量:11
1
作者 赵成 李滨 《测绘科学技术学报》 CSCD 北大核心 2017年第6期639-643,648,共6页
针对中文地址非结构化、不规范的特点,在构建中文地址模版和中文地址词典等重要知识库基础上,基于中文地址模版引入了中文地址分词的预处理;并在中文地址词典的支撑下采用逆向最大匹配算法实现了中文地址分词。新中文地址分词算法不仅... 针对中文地址非结构化、不规范的特点,在构建中文地址模版和中文地址词典等重要知识库基础上,基于中文地址模版引入了中文地址分词的预处理;并在中文地址词典的支撑下采用逆向最大匹配算法实现了中文地址分词。新中文地址分词算法不仅在正确率和召回率等指标上优于传统算法,更提出了一种用于解决未登录地址名词识别问题的新方法。 展开更多
关键词 中文地址 中文地址知识库 中文地址分词 逆向最大匹配算法 未登录地址名词
下载PDF
基于ELMo-BiLSTM-CRF模型的中文地址分词 被引量:4
2
作者 余俊 于文年 彭艳兵 《电子设计工程》 2021年第20期72-76,共5页
为了解决传统基于规则的方法在处理中文地址分词的过程中,存在的分词效率低、需要人工维护字典且对中文地址中有歧义的字段无法正常解析等问题,文中提出在对中文地址分词的过程中,采用ELMo预训练模型的方式和嵌套BiLSTM-CRF的方法提升... 为了解决传统基于规则的方法在处理中文地址分词的过程中,存在的分词效率低、需要人工维护字典且对中文地址中有歧义的字段无法正常解析等问题,文中提出在对中文地址分词的过程中,采用ELMo预训练模型的方式和嵌套BiLSTM-CRF的方法提升整体分词效率。该模型考虑到ELMo模型生成的词向量与上下文有关,BiLSTM能够有效解决输入序列的特征提取,且CRF可以通过状态转移矩阵进行训练优化。采用自建的训练样本集对模型进行训练时,分别运用了ELMo-BiLSTM-CRF、BiLSTM-CRF以及BiLSTM,并进行对比。结果表明,ELMo-BiLSTM-CRF模型的分词效果更佳,具有更高的准确率。 展开更多
关键词 中文地址 中文地址分词 ELMo-BiLSTM-CRF模型 预训练模型
下载PDF
基于BERT的中文地址分词方法 被引量:3
3
作者 孙士琦 汤鲲 《电子设计工程》 2021年第9期155-159,共5页
针对传统中文地址分词工作中存在的准确率差,识别率低的问题,提出了一种基于BERT的中文地址分词方法。同时,将非行政级别的地址标签进行重新设计,并通过构建BERT-BiLSTM-CRF模型,将中文地址分词任务转换为命名实体识别任务。利用大量全... 针对传统中文地址分词工作中存在的准确率差,识别率低的问题,提出了一种基于BERT的中文地址分词方法。同时,将非行政级别的地址标签进行重新设计,并通过构建BERT-BiLSTM-CRF模型,将中文地址分词任务转换为命名实体识别任务。利用大量全国地址数据对BERT进行训练,获取文本抽象特征;利用双向长短时记忆网络将文本序列化并结合上下文进一步获取文本特征;通过条件随机场获取最优序列,提取出正确的地址级别。该方法在所使用训练数据集上取得了98.21%的精确率和98.23的F1值,证明了该方法的有效性。 展开更多
关键词 BERT 中文地址分词 长短时记忆网络 条件随机场 命名实体识别
下载PDF
基于LEBERT-CRF和知识图谱的中文地址修正补全方法
4
作者 王钦民 刘鹏 邓国威 《计算机科学与应用》 2023年第4期808-818,共11页
为解决人工中文地址因输入不准确造成的地址解析错误问题,本文首先结合词汇增强的基于Transformer的双向编码表征模型(LEBERT)与条件随机场(CRF),提出了LEBERT-CRF模型,相较BERT-长短期记忆-CRF模型(BERT-BiLSTM-CRF)在分词准确率、召... 为解决人工中文地址因输入不准确造成的地址解析错误问题,本文首先结合词汇增强的基于Transformer的双向编码表征模型(LEBERT)与条件随机场(CRF),提出了LEBERT-CRF模型,相较BERT-长短期记忆-CRF模型(BERT-BiLSTM-CRF)在分词准确率、召回率以及F值上分别提升了1.45%、1.89%和1.67%。然后,通过标准层级地址数据,并引入别名、旧名等地址信息构建了地址知识图谱库。最终,利用经过分词处理的地址数据,并根据地址数据存在的几种可能错误类型,设计出一种基于地址知识图谱库的匹配算法,对分词完的地址数据进行匹配修正并得到准确地址信息,相较于中文省份城市地区匹配器(CPCA),地址解析在一级地址、二级地址、三级地址上解析准确率分别提升了2.12%、2.36%和1.12%。 展开更多
关键词 中文地址分词 中文地址匹配 LEBERT CRF 知识图谱
下载PDF
多策略中文地址匹配方法 被引量:1
5
作者 彭雨龙 胡顺石 吴涛 《测绘通报》 CSCD 北大核心 2022年第2期145-148,共4页
地址匹配是地理编码过程中一个关键环节,是实现数据空间化的关键技术之一。针对当前中文地址匹配方法的精确率、匹配率和时间开销不能兼顾的问题,本文提出了一种多策略中文地址匹配方法。通过建立轻量级的词典进行中文地址分词,同时构... 地址匹配是地理编码过程中一个关键环节,是实现数据空间化的关键技术之一。针对当前中文地址匹配方法的精确率、匹配率和时间开销不能兼顾的问题,本文提出了一种多策略中文地址匹配方法。通过建立轻量级的词典进行中文地址分词,同时构建多叉树存储分词后的地址数据,匹配过程中结合模糊匹配和层级回溯匹配共同完成地址匹配工作,最终基于真实数据进行了试验。试验结果表明,该方法在匹配率、精确率和时间开销3个指标上较当前其他匹配方法表现得更加均衡。 展开更多
关键词 地址匹配 中文地址分词 多叉树 层级回溯 余弦相似度
下载PDF
结合词典和句法依存树的地址场所实体分类
6
作者 蒋言 刘海 毛雪宇 《电脑知识与技术》 2023年第20期83-86,共4页
针对需要从地址数据中关联出场所实体类别的现实需求,根据地址数据的句法特征引入依存句法树对中文分词操作后的地址数据进行解析,生成最优地址依存树,并设定相应规则从依存树各节点处获取目标场所实体,与场所类别POI词典进行匹配,获取... 针对需要从地址数据中关联出场所实体类别的现实需求,根据地址数据的句法特征引入依存句法树对中文分词操作后的地址数据进行解析,生成最优地址依存树,并设定相应规则从依存树各节点处获取目标场所实体,与场所类别POI词典进行匹配,获取场所实体类别。实验使用18261条业务地址数据进行验证,证明了所提方法的有效性。 展开更多
关键词 地址数据 场所分类 中文地址分词 依存句法分析 POI词典
下载PDF
基于概率统计模型的快递地址自动分类方法 被引量:5
7
作者 邵妍 刘燕兵 +1 位作者 谭建龙 郭莉 《计算机工程》 CAS CSCD 2012年第23期277-280,283,共5页
快递货物在中转点向取送点分拣时需要人工判断收货地址所属取送点,为提高分拣的自动化程度和分拣速度,提出一种基于概率统计分类模型的快递地址自动分类方法。该方法以基于概率统计的地址分类模型为核心,通过统计出的最小地址要素与取... 快递货物在中转点向取送点分拣时需要人工判断收货地址所属取送点,为提高分拣的自动化程度和分拣速度,提出一种基于概率统计分类模型的快递地址自动分类方法。该方法以基于概率统计的地址分类模型为核心,通过统计出的最小地址要素与取送点的对应概率分布,对快递地址所属的取送点做出判断。在某快递公司提供的快递地址分类数据上的实验结果表明,该方法的自动分类准确率可达99%以上,每个地址的分类用时为0.43 ms。 展开更多
关键词 快递地址 自动分类 快递分拣 概率统计 中文地址分词 停用字符过滤
下载PDF
统计决策树下的城市地址集中文分词 被引量:10
8
作者 应申 李威阳 +2 位作者 贺彪 王维 万远 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2019年第2期302-309,共8页
不同于常规的需要依赖城市地址词典或规则库的地址分词模型,提出不依赖地址词典、基于海量地址数据挖掘的分词方法。该方法结合统计规律计算地址要素在地址数据集中的分布特征,挖掘地址数据中分词的后缀点和落差点,根据后缀点和落差点... 不同于常规的需要依赖城市地址词典或规则库的地址分词模型,提出不依赖地址词典、基于海量地址数据挖掘的分词方法。该方法结合统计规律计算地址要素在地址数据集中的分布特征,挖掘地址数据中分词的后缀点和落差点,根据后缀点和落差点的相对位置关系构建统计决策树提取地址要素;并采用深圳市建筑物地址普查数据进行验证,形成对当前地址地名词典的有益补充。 展开更多
关键词 中文地址分词 决策树 地址要素 地址
原文传递
基于BiLSTM-CRF的中文层级地址分词 被引量:16
9
作者 程博 李卫红 童昊昕 《地球信息科学学报》 CSCD 北大核心 2019年第8期1143-1151,共9页
中文地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的热点问题之一。针对当前中文地址分词方法缺乏地址层级切分和过多依赖词典和特征的问题,本研究结合四词位标注集和中文层级地址特... 中文地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的热点问题之一。针对当前中文地址分词方法缺乏地址层级切分和过多依赖词典和特征的问题,本研究结合四词位标注集和中文层级地址特点,构建针对中文层级地址分词的地址标注体系,并提出融合双向长短时记忆网络和条件随机场(BiLSTM-CRF)的中文层级地址分词模型。该模型既考虑了BiLSTM模型能够记忆上下文地址的特性,也保留了CRF算法可以通过转移概率矩阵控制地址标注输出的能力。针对该地址标注体系标注的训练地址样本,分别使用CRF、LSTM、BiLSTM与BiLSTM-CRF模型进行训练对比。结果表明:①基于中文地址标注体系的模型分词效果更佳,地址标注更为精细,符合实际地址分布情况;②BiLSTM-CRF模型精确度达到93.4%,高于CRF(90.4%)、LSTM(89.3%)和BiLSTM(91.2%),其整体地址分词性能和各层级地址分词效果相对于其他模型更突出;③各模型分词性能与地址层级保持一致,即地址层级越高,分词效果越好。本研究提出的中文地址标注体系和分词模型为开展中文地址标准化工作提供了方法参考,同时也为进一步提升地理编码技术的精准度提供了可能。 展开更多
关键词 中文分词 地址标注 中文层级地址分词 长短时记忆网络(LSTM) 双向长短时记忆和条件随机场模型(BiLSTM-CRF)
原文传递
一种使用RoBERTa-BiLSTM-CRF的中文地址解析方法 被引量:6
10
作者 张红伟 杜清运 +1 位作者 陈张建 张琛 《武汉大学学报(信息科学版)》 EI CAS CSCD 北大核心 2022年第5期665-672,共8页
针对当前地址匹配方法严重依赖分词词典、无法有效识别地址中的地址元素及其所属类型的问题,提出了使用深度学习的中文地址解析方法,该方法能够对解析后的地址进行标准化和构成分析以改善地址匹配结果。通过对地址的不同词向量表示及不... 针对当前地址匹配方法严重依赖分词词典、无法有效识别地址中的地址元素及其所属类型的问题,提出了使用深度学习的中文地址解析方法,该方法能够对解析后的地址进行标准化和构成分析以改善地址匹配结果。通过对地址的不同词向量表示及不同序列标注模型的对比评估,结果表明,使用双向门递归单元和双向长短时记忆网络对中文地址解析差别较小,稀疏注意力机制有助于提高地址解析的F1值。所提出的方法在泛化能力测试集上的F1值达到了0.940,在普通测试集上的F1值达到了0.968。 展开更多
关键词 地址解析 中文地址分词 注意力机制 长短时记忆网络 RoBERTa BiLSTM CRF
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部