-
题名CFGT:一种基于词典的中文地址要素解析模型
- 1
-
-
作者
黄威
沈耀迪
陈松龄
傅湘玲
-
机构
北京邮电大学计算机学院(国家示范性软件学院)
可信分布式计算与服务教育部重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2024年第9期233-241,共9页
-
基金
国家自然科学基金(72274022)。
-
文摘
地址要素解析作为地理编码过程中的关键环节,直接影响到地理编码的准确性。由于中文地址表达的多样性和复杂性,两段相似的地址文本在地理表示上却可能完全不同。传统的通过词典匹配进行地址要素解析的方法无法较好地应对歧义词,从而导致识别准确率欠佳。文中提出一种基于词典的中文地址要素解析模型(Collaborative Flat-Graph Transformer,CFGT),利用自匹配词、最近上下文等词汇信息增强地址文本字符序列表示,有效遏制了地址文本表达的歧义性。具体地,模型首先构建Flat-Lattice和Flat-Shift两种协作图,为地址字符捕获自匹配词和最近上下文词汇的知识,并设计融合层实现图之间的协作;其次,通过改进的相对位置编码,进一步强化词信息对地址文本字符序列的增强效果;最后,利用Transformer和条件随机场进行地址要素解析。在Weibo和Resume等多个公开数据集及Address私有数据集上开展的实验表明,CFGT模型的性能优于已有的中文地址要素解析模型和中文命名实体识别模型。
-
关键词
中文地址识别
词典强化
外部信息
命名实体识别
-
Keywords
Chinese address recognition
Lexicon enhancement
External information
Named entity recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-