-
题名基于Trie树和有限状态自动机的中文地址解析模型
被引量:3
- 1
-
-
作者
汪洋
刘师培
王峥
-
机构
武汉邮电科学研究院
烽火通信科技股份有限公司南京研发部
-
出处
《计算机与现代化》
2016年第7期60-67,共8页
-
文摘
目前,无论是在研究或者是商业领域中,中文地址解析都没有一个成熟的模型结果。要素识别是地址解析的关键技术,传统的地址要素识别是基于特征词和字典匹配的方法,难以解决地址命名的多样性问题。利用自然语言处理技术,根据Trie树模型对行政区域寻址的方法和有限状态自动机模型对非规范地址的要素提取方法,本文提出T-FA模型对地址进行分级划分。其中,采用隐马尔可夫模型的切词方法和最长公共子序列算法,可以解决地址要素识别的模糊化搜索。T-FA模型具有良好的泛化能力,在批量处理地址时具有很好的通用效果,能比较有效地解决中文地址多样化的解析难题。
-
关键词
自然语言处理
地址解析
要素识别
trie树模型
有限状态自动机模型
-
Keywords
natural language processing
address resolution
elements identify
trie tree model
finite automata model
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于双数组trie树的多模式复杂事件检测方法
被引量:2
- 2
-
-
作者
黄思猛
程良伦
王涛
-
机构
广东工业大学计算机学院
广东工业大学自动化学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2019年第4期91-95,共5页
-
基金
国家自然科学基金青年科学基金项目(No.61502110)
粤港共性技术招标项目(No.2013B010134011)
+1 种基金
广东省科技计划项目(No.2016B090918045
No.2017B090901019)
-
文摘
制造物联网中海量实时数据流急需高效的事件检测与处理方法,高效意味着单位时间内使用较小的存储空间处理更多的输入事件。提出一种基于双数组trie树的多模式复杂事件检测方法,通过构建多模式匹配自动机模型减少查询过程中冗余的检测和计算,并利用双数组trie树充分压缩存储空间,从而提高了复杂事件处理的效率。仿真实验表明,提出的方案相比传统的单模式复杂事件检测,具有较小的空间和时间消耗。
-
关键词
制造物联网
复杂事件处理
多模式匹配
自动机模型
双数组trie树
-
Keywords
manufacturing IOT
complex event processing
multi-pattern matching
automata model
double-array trie-tree
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名变阶马尔科夫模型算法实现
- 3
-
-
作者
王兴
吴艺
林劼
卓一帆
-
机构
中南大学信息科学与工程学院
福建师范大学数学与信息学院
-
出处
《计算机系统应用》
2018年第4期10-17,共8页
-
基金
国家自然科学基金(61472082)
福建省自然科学基金(2014J01220)
-
文摘
如何快速有效对历史数据进行统计建模和规律挖掘具有重要意义.鉴于模型在实际数据挖掘应用的局限及马尔科夫模型的良好统计特性,设计实现了基于后缀数组和后缀自动机的变阶马尔科夫模型.算法在后缀树形结构实现的基础上,引入后缀链,实现各状态子序列的快速跳转,能动态自适应计算不同阶长概率的需求.实验结果表明:相比传统马尔科夫模型,模型能在线性时间和空间复杂度内,构建历史数据的概率统计特征及各状态后缀子序列之间的链接关系,大大降低了存储空间和时间,能实现大规模数据的在线学习和应用.
-
关键词
马尔科夫模型
变阶马尔科夫模型
字典树
后缀数组
后缀自动机
-
Keywords
Markov model
variable Markov model
trie tree
suffix array
suffix automation
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于字典树语言模型的专业课查询文本校对方法
被引量:3
- 4
-
-
作者
李丹阳
赵亚慧
罗梦江
崔荣一
-
机构
延边大学工学院
-
出处
《延边大学学报(自然科学版)》
CAS
2020年第3期260-264,共5页
-
基金
国家语委“十三五”科研规划项目(YB135-76)
延边大学外国语言文学世界一流学科建设科研项目(18YLPY13,18YLPY14)。
-
文摘
针对中文文本校对技术中存在的校对准确率较低的问题,提出了一种基于字典树模型的专业课查询文本校对方法.首先,通过计算错误文本与匹配文本间的编辑距离对错误关键词进行模糊匹配;其次,采用字典树语言模型建立搜索树,以提高查询效率.最后,通过对比不同文本相似度阈值下的校对效果选取最佳文本相似度阈值.在最佳阈值下(0.5),将本文模型与传统的拼音模型和N-gram模型进行问句校对对比显示,本文方法的准确率(77.91%)、召回率(67%)、F值(72.04%)比传统的拼音模型校正方法分别提高了5.69%、23.67%和11.57%,比N-gram模型校正方法分别提高了0.64%、10.33%和7.89%.因此,本文提出的方法在专业课查询文本校对方面具有很好的应用价值.
-
关键词
字典树
文本校对
语言模型
自动纠正
-
Keywords
trie tree
text proofreading
language model
automatic correction
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语言模型词嵌入和注意力机制的敏感信息检测方法
被引量:8
- 5
-
-
作者
黄诚
赵倩锐
-
机构
四川大学网络空间安全学院
-
出处
《计算机应用》
CSCD
北大核心
2022年第7期2009-2014,共6页
-
基金
国家自然科学基金资助项目(61902265)
四川省科技厅重点研发计划项目(2020YFG0076)。
-
文摘
针对基于关键词字符匹配和短语级情感分析等传统敏感信息检测方法准确率低和泛化性差的问题,提出了一种基于语言模型词嵌入和注意力机制(A-ELMo)的敏感信息检测方法。首先,进行字典树快速匹配,以最大限度地减少无用字符的比较,从而极大地提高查询效率;其次,构建了一个语言模型词嵌入模型(ELMo)进行语境分析,并通过动态词向量充分表征语境特征,从而实现较高的可扩展性;最后,结合注意力机制加强模型对敏感特征的识别度,从而进一步提升对敏感信息的检测率。在由多个网络数据源构成的真实数据集上进行实验,结果表明,所提敏感信息检测方法与基于短语级情感分析的方法相比,准确率提升了13.3个百分点;与基于关键字匹配的方法相比,准确率提升了43.5个百分点,充分验证了所提方法在加强敏感特征识别度、提高敏感信息检测率方面的优越性。
-
关键词
敏感信息
语言模型词嵌入
语境分析
注意力机制
字典树
-
Keywords
sensitive information
Embedding from Language model(ELMo)
context analysis
attention mechanism
trie tree
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-