-
题名一种中文分词的动态规划模型
- 1
-
-
作者
贾利新
张斌
-
机构
信息工程大学理学院
郑州金翔软件科技有限公司
-
出处
《数学建模及其应用》
2015年第1期33-36,共4页
-
文摘
基于动态规划,利用反向搜索的方法,通过计算词语的最大"花费"给出了中文文本的切分算法,从而建立了一个能够消除中文分词中切分歧义的中文分词模型。通过对模型中算法求解的运行效率及空间耗费进行分析得出,在统计意义上,该算法具有接近与文本规模成线性关系的复杂度,空间的耗费是常数规模的。
-
关键词
自然语言
分词
算法
动态规划
-
Keywords
natural language
segmentation
algorithm
dynamic programming
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
O221.3
[理学—运筹学与控制论]
-
-
题名持久化基数树的设计与实现
- 2
-
-
作者
张润楷
张斌
-
机构
郑州第四十七中学
郑州金翔软件科技有限公司
-
出处
《信息与电脑》
2018年第6期116-118,121,共4页
-
文摘
持久化是一种数据结构设计技术,它能保持数据的各个历史版本,在区块链等新型分布式数据库中,采用持久化的数据结构保持数据演进过程中的一致性和可追溯性。基数树是一种按照字典序来组织内容的树状数据结构,在数据更新时保持自然的节点分裂和合并操作,产生的增量数据较少。笔者通过对基数树(Radix Tree)进行持久化的改造,实现一种数据结构操作算法,能够保持过去所有版本的内容,并且有效控制增量数据的产生。该算法包括一个字符串前缀比较函数、数据的增删查改等操作的算法步骤。在每一步比较键值时,先使用字符串前缀比较函数,判别各种匹配关系,然后按照关系类别和提取的共同子串及剩余子串,制导新节点的生成操作。算法已被编程实现,并被应用于相关应用软件的底层数据处理。
-
关键词
持久化
基数树
数据结构
-
Keywords
persistence
radix tree
data structure
-
分类号
TP316.81
[自动化与计算机技术—计算机软件与理论]
-