-
题名基于双字Hash机制的交通信息分词算法研究
被引量:4
- 1
-
-
作者
李澎林
张献力
李伟
-
机构
浙江工业大学计算机科学与技术学院
-
出处
《浙江工业大学学报》
CAS
2014年第6期596-600,共5页
-
基金
国家863重大项目(2012AA12A211)
浙江省自然科学基金资助项目(LY12F02033)
-
文摘
互联网页面文本挖掘是大数据时代快速获取广域实时专题信息的重要技术手段.针对公众出行服务和交通相关应用,互联网页面中所蕴含的交通信息极具价值,但需要借助有效的自然语言分词方法来实现语义理解过程.针对互联网文本页面中蕴含交通信息的表达特点,设计了一种基于双字Hash和List相结合的三层词典数据结构,提出了一种改进的最大匹配分词算法,该算法在切分过程中增加了对关键词汇的词库归属性判断,保存了根据各个词库切分出来的关键词汇的个数与顺序,使其能够更好地满足自然语言语义理解的需求;同时,算法考虑了交通信息词库中词的长度分布,采用分治方法实现对长句或组合句的有效处理.实验表明:所提出的互联网文本页面蕴含交通信息的中文分词算法具有较好的精度和效率,可以满足互联网页面蕴含交通信息的实时分词需求,为交通信息文本的语义理解奠定了技术基础.
-
关键词
自然语言理解
文本挖掘
交通信息
双字hash
最大匹配
-
Keywords
natural language understanding
text miningl traffic information
double-hashlmaximum match
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于双数组Trie树的渔业领域分词研究
- 2
-
-
作者
高艳萍
于红
尹祥贵
綦孝姬
王春永
赵志强
-
机构
大连水产学院信息工程学院
-
出处
《安徽农业科学》
CAS
北大核心
2008年第11期4788-4790,共3页
-
基金
辽宁省教育厅攻关项目(05L090)
-
文摘
渔业信息分词对渔业信息系统处理的速度和效率有很大的影响。对汉语词典查询算法进行了分析,用基于双数组Trie树机制的汉语词典实现了渔业信息的分词,并与基于双字Hash机制词典的分词方法进行了试验对比,证明双数组Trie树机制的词典比基于双字Hash机制的词典有更高的查询速度。
-
关键词
双数组Trie
双字hash
渔业信息处理
词典
-
Keywords
Double -array Trie
Double -word hash
Fisheries information processing
Dictionary
-
分类号
S126
[农业科学—农业基础科学]
-
-
题名基于改进Trie树的歧义消解方法
被引量:1
- 3
-
-
作者
陈倩
乐红兵
-
机构
江南大学物联网工程学院
-
出处
《计算机与数字工程》
2020年第9期2238-2243,共6页
-
文摘
词典是汉语自动分词的基础,减少交集型歧义可以提高分词的准确率。在基于词典切分中,传统的Trie树每个节点存储一个字符,构建时产生了很多空指针。为了优化词典存储结构,在Trie树的基础上,采用双字Hash机制:把Trie索引树的深度限制为2,词的剩余字符串则按序组成类似"整词二分"的词典正文,并在每组词语的叶子节点上增加词频和词性的属性值,用于后序的交集型歧义识别。加载了搜狗实验室中文互联网语料统计出的15万条高频词,平均大小为60KB的5篇不同领域的测试语料作为测试样本。实验结果表明:相比其他词典而言,双字Hash分词速度得到显著提高,分词的正确率达到93.1%,基本可以满足实用型中文信息处理系统的需要。
-
关键词
词典
自动分词
歧义切分
TRIE树
双字hash存储
词频
词性
-
Keywords
dictionary
automatic word segmentation
ambiguity segmentation
Trie tree
double word hash storage
word frequency
part of speech
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-