-
题名一种设备端中英分词算法的设计与实现
- 1
-
-
作者
高群
-
机构
安徽三联学院计算机工程学院
-
出处
《电脑知识与技术》
2024年第16期19-22,共4页
-
基金
安徽三联学院2024年度校级科研平台重点项目:中英分词算法在智能设备上的应用及优化(项目编号:PTZD2024013)。
-
文摘
文章针对设备端中英文分词的需求,设计并实现了一种端侧中英文分词算法。该算法基于词典匹配原则,结合散列hash算法实现高效的词典查找。通过优化词典结构、采用自适应分词策略以及引入用户反馈机制等策略,提高了分词的准确率和处理速度。实验结果表明,无论在通用PC还是低性能嵌入式设备上,该算法都表现出良好的性能。在人工标注的中文和英文测试集上,整句分词准确率分别达到90%和80%以上,为设备端分词的实现提供了一种可行的思路。未来的工作重点是进一步优化英文处理,并适配低端硬件设备。
-
关键词
中英文分词算法
设备端算法
词典匹配
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Lucene的中英文语言分析器的设计与实现
被引量:1
- 2
-
-
作者
马凤娟
吴鹏飞
-
机构
石家庄经济学院人文与社科学院
石家庄学院图书馆
-
出处
《图书情报工作》
CSSCI
北大核心
2009年第15期118-121,共4页
-
文摘
分析Lucene的语言分析器结构,针对其只能进行中文单字、双字切分的不足,采用基于词典的正向最大匹配分词算法,设计并实现基于Lucene的中英文语言分析器ZH_CNAnalyzer,实验结果表明其能够对中英文文档进行高效索引,满足实际应用的需要。
-
关键词
搜索引擎
LUCENE
中英文分词
正向最大匹配算法
语言分析器
-
Keywords
search engine Lucene segmentation forwards maximum match algorithm ZH_CNAnalyzer
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-