期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
一种改进的中文分词正向最大匹配算法 被引量:41
1
作者 王瑞雷 栾静 +1 位作者 潘晓花 卢修配 《计算机应用与软件》 CSCD 2011年第3期195-197,共3页
正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与... 正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法。改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高。 展开更多
关键词 中文分词 分词词典 正向最大匹配算法
下载PDF
基于改进Trie树结构的正向最大匹配算法 被引量:11
2
作者 熊志斌 朱剑锋 《计算机应用与软件》 CSCD 北大核心 2014年第5期276-278,共3页
提出一种改进的Trie树结构,树节点记录了字符串与构词的位置信息,子节点采用哈希查找机制,在此基础上优化了中文分词的正向最大匹配算法。分词过程中利用自动机机制判断是否构成最长词,解决了正向最大匹配算法需要根据词长调整字符串的... 提出一种改进的Trie树结构,树节点记录了字符串与构词的位置信息,子节点采用哈希查找机制,在此基础上优化了中文分词的正向最大匹配算法。分词过程中利用自动机机制判断是否构成最长词,解决了正向最大匹配算法需要根据词长调整字符串的问题。算法时间复杂度为1.33,对比试验结果表明有较快的分词速度。基于改进Trie树结构的正向最大匹配算法提高了中文分词速度,尤其适用于词典结构需要实时更新的场合。 展开更多
关键词 中文信息处理 分词 正向最大匹配算法
下载PDF
基于正向最大匹配算法的问答应用与图谱构建 被引量:1
3
作者 焦自程 《信息记录材料》 2022年第4期217-220,共4页
正向最大匹配算法以其更高的准确率在众多应用中取得不错的效果。而目前正向最大匹配算法在问答应用方面较少,提出一种基于正向最大匹配算法在问答系统的应用,系统问答功能的实现将以正向最大匹配算法为基础,并在原本基础上加入同义词词... 正向最大匹配算法以其更高的准确率在众多应用中取得不错的效果。而目前正向最大匹配算法在问答应用方面较少,提出一种基于正向最大匹配算法在问答系统的应用,系统问答功能的实现将以正向最大匹配算法为基础,并在原本基础上加入同义词词典,同义词词典的加入会使得问答系统的问答功能更加可靠、准确,增加系统的容错率。首先,分析本系统整体知识图谱的具体设计过程,随后指出图谱中各模块的功能;其次,着重讲解利用正向最大匹配算法实现问答功能的具体内容;最后,将是否加入同义词作出实验分析,验证同义词加入的可靠性和准确性。 展开更多
关键词 正向最大匹配算法 同义词 问答 图谱
下载PDF
改进的正向最大匹配分词算法 被引量:11
4
作者 张彩琴 袁健 《计算机工程与设计》 CSCD 北大核心 2010年第11期2595-2597,2633,共4页
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模... 为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模块,该模块主要是在每一次正向匹配后进行回溯匹配,即通过检测当前处理词条的尾字和下一字的成词情况,分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息,通过比较两者的互信息大小来决定切分,最后对分词碎片进行了处理。通过对随机抽取的语料进行测试,结果表明该方法是有效的。 展开更多
关键词 正向最大匹配算法 交集型歧义 预处理 互信息 分词碎片
下载PDF
基于字符串匹配的中文分词算法的研究 被引量:19
5
作者 常建秋 沈炜 《工业控制计算机》 2016年第2期115-116,119,共3页
伴随着信息技术的日新月异,互联网上的信息呈现出爆炸式的增长,为了满足人们快速而准确地获取信息,Lucene检索技术便应运而生。由于Lucene自带的分析器对中文分词效果不明显,切分出很多无用词,而且切分出的词失去原有意义。针对此问题,... 伴随着信息技术的日新月异,互联网上的信息呈现出爆炸式的增长,为了满足人们快速而准确地获取信息,Lucene检索技术便应运而生。由于Lucene自带的分析器对中文分词效果不明显,切分出很多无用词,而且切分出的词失去原有意义。针对此问题,在基于字符串的正向最大匹配分词方法的基础上,提出改进的方法,从而提高分词的准确性。最后,通过实验验证改进后的方法对分词的效果。 展开更多
关键词 LUCENE 中文分词 正向最大匹配算法
下载PDF
网络舆情算法的研究与应用
6
作者 米晓萍 张建峰 《计算机光盘软件与应用》 2012年第22期5-7,共3页
随着互联网的飞速发展,网络舆情的重要性毋庸置疑,目前解决网络舆情的算法有很多。本文对一些业界公认的实用算法进行了研究,并将这些算法应用到基于"云"平台,采用垂直搜索引擎进行网络舆情的抓取、分析,智能聚合系统对抓取... 随着互联网的飞速发展,网络舆情的重要性毋庸置疑,目前解决网络舆情的算法有很多。本文对一些业界公认的实用算法进行了研究,并将这些算法应用到基于"云"平台,采用垂直搜索引擎进行网络舆情的抓取、分析,智能聚合系统对抓取来的舆情进行内容分析,归类的全面、高效的网络舆情监控系统中。 展开更多
关键词 正向最大匹配算法 逆向最大匹配算法 K-MEANS聚类算法 朴素贝叶斯算法
下载PDF
基于MMSEG算法的中文分词技术的研究与设计 被引量:5
7
作者 张中耀 葛万成 +1 位作者 汪亮友 林佳燕 《信息技术》 2016年第6期17-20,共4页
文中提出了一种更为有效和准确的中文分词处理方法,并利用Lucene软件工具设计了相应的中文分词技术模块。该模块加入了改进的FFM算法,即MMSEG算法[1]的中文分词技术,对中文分词中的歧义现象实现了更好的解决方案。与现有实现算法相比,... 文中提出了一种更为有效和准确的中文分词处理方法,并利用Lucene软件工具设计了相应的中文分词技术模块。该模块加入了改进的FFM算法,即MMSEG算法[1]的中文分词技术,对中文分词中的歧义现象实现了更好的解决方案。与现有实现算法相比,该方法可以更快更好地实现中文分词功能,可有效提高全文检索中的中文检索的能力。 展开更多
关键词 中文分词 正向最大匹配算法 MMSEG LUCENE
下载PDF
改进的基于词典的中文分词方法 被引量:40
8
作者 莫建文 郑阳 +1 位作者 首照宇 张顺岚 《计算机工程与设计》 CSCD 北大核心 2013年第5期1802-1807,共6页
为了能够快速、准确地进行中文分词,在传统分词词典构造及相应算法的基础上,提出了改进的基于词典中文分词方法。该方法结合双字哈希结构,并利用改进的正向最大匹配分词算法进行中文分词,既提高了分词速度,同时解决了传统最大匹配分词... 为了能够快速、准确地进行中文分词,在传统分词词典构造及相应算法的基础上,提出了改进的基于词典中文分词方法。该方法结合双字哈希结构,并利用改进的正向最大匹配分词算法进行中文分词,既提高了分词速度,同时解决了传统最大匹配分词算法中的歧义问题。实验结果表明,该方法在一定程度上提高了中文词语切分的准确率,同时大大缩短了分词时间。 展开更多
关键词 中文分词 词典 哈希结构 正向最大匹配算法 歧义
下载PDF
基于Lucene的中文字典分词模块的设计与实现 被引量:27
9
作者 向晖 郭一平 王亮 《现代图书情报技术》 CSSCI 北大核心 2006年第8期46-50,共5页
在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。
关键词 搜索引擎 LUCENE 中文分词 正向最大匹配算法
下载PDF
远程教学资源整合及检索系统研究
10
作者 向俊 王静 何一辉 《广西广播电视大学学报》 2012年第3期41-45,共5页
文章分析了不同信息检索方法的研究现状,并根据远程教学资源实际利用情况和电大现有的软、硬件技术条件,给出了适合于现阶段开放教学资源检索的模型和方法,实现了输入内容的自动提示功能,改进了基于标点符号特征将正向最大匹配算法和逆... 文章分析了不同信息检索方法的研究现状,并根据远程教学资源实际利用情况和电大现有的软、硬件技术条件,给出了适合于现阶段开放教学资源检索的模型和方法,实现了输入内容的自动提示功能,改进了基于标点符号特征将正向最大匹配算法和逆向最大匹配算法相结合的分词算法。实验过程推理表明该方法是有效的,并在实际应用中,能获得较好的检索结果。 展开更多
关键词 教学资源 正向最大匹配算法 逆向最大匹配算法 信息检索
下载PDF
构件搜索中需求描述关键词提取方法
11
作者 王舜燕 邱昌程 +1 位作者 宁海波 张梅芬 《计算机与数字工程》 2009年第11期36-39,共4页
随着主动服务研究的逐渐深入,各项主动服务的关键功能已开始逐步的实现,最大正向匹配算法可以实现构件搜索中用户需求描述的分解和关键词的提取。
关键词 主动服务 构件搜索 正向最大匹配算法
下载PDF
一种键树结构的中文分词方法
12
作者 熊志斌 《电脑编程技巧与维护》 2012年第20期97-99,共3页
正向最大匹配算法是中文自动分词一种常用算法。它为词典设计了键树结构,克服了设定初始词长的限制,并用Java实现了算法。
关键词 中文分词 正向最大匹配算法 键树
下载PDF
一种基于Lucene的中文分词的设计与测试 被引量:6
13
作者 王志嘉 薛质 《信息技术》 2010年第12期50-54,共5页
设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力。整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更... 设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力。整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更高效率和准确度的中文分词功能。在系统评测方面,通过实验仿真比较了该模块与StandardAnalyzer和CJKAnalyzer在功能和效率上的差异。对于如何构建一个高效的中文检索系统,提出了一种实现方案。 展开更多
关键词 中文分词 搜索引擎 LUCENE 正向最大匹配算法
下载PDF
缅甸语分词方法及其实现 被引量:1
14
作者 马昌娥 杨鉴 《计算机科学与应用》 2018年第11期1682-1688,共7页
缅甸语与英语以及其它西方语言不同,它的词之间没有明显的边界,开发缅甸语的语音合成系统时,分词是其中的一个重要环节。我们从大约600 M的原始语料库中选取5000个完整句子,由缅语专家人工分词以后作为该文的实验数据集。本文对比了基... 缅甸语与英语以及其它西方语言不同,它的词之间没有明显的边界,开发缅甸语的语音合成系统时,分词是其中的一个重要环节。我们从大约600 M的原始语料库中选取5000个完整句子,由缅语专家人工分词以后作为该文的实验数据集。本文对比了基于条件随机场(CRF)的缅语分词方法与基于正向最大匹配算法(FMM)的缅语分词方法,并用置信度、分词精度和分词速度评估分词性能。在本次实验中,基于CRF与FMM的缅语分词结果中置信度分别可达94.1%和84.3%,F-值分别可达93.8%和82.9%。表明,应用CRF方法实现缅语分词的效果更好,且该方法可满足开发缅语语音合成系统的要求。 展开更多
关键词 缅甸语 分词 条件随机场 正向最大匹配算法
下载PDF
自然语言处理技术中的中文分词研究 被引量:8
15
作者 陈开昌 《信息与电脑》 2016年第19期61-63,共3页
中文分词是自然语言处理处理的基础,有着极其广泛的实际应用。可以说,在各类中文信息处理软件(系统)中,中文分词都是不可或缺的环节。随着互联网在中国的兴起,对中文信息处理提出更高要求,即在语义层面上处理中文,这使得中文分词算法的... 中文分词是自然语言处理处理的基础,有着极其广泛的实际应用。可以说,在各类中文信息处理软件(系统)中,中文分词都是不可或缺的环节。随着互联网在中国的兴起,对中文信息处理提出更高要求,即在语义层面上处理中文,这使得中文分词算法的研究显得更加困难,中文分词技术的发展显得更为重要。 展开更多
关键词 自然语言处理技术 中文分词 正向最大匹配算法
下载PDF
基于Lucene的中文分词方法设计与实现 被引量:13
16
作者 李颖 李志蜀 邓欢 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2008年第5期1095-1099,共5页
本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了... 本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现. 展开更多
关键词 中文分词 搜索引擎 LUCENE 正向最大匹配算法
原文传递
基于缩略语转换的手机图书馆发布信息预处理机制初探 被引量:1
17
作者 白如星 张成昱 王茜 《现代图书情报技术》 CSSCI 北大核心 2010年第3期64-70,共7页
为解决小屏幕的手持式数字设备有效显示大量文献信息时的局限性,尝试利用缩略语转换的方式来压缩在手机上展示的文献信息以方便用户使用,并为此设计缩略语转换系统。从系统的运行时间和不同领域文章的压缩效果进行对比实验。
关键词 缩略语 手机图书馆 网络爬虫 正向最大匹配算法
原文传递
基于Lucene的中英文语言分析器的设计与实现 被引量:1
18
作者 马凤娟 吴鹏飞 《图书情报工作》 CSSCI 北大核心 2009年第15期118-121,共4页
分析Lucene的语言分析器结构,针对其只能进行中文单字、双字切分的不足,采用基于词典的正向最大匹配分词算法,设计并实现基于Lucene的中英文语言分析器ZH_CNAnalyzer,实验结果表明其能够对中英文文档进行高效索引,满足实际应用的需要。
关键词 搜索引擎 LUCENE 中英文分词 正向最大匹配算法 语言分析器
原文传递
一种阿拉伯语地名的机器翻译方法 被引量:3
19
作者 任洪凯 王继周 +2 位作者 毛曦 马维军 殷红梅 《测绘科学》 CSCD 北大核心 2020年第8期157-163,共7页
针对目前我国阿拉伯语地名的机器翻译研究空白,该文通过分析阿拉伯语地名的词法结构以及语音特点,提出了一种关于阿拉伯语地名的机器翻译方法:首先基于点互信息计算公式训练大量地名语料提取常用词;接着通过有向无环图数据结构提取地名... 针对目前我国阿拉伯语地名的机器翻译研究空白,该文通过分析阿拉伯语地名的词法结构以及语音特点,提出了一种关于阿拉伯语地名的机器翻译方法:首先基于点互信息计算公式训练大量地名语料提取常用词;接着通过有向无环图数据结构提取地名模板;然后基于模板匹配解析待译地名词法结构,利用基于音节划分的音译模型音译词法结构中的专名;最后组合输出翻译结果。经过对阿语地名翻译实验,验证了本专用阿拉伯语地名机器翻译方法的有效性,对我国全球地理信息资源建设具有重要的现实意义。 展开更多
关键词 地名 机器翻译 点互信息 有向无环图 词法结构解析 音节划分 正向最大匹配算法
原文传递
基于C#语言的大学生创业网之设计与实现
20
作者 吴智宪 陈超祥 时美 《浙江树人大学学报(自然科学版)》 2011年第3期7-10,共4页
文章详细描述了大学生创业网的设计思路和方法.系统利用C#语言设计,采用中文分词算法的正向最大匹配方法实现创业方和投资方的精确匹配,并给出了页面控件多级嵌套和验证码设计的有关技术.为大学生创业提供了良好的信息交互平台,具有很... 文章详细描述了大学生创业网的设计思路和方法.系统利用C#语言设计,采用中文分词算法的正向最大匹配方法实现创业方和投资方的精确匹配,并给出了页面控件多级嵌套和验证码设计的有关技术.为大学生创业提供了良好的信息交互平台,具有很好的实际应用价值. 展开更多
关键词 C#语言 大学生创业 正向最大匹配算法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部