期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
HanLP下不同分词器对文本分类性能的研究
1
作者 汪兰兰 《现代计算机》 2024年第14期41-44,共4页
文本分类在搜索引擎技术中占据着重要的地位,文本分类第一步就是分词,分词分得准确,则在后续文字特征提取的时候也更为精确。针对以上情况,主要探究HanLP中不同分词器对文本分类后所呈现结果的影响程度,所用分词器主要为实词分词器和二... 文本分类在搜索引擎技术中占据着重要的地位,文本分类第一步就是分词,分词分得准确,则在后续文字特征提取的时候也更为精确。针对以上情况,主要探究HanLP中不同分词器对文本分类后所呈现结果的影响程度,所用分词器主要为实词分词器和二元语法分词器,利用两种分词器对语料库分词,将特征向量导入朴素贝叶斯和支持向量机中进行训练和测试,测评后精确率P、召回率R、F1分数最高的一组搭配为二元语法分词和支持向量机。实验数据表明二元语法分词器能够较大地提高文本分类的准确率,但分词特征较多会影响分类模型分类的速率。 展开更多
关键词 实词分词器 二元语法分词器 朴素贝叶斯 支持向量机
下载PDF
开源中文分词器在web搜索引擎中的应用 被引量:12
2
作者 刘晓婉 胡燕祝 艾新波 《软件》 2013年第3期80-83,共4页
目前,在信息检索方面,一般分词器对英文的支持相对较好,但对中文分词效果不太理想;随着web搜索在互联网中的广泛应用,中文分词器也出现了突飞猛进的发展,尤其以IKAnalyzer分词器为主的分词工具,为更多企事业单位所采纳。本文主要在词条... 目前,在信息检索方面,一般分词器对英文的支持相对较好,但对中文分词效果不太理想;随着web搜索在互联网中的广泛应用,中文分词器也出现了突飞猛进的发展,尤其以IKAnalyzer分词器为主的分词工具,为更多企事业单位所采纳。本文主要在词条化等方面对分词原理进行深入的分析,并且对如何构造智能分词词典进行了探讨。同时,对分词内部结构进行研究,在分词数目和速率方面对目前主流的中文分词器进行了比较,并运用htmlparser库对北京邮电大学的网站进行解析,采用分词工具Paoding Analysis建立索引文件存入本地,利用solt4.0全文搜索服务器给出运用中文分词后的查询效果图,实现对北京邮电大学网站的全文搜索功能。 展开更多
关键词 分词器 WEB搜索 信息检索 智能分词 全文搜索
下载PDF
中文农业专业分词器设计与实现 被引量:3
3
作者 方逵 罗武 +1 位作者 王玉娟 卜伟琼 《农业工程》 2012年第3期18-20,共3页
利用Hash表在查找效率上的优势,提出了基于Hash机制的词典查找、更新、删除和添加等操作算法。该算法根据汉字GB码的特点,将保存首字GB码,提高了存储空间利用率;在词典中建立农业专业词汇和方言词汇一对多的对应关系,在满足系统需求的同... 利用Hash表在查找效率上的优势,提出了基于Hash机制的词典查找、更新、删除和添加等操作算法。该算法根据汉字GB码的特点,将保存首字GB码,提高了存储空间利用率;在词典中建立农业专业词汇和方言词汇一对多的对应关系,在满足系统需求的同时,提高了分词的准确性。 展开更多
关键词 农村信息化 知识库 中文分词器 分词词典 算法评估
下载PDF
实现Lucene接口的中文分词器的比较研究 被引量:11
4
作者 黄翼彪 《科技信息》 2012年第12期246-247,共2页
Lucene自身提供的StandardAnalyzer虽然已经具备中文分词的功能,但是其分词正确率和切分速度不能够满足大多数应用的需要。为更好处理中文信息,必须引用独立的外部中文分词器。基于这种需求,文章对ChineseAnalyzer、CJKAnalyzer、IKAnal... Lucene自身提供的StandardAnalyzer虽然已经具备中文分词的功能,但是其分词正确率和切分速度不能够满足大多数应用的需要。为更好处理中文信息,必须引用独立的外部中文分词器。基于这种需求,文章对ChineseAnalyzer、CJKAnalyzer、IKAnalyzer、mmseg4j、imdict-chinese-analyzer和庖丁解牛6种主流中文分词器分别进行测试,并根据测试结果对分词效果做出评估。 展开更多
关键词 LUCENE 中文分词 分词器 mmseg4j 庖丁解牛
下载PDF
基于Lucene的自定义中文分词器的设计与实现 被引量:1
5
作者 王桐 王韵婷 《电脑知识与技术(过刊)》 2014年第1X期430-433,共4页
该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通... 该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通过实验测试表明,该分词器的分词性能跟Lucene自带的中文分词器相比有了极大的提高,并最终构建出了一个高效的中文全文检索系统。 展开更多
关键词 中文分词 复杂最大匹配 LUCENE 分词器
下载PDF
基于语境分析的汉语分词器在文本信息过滤系统中的应用
6
作者 律佳 廉立志 《郑州轻工业学院学报(自然科学版)》 CAS 2010年第3期66-70,共5页
针对汉语分词的歧义切分问题,提出了一种基于语境分析的二元汉语分词器,通过词典匹配和二元切词的结合进行歧义消解,使用分词校正器从句子语法角度上检测分词结果的正确性.实验证明,改进的汉语分词器具有识别各种类型新词、消解各类歧... 针对汉语分词的歧义切分问题,提出了一种基于语境分析的二元汉语分词器,通过词典匹配和二元切词的结合进行歧义消解,使用分词校正器从句子语法角度上检测分词结果的正确性.实验证明,改进的汉语分词器具有识别各种类型新词、消解各类歧义的能力;将其应用到文本信息过滤系统的文本分析模块,在强化系统语言分析能力的同时,系统的过滤精度也得到大幅度的提高. 展开更多
关键词 汉语分词器 文本信息过滤 歧义消解 分词校正器
下载PDF
基于Lucene的中文分词器的改进与实现 被引量:1
7
作者 罗惠峰 郭淑琴 《微型机与应用》 2015年第11期76-78,82,共4页
Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结... Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结果的对比表明,改进后的中文分词器对检索功能的扩展有了极大的提高。并最终构建出了一个高效的中文全文检索系统。 展开更多
关键词 全文检索 中文分词器 文本解析器 最大匹配算法(MMSEG)
下载PDF
基于Lucene和MMSEG算法的中文分词器研究 被引量:1
8
作者 邓晓枫 蒋廷耀 《信息通信》 2017年第9期146-148,共3页
Lucene开放源代码的特性让很多人使用它来构建具体的全文检索应用,然而对于中文检索来说,Lucene自带的中文分词器对中文的分词处理并不理想,其分词的正确率和分词速度以及对歧义词处理等方面不能满足大多数应用的需求,因此有必要为Lucen... Lucene开放源代码的特性让很多人使用它来构建具体的全文检索应用,然而对于中文检索来说,Lucene自带的中文分词器对中文的分词处理并不理想,其分词的正确率和分词速度以及对歧义词处理等方面不能满足大多数应用的需求,因此有必要为Lucene引入第三方分词器来弥补自带分词功能的缺陷。文章对采用mmseg算法的2种分词器mmseg4j和Jcseg在分词指标、索引创建的时间消耗方面进行测试比较,评估分析测试结果,结合应用场景为Lucene选择一个合适的分词器来加强中文分词功能。 展开更多
关键词 LUCENE mmseg 中文分词器 索引
下载PDF
中文分词器对图书评论和情感词典匹配程度的影响 被引量:18
9
作者 尤众喜 华薇娜 潘雪莲 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第7期23-33,共11页
【目的】比较由不同中文分词器带来的语料和情感极性词典匹配程度的差异。【方法】采用6款分词器对自主构建的图书评论语料库进行分词,结合常见情感词典编写程序对输入的语料进行处理,统计语料对情感词典、否定词表和程度词表的覆盖率... 【目的】比较由不同中文分词器带来的语料和情感极性词典匹配程度的差异。【方法】采用6款分词器对自主构建的图书评论语料库进行分词,结合常见情感词典编写程序对输入的语料进行处理,统计语料对情感词典、否定词表和程度词表的覆盖率与匹配次数,计算低频词的比率和中性语料的比率。【结果】针对不同的情感词典,分词器在语料–词典匹配度、词典低频词比例以及中性语料占比方面表现出不同程度的差异。【局限】实验语料不足,没有基于词典和规则进行句子级的测试。【结论】本研究将有助于从事涉及到基础情感词典的各种研究在选择中文分词器时减少随意性。 展开更多
关键词 中文分词器 情感极性词典 情感分析
原文传递
多尺度卷积神经网络融合Transformer的竹材缺陷识别方法
10
作者 杨松 张锐 朱良宽 《林业工程学报》 CSCD 北大核心 2024年第5期126-133,共8页
在竹材缺陷识别的研究中,竹片形状、缺陷部位颜色深浅及裂纹大小差异都是制约模型识别准确率的关键。针对上述问题,提出一种适用于中小数据集的多尺度卷积神经网络融合Transformer的竹材缺陷识别方法,以更好地提高竹材缺陷识别的准确率... 在竹材缺陷识别的研究中,竹片形状、缺陷部位颜色深浅及裂纹大小差异都是制约模型识别准确率的关键。针对上述问题,提出一种适用于中小数据集的多尺度卷积神经网络融合Transformer的竹材缺陷识别方法,以更好地提高竹材缺陷识别的准确率。该方法在卷积神经网络的主干上进行改进,从获取不同尺度语义信息的角度出发,首先利用卷积神经网络在不同尺度的特征图上捕捉图像局部语义信息,然后将不同尺度的语义特征映射为特征符号,同时引入Sinkhorn分词器对不同阶段的卷积神经网络特征符号化以减少特征冗余,再通过Transformer对特征符号之间的关系进行建模以学习图像全局语义信息。试验结果表明,与VGG16、ResNet50、DenseNet121、ViT这4种深度学习模型相比,基于多尺度卷积神经网络融合Transformer的方法能够更高效地提高竹材缺陷识别模型的性能,在竹材缺陷图像数据集上的平均识别准确率达到了99.13%。该方法识别速度更快、精度更高,且具有良好的鲁棒性,为竹材缺陷的实时自动识别提供了新思路,同时也验证了所提出方法的有效性。 展开更多
关键词 竹材缺陷识别 多尺度 卷积神经网络 TRANSFORMER Sinkhorn分词器
下载PDF
Nutch中文分词的设计与实现 被引量:1
11
作者 张敏 杜华 《河北北方学院学报(自然科学版)》 2010年第4期53-56,62,共5页
面对与日俱增的中文信息检索需求,Nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于Nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在Nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文... 面对与日俱增的中文信息检索需求,Nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于Nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在Nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文分词技术进行研究的基础上,设计并实现了具有中文分词功能和新词识别功能的分词器,在Nutch中实现了中文分词功能.实验测试结果表明,算法的分词效果能够达到预期的中文分词的要求. 展开更多
关键词 搜索引擎 中文分词 分词器 NUTCH
下载PDF
全文检索技术在图书检索中的应用
12
作者 高霞 《中原工学院学报》 CAS 2024年第2期85-89,共5页
现有的图书检索方法多是对馆藏图书进行编目、分类、标注等处理后形成书目数据库,用户根据书名、作者和出版社等信息来检索图书。这种方式不能满足用户根据任意关键词来检索图书的需求,效率较低。全文检索是基于倒排索引技术对文本中的... 现有的图书检索方法多是对馆藏图书进行编目、分类、标注等处理后形成书目数据库,用户根据书名、作者和出版社等信息来检索图书。这种方式不能满足用户根据任意关键词来检索图书的需求,效率较低。全文检索是基于倒排索引技术对文本中的所有词组和关键词进行索引,支持快速检索到文本中任何一个单词和关键词。若将全文检索技术应用于图书检索中,可使用户根据任意关键词检索图书,可根据检索量和用户习惯推荐热门图书。文章介绍了如何在图书检索过程中应用全文检索技术,分析了全文检索引擎选择、图书文本解析、图书文本分词、图书索引设计、图书文档提交等主要过程,并给出了全文检索技术的最终实现效果,以期对提升图书检索系统的易用性提供一定借鉴。 展开更多
关键词 图书检索系统 全文检索 分词器 索引结构 推荐算法 检索命中率
下载PDF
面向高效越南语分词的有监督集成学习框架
13
作者 刘伍颖 王琳 《小型微型计算机系统》 CSCD 北大核心 2018年第6期1213-1217,共5页
在很多亚洲语言书面文本中,词与词之间没有明显的分隔符,因此这些文本的自动分词任务依然具有挑战性.相应的分词算法能够被广泛用于各种自然语言处理应用当中.本文针对越南语分词问题,提出了一套完整的有监督集成学习框架,并且实现了一... 在很多亚洲语言书面文本中,词与词之间没有明显的分隔符,因此这些文本的自动分词任务依然具有挑战性.相应的分词算法能够被广泛用于各种自然语言处理应用当中.本文针对越南语分词问题,提出了一套完整的有监督集成学习框架,并且实现了一种新的基于有监督集成学习的分词算法.在二元音节频率索引数据结构支持下,我们实现的分词算法能够综合多个基本分词器的优势,形成一个集成分词器.公开数据集上的越南语分词实验结果表明我们提出的框架在统计、计算和表示上具有良好的表现,算法最终能够达到最优的分词效果. 展开更多
关键词 有监督集成学习框架 越南语分词 多基本分词器 二元音节频率索引
下载PDF
基于ElasticSearch分布式搜索引擎的信息检索方法研究 被引量:2
14
作者 董元和 贾炎 +2 位作者 朱勇 李恩泽 薛贤红 《湖北师范大学学报(自然科学版)》 2023年第4期56-61,共6页
随着信息量的骤增,传统关系型数据库很难做到实时高效地检索用户需要的信息,并且无法对信息进行分词及关键词组合的短文本搜索,从而很难优化信息检索结果的推荐展示。针对大量信息频繁检索的问题,采取一种基于ElasticSearch分布式搜索引... 随着信息量的骤增,传统关系型数据库很难做到实时高效地检索用户需要的信息,并且无法对信息进行分词及关键词组合的短文本搜索,从而很难优化信息检索结果的推荐展示。针对大量信息频繁检索的问题,采取一种基于ElasticSearch分布式搜索引擎,并采用分词器和倒排索引等技术,能较好地解决这些问题。同时在研究过程中利用代码实现了基础功能搜索、地理位置搜索以及通过算分排序推荐展示等功能。 展开更多
关键词 分布式搜索引擎 短文本搜索 倒排索引 分词器 信息检索
下载PDF
Nutch中网页排序效果的改进方法 被引量:6
15
作者 潘涛 梁正友 《计算机工程》 CAS CSCD 北大核心 2010年第13期42-44,共3页
Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的... Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的Nutch具有更高的查询结果准确率和中文网页排序效果。 展开更多
关键词 Nutch搜索引擎 MAPREDUCE模型 PAGERANK算法 JE中文分词器
下载PDF
农业知识库系统设计与实现 被引量:2
16
作者 方逵 罗武 朱幸辉 《农机化研究》 北大核心 2013年第5期8-11,共4页
提出了农业知识库系统的架构设计。同时,介绍了农业知识库的设计、中文农业专业分词器以及查重器设计与实现;并给出了中文农业专业分词算法评估和查重算法评估。实际应用结果表明,所设计的中文农业专业分词器和查重器满足系统的要求,为... 提出了农业知识库系统的架构设计。同时,介绍了农业知识库的设计、中文农业专业分词器以及查重器设计与实现;并给出了中文农业专业分词算法评估和查重算法评估。实际应用结果表明,所设计的中文农业专业分词器和查重器满足系统的要求,为农村信息化建设提供了支持。 展开更多
关键词 农业知识库 中文分词器 查重机制 算法评估
下载PDF
校园网搜索引擎的研究与实现 被引量:12
17
作者 马志强 周长胜 +1 位作者 丁维 杨娜 《北京机械工业学院学报》 2007年第1期12-15,共4页
针对通用搜索引擎不能检索校园网内网的不足,提出建立校园网搜索引擎,实现为用户提供基于关键字进行校园内部信息检索的服务平台。通过研究,设计了具有搜索器、中文分词器、索引器和检索器的校园网搜索引擎系统。系统采用Java语言和Orac... 针对通用搜索引擎不能检索校园网内网的不足,提出建立校园网搜索引擎,实现为用户提供基于关键字进行校园内部信息检索的服务平台。通过研究,设计了具有搜索器、中文分词器、索引器和检索器的校园网搜索引擎系统。系统采用Java语言和Oracle9i数据库实现。目前,系统已实现了基于关键词的查询,但也存在着检索关键词不能进行智能转化、检索结果不能根据用户反馈进行排序的不足。 展开更多
关键词 校园网 搜索引擎 中文分词器
下载PDF
基于字级别条件随机场的医学实体识别 被引量:6
18
作者 何彬 关毅 《智能计算机与应用》 2019年第2期130-134,142,共6页
开放域分词器对临床文本进行分词处理时,其性能受到了临床文本独特的子语言特性的极大限制,给后续医学实体边界识别造成了不少错误累积。本文针对该问题构建了面向临床文本的分词器,将该分词器用于医学实体识别模型的词特征提取来减少... 开放域分词器对临床文本进行分词处理时,其性能受到了临床文本独特的子语言特性的极大限制,给后续医学实体边界识别造成了不少错误累积。本文针对该问题构建了面向临床文本的分词器,将该分词器用于医学实体识别模型的词特征提取来减少医学实体边界错误,还构建了字级别的条件随机场模型用于识别医学实体,避免了分词给实体边界识别造成的错误累积问题。 展开更多
关键词 医学实体识别 条件随机场 临床分词器
下载PDF
农业知识库知识录入系统的研究与实现
19
作者 罗武 方逵 +1 位作者 朱幸辉 王玉娟 《农业网络信息》 2012年第3期96-98,共3页
给出了系统的实现思路,介绍了系统的主要功能和实现过程,并给出了主要功能的测试结果。
关键词 知识库 知识录入 分词器 查重器
下载PDF
适用于工艺领域的知识检索方法研究
20
作者 姜明 王庆文 周恒 《新技术新工艺》 2011年第8期27-31,共5页
在对工艺知识的检索需求分析基础上,提出了适用于工艺领域的知识检索方法,并构建了以搜索引擎架构Lucene为基础的检索流程。为解决工艺术语的分词问题,开发了以正向最细分词算法为核心的中文分词器。该检索方法在工艺知识管理系统中的... 在对工艺知识的检索需求分析基础上,提出了适用于工艺领域的知识检索方法,并构建了以搜索引擎架构Lucene为基础的检索流程。为解决工艺术语的分词问题,开发了以正向最细分词算法为核心的中文分词器。该检索方法在工艺知识管理系统中的实际应用效果显著。 展开更多
关键词 工艺领域 工艺术语 检索方法 LUCENE 正向最细切分算法 中文分词器
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部