期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
HanLP下不同分词器对文本分类性能的研究
1
作者 汪兰兰 《现代计算机》 2024年第14期41-44,共4页
文本分类在搜索引擎技术中占据着重要的地位,文本分类第一步就是分词,分词分得准确,则在后续文字特征提取的时候也更为精确。针对以上情况,主要探究HanLP中不同分词器对文本分类后所呈现结果的影响程度,所用分词器主要为实词分词器和二... 文本分类在搜索引擎技术中占据着重要的地位,文本分类第一步就是分词,分词分得准确,则在后续文字特征提取的时候也更为精确。针对以上情况,主要探究HanLP中不同分词器对文本分类后所呈现结果的影响程度,所用分词器主要为实词分词器和二元语法分词器,利用两种分词器对语料库分词,将特征向量导入朴素贝叶斯和支持向量机中进行训练和测试,测评后精确率P、召回率R、F1分数最高的一组搭配为二元语法分词和支持向量机。实验数据表明二元语法分词器能够较大地提高文本分类的准确率,但分词特征较多会影响分类模型分类的速率。 展开更多
关键词 实词分词器 二元语法分词器 朴素贝叶斯 支持向量机
下载PDF
开源中文分词器在web搜索引擎中的应用 被引量:12
2
作者 刘晓婉 胡燕祝 艾新波 《软件》 2013年第3期80-83,共4页
目前,在信息检索方面,一般分词器对英文的支持相对较好,但对中文分词效果不太理想;随着web搜索在互联网中的广泛应用,中文分词器也出现了突飞猛进的发展,尤其以IKAnalyzer分词器为主的分词工具,为更多企事业单位所采纳。本文主要在词条... 目前,在信息检索方面,一般分词器对英文的支持相对较好,但对中文分词效果不太理想;随着web搜索在互联网中的广泛应用,中文分词器也出现了突飞猛进的发展,尤其以IKAnalyzer分词器为主的分词工具,为更多企事业单位所采纳。本文主要在词条化等方面对分词原理进行深入的分析,并且对如何构造智能分词词典进行了探讨。同时,对分词内部结构进行研究,在分词数目和速率方面对目前主流的中文分词器进行了比较,并运用htmlparser库对北京邮电大学的网站进行解析,采用分词工具Paoding Analysis建立索引文件存入本地,利用solt4.0全文搜索服务器给出运用中文分词后的查询效果图,实现对北京邮电大学网站的全文搜索功能。 展开更多
关键词 分词器 WEB搜索 信息检索 智能分词 全文搜索
下载PDF
中文农业专业分词器设计与实现 被引量:3
3
作者 方逵 罗武 +1 位作者 王玉娟 卜伟琼 《农业工程》 2012年第3期18-20,共3页
利用Hash表在查找效率上的优势,提出了基于Hash机制的词典查找、更新、删除和添加等操作算法。该算法根据汉字GB码的特点,将保存首字GB码,提高了存储空间利用率;在词典中建立农业专业词汇和方言词汇一对多的对应关系,在满足系统需求的同... 利用Hash表在查找效率上的优势,提出了基于Hash机制的词典查找、更新、删除和添加等操作算法。该算法根据汉字GB码的特点,将保存首字GB码,提高了存储空间利用率;在词典中建立农业专业词汇和方言词汇一对多的对应关系,在满足系统需求的同时,提高了分词的准确性。 展开更多
关键词 农村信息化 知识库 中文分词器 分词词典 算法评估
下载PDF
实现Lucene接口的中文分词器的比较研究 被引量:11
4
作者 黄翼彪 《科技信息》 2012年第12期246-247,共2页
Lucene自身提供的StandardAnalyzer虽然已经具备中文分词的功能,但是其分词正确率和切分速度不能够满足大多数应用的需要。为更好处理中文信息,必须引用独立的外部中文分词器。基于这种需求,文章对ChineseAnalyzer、CJKAnalyzer、IKAnal... Lucene自身提供的StandardAnalyzer虽然已经具备中文分词的功能,但是其分词正确率和切分速度不能够满足大多数应用的需要。为更好处理中文信息,必须引用独立的外部中文分词器。基于这种需求,文章对ChineseAnalyzer、CJKAnalyzer、IKAnalyzer、mmseg4j、imdict-chinese-analyzer和庖丁解牛6种主流中文分词器分别进行测试,并根据测试结果对分词效果做出评估。 展开更多
关键词 LUCENE 中文分词 分词器 mmseg4j 庖丁解牛
下载PDF
基于Lucene的自定义中文分词器的设计与实现 被引量:1
5
作者 王桐 王韵婷 《电脑知识与技术(过刊)》 2014年第1X期430-433,共4页
该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通... 该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通过实验测试表明,该分词器的分词性能跟Lucene自带的中文分词器相比有了极大的提高,并最终构建出了一个高效的中文全文检索系统。 展开更多
关键词 中文分词 复杂最大匹配 LUCENE 分词器
下载PDF
基于语境分析的汉语分词器在文本信息过滤系统中的应用
6
作者 律佳 廉立志 《郑州轻工业学院学报(自然科学版)》 CAS 2010年第3期66-70,共5页
针对汉语分词的歧义切分问题,提出了一种基于语境分析的二元汉语分词器,通过词典匹配和二元切词的结合进行歧义消解,使用分词校正器从句子语法角度上检测分词结果的正确性.实验证明,改进的汉语分词器具有识别各种类型新词、消解各类歧... 针对汉语分词的歧义切分问题,提出了一种基于语境分析的二元汉语分词器,通过词典匹配和二元切词的结合进行歧义消解,使用分词校正器从句子语法角度上检测分词结果的正确性.实验证明,改进的汉语分词器具有识别各种类型新词、消解各类歧义的能力;将其应用到文本信息过滤系统的文本分析模块,在强化系统语言分析能力的同时,系统的过滤精度也得到大幅度的提高. 展开更多
关键词 汉语分词器 文本信息过滤 歧义消解 分词校正器
下载PDF
基于Lucene的中文分词器的改进与实现 被引量:1
7
作者 罗惠峰 郭淑琴 《微型机与应用》 2015年第11期76-78,82,共4页
Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结... Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结果的对比表明,改进后的中文分词器对检索功能的扩展有了极大的提高。并最终构建出了一个高效的中文全文检索系统。 展开更多
关键词 全文检索 中文分词器 文本解析器 最大匹配算法(MMSEG)
下载PDF
基于Lucene和MMSEG算法的中文分词器研究 被引量:1
8
作者 邓晓枫 蒋廷耀 《信息通信》 2017年第9期146-148,共3页
Lucene开放源代码的特性让很多人使用它来构建具体的全文检索应用,然而对于中文检索来说,Lucene自带的中文分词器对中文的分词处理并不理想,其分词的正确率和分词速度以及对歧义词处理等方面不能满足大多数应用的需求,因此有必要为Lucen... Lucene开放源代码的特性让很多人使用它来构建具体的全文检索应用,然而对于中文检索来说,Lucene自带的中文分词器对中文的分词处理并不理想,其分词的正确率和分词速度以及对歧义词处理等方面不能满足大多数应用的需求,因此有必要为Lucene引入第三方分词器来弥补自带分词功能的缺陷。文章对采用mmseg算法的2种分词器mmseg4j和Jcseg在分词指标、索引创建的时间消耗方面进行测试比较,评估分析测试结果,结合应用场景为Lucene选择一个合适的分词器来加强中文分词功能。 展开更多
关键词 LUCENE mmseg 中文分词器 索引
下载PDF
多尺度卷积神经网络融合Transformer的竹材缺陷识别方法
9
作者 杨松 张锐 朱良宽 《林业工程学报》 CSCD 北大核心 2024年第5期126-133,共8页
在竹材缺陷识别的研究中,竹片形状、缺陷部位颜色深浅及裂纹大小差异都是制约模型识别准确率的关键。针对上述问题,提出一种适用于中小数据集的多尺度卷积神经网络融合Transformer的竹材缺陷识别方法,以更好地提高竹材缺陷识别的准确率... 在竹材缺陷识别的研究中,竹片形状、缺陷部位颜色深浅及裂纹大小差异都是制约模型识别准确率的关键。针对上述问题,提出一种适用于中小数据集的多尺度卷积神经网络融合Transformer的竹材缺陷识别方法,以更好地提高竹材缺陷识别的准确率。该方法在卷积神经网络的主干上进行改进,从获取不同尺度语义信息的角度出发,首先利用卷积神经网络在不同尺度的特征图上捕捉图像局部语义信息,然后将不同尺度的语义特征映射为特征符号,同时引入Sinkhorn分词器对不同阶段的卷积神经网络特征符号化以减少特征冗余,再通过Transformer对特征符号之间的关系进行建模以学习图像全局语义信息。试验结果表明,与VGG16、ResNet50、DenseNet121、ViT这4种深度学习模型相比,基于多尺度卷积神经网络融合Transformer的方法能够更高效地提高竹材缺陷识别模型的性能,在竹材缺陷图像数据集上的平均识别准确率达到了99.13%。该方法识别速度更快、精度更高,且具有良好的鲁棒性,为竹材缺陷的实时自动识别提供了新思路,同时也验证了所提出方法的有效性。 展开更多
关键词 竹材缺陷识别 多尺度 卷积神经网络 TRANSFORMER sinkhorn分词器
下载PDF
基于最优传输理论的碳中和问题的模型构建研究
10
作者 包攀 高雷阜 《运筹与管理》 CSCD 北大核心 2024年第6期35-42,共8页
全球变暖已经成为当今社会所关注的焦点问题,导致全球变暖的主要原因是二氧化碳等温室气体的大量排放,我国碳达峰与碳中和目标的提出为进一步解决全球气候变暖现象提供了具体思路。如何实现碳排放量与碳吸收量之间源与汇的有效能量传输... 全球变暖已经成为当今社会所关注的焦点问题,导致全球变暖的主要原因是二氧化碳等温室气体的大量排放,我国碳达峰与碳中和目标的提出为进一步解决全球气候变暖现象提供了具体思路。如何实现碳排放量与碳吸收量之间源与汇的有效能量传输是碳中和相关理论研究的核心问题。最优传输理论是以最小成本找到源与汇的联合概率分布场的最优分布计算,此种研究模式为处理碳中和问题提供了一个全新的研究视角。首先基于贝叶斯分布的后验思想与指数分布族的先验形式,利用Lagrange函数得到碳排放量所满足的边缘概率分布,并根据数据实验得出碳吸收量的分布形式,然后基于最优传输理论建立相应的碳中和模型,并利用回归分析方法对所得到的传输系统进行检验与调节,最后基于数值模拟证明所提出方法的可行性。此种将碳中和作为约束的最优传输模型,能够得到合理有效的碳排放与碳吸收之间的传输计划,具有定量化分析相关问题的理论意义与应用价值。 展开更多
关键词 最优传输 碳中和 贝叶斯分布 LAGRANGE函数 结构风险优化 sinkhorn算法
下载PDF
Nutch中文分词的设计与实现 被引量:1
11
作者 张敏 杜华 《河北北方学院学报(自然科学版)》 2010年第4期53-56,62,共5页
面对与日俱增的中文信息检索需求,Nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于Nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在Nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文... 面对与日俱增的中文信息检索需求,Nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于Nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在Nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文分词技术进行研究的基础上,设计并实现了具有中文分词功能和新词识别功能的分词器,在Nutch中实现了中文分词功能.实验测试结果表明,算法的分词效果能够达到预期的中文分词的要求. 展开更多
关键词 搜索引擎 中文分词 分词器 NUTCH
下载PDF
全文检索技术在图书检索中的应用
12
作者 高霞 《中原工学院学报》 CAS 2024年第2期85-89,共5页
现有的图书检索方法多是对馆藏图书进行编目、分类、标注等处理后形成书目数据库,用户根据书名、作者和出版社等信息来检索图书。这种方式不能满足用户根据任意关键词来检索图书的需求,效率较低。全文检索是基于倒排索引技术对文本中的... 现有的图书检索方法多是对馆藏图书进行编目、分类、标注等处理后形成书目数据库,用户根据书名、作者和出版社等信息来检索图书。这种方式不能满足用户根据任意关键词来检索图书的需求,效率较低。全文检索是基于倒排索引技术对文本中的所有词组和关键词进行索引,支持快速检索到文本中任何一个单词和关键词。若将全文检索技术应用于图书检索中,可使用户根据任意关键词检索图书,可根据检索量和用户习惯推荐热门图书。文章介绍了如何在图书检索过程中应用全文检索技术,分析了全文检索引擎选择、图书文本解析、图书文本分词、图书索引设计、图书文档提交等主要过程,并给出了全文检索技术的最终实现效果,以期对提升图书检索系统的易用性提供一定借鉴。 展开更多
关键词 图书检索系统 全文检索 分词器 索引结构 推荐算法 检索命中率
下载PDF
面向高效越南语分词的有监督集成学习框架
13
作者 刘伍颖 王琳 《小型微型计算机系统》 CSCD 北大核心 2018年第6期1213-1217,共5页
在很多亚洲语言书面文本中,词与词之间没有明显的分隔符,因此这些文本的自动分词任务依然具有挑战性.相应的分词算法能够被广泛用于各种自然语言处理应用当中.本文针对越南语分词问题,提出了一套完整的有监督集成学习框架,并且实现了一... 在很多亚洲语言书面文本中,词与词之间没有明显的分隔符,因此这些文本的自动分词任务依然具有挑战性.相应的分词算法能够被广泛用于各种自然语言处理应用当中.本文针对越南语分词问题,提出了一套完整的有监督集成学习框架,并且实现了一种新的基于有监督集成学习的分词算法.在二元音节频率索引数据结构支持下,我们实现的分词算法能够综合多个基本分词器的优势,形成一个集成分词器.公开数据集上的越南语分词实验结果表明我们提出的框架在统计、计算和表示上具有良好的表现,算法最终能够达到最优的分词效果. 展开更多
关键词 有监督集成学习框架 越南语分词 多基本分词器 二元音节频率索引
下载PDF
基于ElasticSearch分布式搜索引擎的信息检索方法研究 被引量:2
14
作者 董元和 贾炎 +2 位作者 朱勇 李恩泽 薛贤红 《湖北师范大学学报(自然科学版)》 2023年第4期56-61,共6页
随着信息量的骤增,传统关系型数据库很难做到实时高效地检索用户需要的信息,并且无法对信息进行分词及关键词组合的短文本搜索,从而很难优化信息检索结果的推荐展示。针对大量信息频繁检索的问题,采取一种基于ElasticSearch分布式搜索引... 随着信息量的骤增,传统关系型数据库很难做到实时高效地检索用户需要的信息,并且无法对信息进行分词及关键词组合的短文本搜索,从而很难优化信息检索结果的推荐展示。针对大量信息频繁检索的问题,采取一种基于ElasticSearch分布式搜索引擎,并采用分词器和倒排索引等技术,能较好地解决这些问题。同时在研究过程中利用代码实现了基础功能搜索、地理位置搜索以及通过算分排序推荐展示等功能。 展开更多
关键词 分布式搜索引擎 短文本搜索 倒排索引 分词器 信息检索
下载PDF
基于自动微分的图空间最优输运全波形反演 被引量:2
15
作者 唐杰 孟涛 +1 位作者 刘英昌 孙成禹 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2022年第7期2704-2718,共15页
全波形反演能够利用地震波场信息进行高分辨率地下介质速度建模,具有精确刻画模型细节特征的潜力.传统的全波形反演以L2范数作为目标函数,逐样本比较观测地震数据和合成地震数据之间差异,利用伴随状态法求解梯度.由于全波形反演是高度... 全波形反演能够利用地震波场信息进行高分辨率地下介质速度建模,具有精确刻画模型细节特征的潜力.传统的全波形反演以L2范数作为目标函数,逐样本比较观测地震数据和合成地震数据之间差异,利用伴随状态法求解梯度.由于全波形反演是高度非线性的,当初始模型不准确时,反演结果容易陷入局部极小值.本文提出使用具有全局比较能力的图空间最优输运Sinkhorn距离作为目标函数.图空间Sinkhorn距离对信号时移和振幅变化具有较好的凸性,能够解决反演过程中的周期跳变问题.利用理论指导的数据科学算法将全波形反演问题转化为深度学习优化问题,偏微分方程约束用于优化波动方程中表征介质地球物理性质的模型参数.反演过程中采用自动微分计算梯度,并利用Adam优化算法对模型进行更新.模型测试结果表明本文方法能够取得较好的反演结果,并且具有较强的噪声鲁棒性,对于震源子波和初始模型的依赖性较低. 展开更多
关键词 全波形反演 最优输运 图空间变换 sinkhorn距离 自动微分
下载PDF
Nutch中网页排序效果的改进方法 被引量:6
16
作者 潘涛 梁正友 《计算机工程》 CAS CSCD 北大核心 2010年第13期42-44,共3页
Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的... Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的Nutch具有更高的查询结果准确率和中文网页排序效果。 展开更多
关键词 Nutch搜索引擎 MAPREDUCE模型 PAGERANK算法 JE中文分词器
下载PDF
农业知识库系统设计与实现 被引量:2
17
作者 方逵 罗武 朱幸辉 《农机化研究》 北大核心 2013年第5期8-11,共4页
提出了农业知识库系统的架构设计。同时,介绍了农业知识库的设计、中文农业专业分词器以及查重器设计与实现;并给出了中文农业专业分词算法评估和查重算法评估。实际应用结果表明,所设计的中文农业专业分词器和查重器满足系统的要求,为... 提出了农业知识库系统的架构设计。同时,介绍了农业知识库的设计、中文农业专业分词器以及查重器设计与实现;并给出了中文农业专业分词算法评估和查重算法评估。实际应用结果表明,所设计的中文农业专业分词器和查重器满足系统的要求,为农村信息化建设提供了支持。 展开更多
关键词 农业知识库 中文分词器 查重机制 算法评估
下载PDF
校园网搜索引擎的研究与实现 被引量:12
18
作者 马志强 周长胜 +1 位作者 丁维 杨娜 《北京机械工业学院学报》 2007年第1期12-15,共4页
针对通用搜索引擎不能检索校园网内网的不足,提出建立校园网搜索引擎,实现为用户提供基于关键字进行校园内部信息检索的服务平台。通过研究,设计了具有搜索器、中文分词器、索引器和检索器的校园网搜索引擎系统。系统采用Java语言和Orac... 针对通用搜索引擎不能检索校园网内网的不足,提出建立校园网搜索引擎,实现为用户提供基于关键字进行校园内部信息检索的服务平台。通过研究,设计了具有搜索器、中文分词器、索引器和检索器的校园网搜索引擎系统。系统采用Java语言和Oracle9i数据库实现。目前,系统已实现了基于关键词的查询,但也存在着检索关键词不能进行智能转化、检索结果不能根据用户反馈进行排序的不足。 展开更多
关键词 校园网 搜索引擎 中文分词器
下载PDF
基于字级别条件随机场的医学实体识别 被引量:6
19
作者 何彬 关毅 《智能计算机与应用》 2019年第2期130-134,142,共6页
开放域分词器对临床文本进行分词处理时,其性能受到了临床文本独特的子语言特性的极大限制,给后续医学实体边界识别造成了不少错误累积。本文针对该问题构建了面向临床文本的分词器,将该分词器用于医学实体识别模型的词特征提取来减少... 开放域分词器对临床文本进行分词处理时,其性能受到了临床文本独特的子语言特性的极大限制,给后续医学实体边界识别造成了不少错误累积。本文针对该问题构建了面向临床文本的分词器,将该分词器用于医学实体识别模型的词特征提取来减少医学实体边界错误,还构建了字级别的条件随机场模型用于识别医学实体,避免了分词给实体边界识别造成的错误累积问题。 展开更多
关键词 医学实体识别 条件随机场 临床分词器
下载PDF
一种工程图检索方法在匹配优化问题中的应用
20
作者 赵晔 翟世梅 《安徽大学学报(自然科学版)》 CAS 北大核心 2012年第2期67-73,共7页
以二维工程图检索系统的设计与开发为背景,提出一种基于非精确图匹配的二维工程图检索方法.该方法首先将二维工程图转化为一种基于图元的属性化邻接图;然后计算目标模型与被检索模型的属性化邻接图之间顶点相容程度矩阵与边相容程度矩阵... 以二维工程图检索系统的设计与开发为背景,提出一种基于非精确图匹配的二维工程图检索方法.该方法首先将二维工程图转化为一种基于图元的属性化邻接图;然后计算目标模型与被检索模型的属性化邻接图之间顶点相容程度矩阵与边相容程度矩阵,并由此建立顶点匹配矩阵M的目标优化函数;最后运用Sinkhorn行列交替规范化方法求解匹配优化问题.在匹配过程中,充分利用属性邻接图的顶点与边属性信息动态裁剪搜索空间,实现快速匹配.实验结果表明,该方法能够检索到不同相似程度的二维工程图,并且检索效率也能满足实际要求. 展开更多
关键词 工程图检索 非精确图匹配 属性化邻接图 sinkhorn 二次优化 连续法
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部