期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于Hash结构的逆向最大匹配分词算法的改进 被引量:26
1
作者 丁振国 张卓 黎靖 《计算机工程与设计》 CSCD 北大核心 2008年第12期3208-3211,3265,共5页
分析中文的语义,首先要对句子进行分词。中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果。对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词... 分析中文的语义,首先要对句子进行分词。中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果。对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词算法(RMM)。该算法在重点考虑切分速度的同时兼顾了切分精度,在很大程度上消除了传统的最大匹配算法可能产生的歧义。实验结果表明,该分词算法在运行效率和结果的准确性方法有了很大的提高。 展开更多
关键词 中文分词 哈希结构 逆向最大匹配算法 分词词典 消除歧义
下载PDF
一种改进的逆向匹配快速切分算法
2
作者 李娟 周贤善 《信息系统工程》 2010年第2期133-134,142,共3页
在中文切分算法设计上,好的算法一般要注重两个方面,一个是提高切分精度,另一个是提高切分速度。本文在逆向最大匹配的算法切分基础上,结合临近匹配算法在中文切分速度方面的优势,提出了一种逆向匹配快速切分算法。此算法由于使用了索... 在中文切分算法设计上,好的算法一般要注重两个方面,一个是提高切分精度,另一个是提高切分速度。本文在逆向最大匹配的算法切分基础上,结合临近匹配算法在中文切分速度方面的优势,提出了一种逆向匹配快速切分算法。此算法由于使用了索引排序查找,所以在速度上比一般的全库扫描更快;在切分精度上,根据汉语语句中心语偏后的特点,采用了逆序匹配,可以更进一步提高切分精度。并通过在综合语料库中的语料上的分析,交集型歧义的自动消解上有着很好的优势。 展开更多
关键词 中文自动分词 逆向最大匹配算法 临近匹配算法 改进的逆向匹配快速切分算法 交集型歧义消解
下载PDF
一种改进的长词优先逆向最大匹配分词消歧策略 被引量:1
3
作者 田占霄 韩宪忠 王克俭 《河北农业大学学报》 CAS CSCD 北大核心 2009年第4期100-102,107,共4页
为提高逆向最大匹配算法的分词精度,本研究利用词频阙值,单字函数等方法取得了较好的消歧效果。实验结果表明:该分词算法既能遵循长词优先的原则,又能进一步识别和消除覆盖歧义。改进的RMM不仅在速度上仍保持较大优势而且在分词准确率... 为提高逆向最大匹配算法的分词精度,本研究利用词频阙值,单字函数等方法取得了较好的消歧效果。实验结果表明:该分词算法既能遵循长词优先的原则,又能进一步识别和消除覆盖歧义。改进的RMM不仅在速度上仍保持较大优势而且在分词准确率上有了进一步的提高,对使用机械分词算法的中小型搜索引擎在提高分词精度方面具有一定的实用价值。 展开更多
关键词 中文分词 逆向最大匹配算法 单字率 词频
下载PDF
网络舆情算法的研究与应用
4
作者 米晓萍 张建峰 《计算机光盘软件与应用》 2012年第22期5-7,共3页
随着互联网的飞速发展,网络舆情的重要性毋庸置疑,目前解决网络舆情的算法有很多。本文对一些业界公认的实用算法进行了研究,并将这些算法应用到基于"云"平台,采用垂直搜索引擎进行网络舆情的抓取、分析,智能聚合系统对抓取... 随着互联网的飞速发展,网络舆情的重要性毋庸置疑,目前解决网络舆情的算法有很多。本文对一些业界公认的实用算法进行了研究,并将这些算法应用到基于"云"平台,采用垂直搜索引擎进行网络舆情的抓取、分析,智能聚合系统对抓取来的舆情进行内容分析,归类的全面、高效的网络舆情监控系统中。 展开更多
关键词 正向最大匹配算法 逆向最大匹配算法 K-MEANS聚类算法 朴素贝叶斯算法
下载PDF
基于Hash结构词典的逆向回溯中文分词技术研究 被引量:5
5
作者 梁桢 李禹生 《计算机工程与设计》 CSCD 北大核心 2010年第23期5158-5160,F0003,共4页
为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一... 为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题。实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标。 展开更多
关键词 中文分词 哈希结构 尾字词典 逆向最大匹配算法 分词歧义 逆向回溯算法
下载PDF
一种中文地址知识库支撑的中文地址分词算法 被引量:9
6
作者 赵成 李滨 《测绘科学技术学报》 CSCD 北大核心 2017年第6期639-643,648,共6页
针对中文地址非结构化、不规范的特点,在构建中文地址模版和中文地址词典等重要知识库基础上,基于中文地址模版引入了中文地址分词的预处理;并在中文地址词典的支撑下采用逆向最大匹配算法实现了中文地址分词。新中文地址分词算法不仅... 针对中文地址非结构化、不规范的特点,在构建中文地址模版和中文地址词典等重要知识库基础上,基于中文地址模版引入了中文地址分词的预处理;并在中文地址词典的支撑下采用逆向最大匹配算法实现了中文地址分词。新中文地址分词算法不仅在正确率和召回率等指标上优于传统算法,更提出了一种用于解决未登录地址名词识别问题的新方法。 展开更多
关键词 中文地址 中文地址知识库 中文地址分词 逆向最大匹配算法 未登录地址名词
下载PDF
中文分词歧义识别算法的优化 被引量:2
7
作者 胡阿明 王卫东 《现代电子技术》 2012年第8期107-109,共3页
中文分词系统性能的好坏直接影响到后续的工作,而歧义字段的处理更是衡量一个分词系统好坏的重要标志。解决歧义问题前首先就要找到歧义字段,本文在之前的增字最大匹配算法基础上,提出了一种结合逐字扫描算法和逆向最大匹配算法的歧义... 中文分词系统性能的好坏直接影响到后续的工作,而歧义字段的处理更是衡量一个分词系统好坏的重要标志。解决歧义问题前首先就要找到歧义字段,本文在之前的增字最大匹配算法基础上,提出了一种结合逐字扫描算法和逆向最大匹配算法的歧义字段识别方法。实验结果表明,这里提出的算法执行效率要比增字最大匹配算法效率高,速度更快。 展开更多
关键词 中文分词 逆向最大匹配算法 歧义识别 算法优化
下载PDF
基于预训练模型的中文电子病历实体识别 被引量:1
8
作者 李晓林 胡泽荣 《计算机工程与设计》 北大核心 2023年第2期535-540,共6页
为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗... 为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗实体字典辅助PKU分词,提高预训练模型掩码效果。输入向量层加入字向量,引入注意力机制学习字向量的全局语义特征。改进预训练模型mask策略和机制并去掉下一句预测,提升词向量语义表征能力。实验结果表明,该方法有效提高了医疗实体的识别效果,F1值达到90.57%。 展开更多
关键词 中文电子病历 命名实体识别 预训练模型 标注歧义 注意力机制 逆向最大匹配算法 医疗实体字典
下载PDF
基于条件随机场的中文领域分词研究 被引量:14
9
作者 朱艳辉 刘璟 +2 位作者 徐叶强 田海龙 马进 《计算机工程与应用》 CSCD 北大核心 2016年第15期97-100,共4页
针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确... 针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确率和自适应性,在计算机领域和医学领域的分词结果 F值分别提升了7.6%和8.7%。 展开更多
关键词 中文分词 条件随机场 领域自适应 歧义消解 领域分词 逆向最大匹配算法
下载PDF
基于双哈希结构的整词二分词典机制 被引量:3
10
作者 张贤坤 李亚南 田雪 《计算机工程与设计》 CSCD 北大核心 2014年第11期3956-3960,共5页
为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典... 为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典的词条匹配时间复杂度。实验结果表明,该词典机制将逆向最大匹配算法的分词速率提高近一倍。 展开更多
关键词 中文分词 词典机制 尾字词典 哈希结构 逆向最大匹配算法
下载PDF
远程教学资源整合及检索系统研究
11
作者 向俊 王静 何一辉 《广西广播电视大学学报》 2012年第3期41-45,共5页
文章分析了不同信息检索方法的研究现状,并根据远程教学资源实际利用情况和电大现有的软、硬件技术条件,给出了适合于现阶段开放教学资源检索的模型和方法,实现了输入内容的自动提示功能,改进了基于标点符号特征将正向最大匹配算法和逆... 文章分析了不同信息检索方法的研究现状,并根据远程教学资源实际利用情况和电大现有的软、硬件技术条件,给出了适合于现阶段开放教学资源检索的模型和方法,实现了输入内容的自动提示功能,改进了基于标点符号特征将正向最大匹配算法和逆向最大匹配算法相结合的分词算法。实验过程推理表明该方法是有效的,并在实际应用中,能获得较好的检索结果。 展开更多
关键词 教学资源 正向最大匹配算法 逆向最大匹配算法 信息检索
下载PDF
课程知识检索系统中检索器模块的实现 被引量:1
12
作者 薛醒思 《闽江学院学报》 2008年第5期74-77,共4页
提出了一个基于领域本体的课程知识检索系统,探讨了个性化检索技术在系统的检索器模块中的应用,并详细介绍了检索器模块中基于本体的逆向最大匹配分词算法(RMM)和分层遍历森林算法的实现,为课程知识检索系统进一步的开发工作奠定了基础.
关键词 课程知识检索系统 领域本体 逆向最大匹配分词算法 分层遍历森林算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部