期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
书面汉语的全切分分词算法模型 被引量:17
1
作者 万建成 杨春花 《小型微型计算机系统》 CSCD 北大核心 2003年第7期1247-1251,共5页
本文首先讨论了全切分研究的问题 ,然后从一般性出发提出了全切分的求解公式、切分树、全切分 DAG(无环有向 )图和全切分的抽象算法模型 ,在此基础上特别指出了全切分普遍存在的重复切分问题 .进而 ,本文针对串行全切分分词算法和剪枝... 本文首先讨论了全切分研究的问题 ,然后从一般性出发提出了全切分的求解公式、切分树、全切分 DAG(无环有向 )图和全切分的抽象算法模型 ,在此基础上特别指出了全切分普遍存在的重复切分问题 .进而 ,本文针对串行全切分分词算法和剪枝的方法进行了研究 。 展开更多
关键词 书面汉语切分 全切分 串行全切分 汉语句法分析
下载PDF
基于词典和全切分的中文农业网页分词算法的研究 被引量:1
2
作者 白涛 张太红 吴乃宁 《新疆农业大学学报》 CAS 2014年第2期168-172,共5页
针对农业垂直搜索中中文分词要求的特殊性,提出一种基于词典和全切分的中文分词算法。该算法首先对经过预处理的网页进行基于词典的机械式切分,对未识别的字串再进行基于贝叶斯(Bayes)方法的全切分概率计算,通过计算字串的最大切分可信... 针对农业垂直搜索中中文分词要求的特殊性,提出一种基于词典和全切分的中文分词算法。该算法首先对经过预处理的网页进行基于词典的机械式切分,对未识别的字串再进行基于贝叶斯(Bayes)方法的全切分概率计算,通过计算字串的最大切分可信度确定最合理的切分,并更新词典。实验从120万张农业中文网页中随机抽取14组生成测试集,测试结果表明,该算法与正向最大匹配算法(FMM)和逆向最大匹配算法(RMM)相比具有更高的召回率,F1测度平均达到88%。 展开更多
关键词 中文分词 未登录词识别 贝叶斯 全切分
下载PDF
书面汉语全切分中的重复切分研究
3
作者 杨春花 万建成 姜合 《小型微型计算机系统》 CSCD 北大核心 2006年第3期520-523,共4页
针对书面汉语全切分中普遍存在的重复切分问题进行了研究.首先给出了重复切分的定义,然后分析指出切分歧义是引起重复切分的必然原因,从而使得重复切分的存在具有必然性和普遍性,另外讨论了两种可供选择的克服重复切分的方案.最后,对重... 针对书面汉语全切分中普遍存在的重复切分问题进行了研究.首先给出了重复切分的定义,然后分析指出切分歧义是引起重复切分的必然原因,从而使得重复切分的存在具有必然性和普遍性,另外讨论了两种可供选择的克服重复切分的方案.最后,对重复切分在全切分中出现的几率及对切分时间的影响进行了实验.实验结果显示,重复切分约占全切分的87%,消除重复切分后全切分的切分时间比消除前节省约84%. 展开更多
关键词 全切分 重复切分 自然语言处理
下载PDF
中文全切分快速分词方法 被引量:4
4
作者 于源 衣袭 《大连铁道学院学报》 2005年第2期84-85,共2页
中文词语分析是中文信息处理的基础与关键,而中文分词又是词语分析基础.
关键词 无交叉歧义边界 全切分 检索
下载PDF
一个改进的书面汉语全切分算法
5
作者 杨春花 孙红英 孙吉红 《山东轻工业学院学报(自然科学版)》 CAS 2007年第1期28-31,共4页
提出了一个改进的书面汉语全切分算法,它通过确保每次切分位置的唯一性,克服了全切分中普遍存在的重复切分。实验证明,改进后的全切分算法效率平均提高80%以上。
关键词 切分 全切分 重复切分
下载PDF
基于全切分获取网络流行语方法研究 被引量:2
6
作者 吴保珍 何婷婷 +2 位作者 李立 张勇 陈龙 《计算机应用研究》 CSCD 北大核心 2009年第4期1260-1262,1285,共4页
利用统计和规则相结合的算法从互联网的动态信息流中提取网络流行语。在利用全切分算法获取候选词集的基础上,依次对候选词集进行三次过滤:首先基于向量空间模型的权重过滤,运用语言模型进行过滤;然后利用垃圾串过滤规则获取网络流行词... 利用统计和规则相结合的算法从互联网的动态信息流中提取网络流行语。在利用全切分算法获取候选词集的基础上,依次对候选词集进行三次过滤:首先基于向量空间模型的权重过滤,运用语言模型进行过滤;然后利用垃圾串过滤规则获取网络流行词语候选词集;最后利用提出的流行词语评分模型进行筛选得到网络流行词语。实验表明,在不影响流行词语准确率的前提下,利用该方法自动获取网络流行词语的速度明显提高。 展开更多
关键词 网络流行词语 中文信息处理 全切分
下载PDF
一种全切分与统计结合的分词系统 被引量:1
7
作者 王荔 宋胜利 +1 位作者 冯佳 陈平 《微电子学与计算机》 CSCD 北大核心 2009年第5期68-70,共3页
歧义消解是中文分词的主要问题之一.提出了一种全切分与统计结合的分词算法,构造出基于统计词典的有向无环词图,利用动态规划算法得出最佳的分词路径.实验证明,系统有效地提高了歧义切分的准确性及分词速度.
关键词 中文分词 全切分 统计分词 歧义消解
下载PDF
书面汉语全切分算法中的并发检索模型
8
作者 李卫红 万建成 《计算机应用》 CSCD 北大核心 2004年第5期59-61,共3页
文中首先讨论了书面汉语切分研究的问题,然后从一般性研究出发,提出了全切分算法中可能的并发检索。并针对全切分分词算法进行了研究,给出了全切分分词方法算法中的并发检索模型。希望本文对于全切分算法中并发检索模型的讨论,对深入研... 文中首先讨论了书面汉语切分研究的问题,然后从一般性研究出发,提出了全切分算法中可能的并发检索。并针对全切分分词算法进行了研究,给出了全切分分词方法算法中的并发检索模型。希望本文对于全切分算法中并发检索模型的讨论,对深入研究书面汉语全切分分词的问题和实现具有实际意义。 展开更多
关键词 书面汉语切分 全切分 汉字序列 并发检索模型
下载PDF
综合最大匹配和歧义检测的中文分词粗分方法 被引量:3
9
作者 李国和 刘光胜 +2 位作者 秦波波 吴卫江 李洪奇 《计算机工程与应用》 CSCD 2012年第14期139-142,167,共5页
中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规... 中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好的效果。 展开更多
关键词 中文分词 粗分 最大匹配算法 全切分算法 歧义检测
下载PDF
基于语料库的高频最大交集型歧义字段考察 被引量:6
10
作者 李斌 陈小荷 +1 位作者 方芳 徐艳华 《中文信息学报》 CSCD 北大核心 2006年第1期1-6,共6页
交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上... 交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。 展开更多
关键词 计算机应用 中文信息处理 最大交集型歧义字段 全切分 强势切分
下载PDF
基于有向图的双向匹配分词算法及实现 被引量:7
11
作者 陈耀东 王挺 《计算机应用》 CSCD 北大核心 2005年第6期1442-1444,共3页
在分析了现有各种汉语分词算法及其优缺点的基础上,提出以句子覆盖率和分词覆盖率作为评价分词方法的指标,详细介绍了基于网络有向图的双向匹配分词算法的设计与实现,该算法对经典的最大匹配分词算法进行了改进,通过带覆盖歧义标志的有... 在分析了现有各种汉语分词算法及其优缺点的基础上,提出以句子覆盖率和分词覆盖率作为评价分词方法的指标,详细介绍了基于网络有向图的双向匹配分词算法的设计与实现,该算法对经典的最大匹配分词算法进行了改进,通过带覆盖歧义标志的有向图生成多候选分词序列。与最大匹配算法和全切分算法的比较实验显示,基于有向图的双向匹配算法以低复杂度实现了高覆率盖。 展开更多
关键词 句子覆盖率 分词覆盖率 双向最大匹配算法 全切分 网络有向图
下载PDF
一种面向网店商品搜索的中文分词系统设计 被引量:1
12
作者 王敏 叶宽余 薛峰 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第6期772-775,813,共5页
文章设计新的数据结构对网店商品的原始数据进行加工处理,形成一个存储所有商品信息的词条字典。结合全切分算法,实现对用户输入关键词的完全切分,并通过和词条字典的匹配得到所有候选的词条组合。为了消除分词过程中的歧义和不合理的... 文章设计新的数据结构对网店商品的原始数据进行加工处理,形成一个存储所有商品信息的词条字典。结合全切分算法,实现对用户输入关键词的完全切分,并通过和词条字典的匹配得到所有候选的词条组合。为了消除分词过程中的歧义和不合理的词条组合,系统结合商品类目树的存储结构,通过算法和引入权值计算的方法对词条组合进行排序,得到最佳结果。 展开更多
关键词 中文分词 全切分 商品搜索
下载PDF
基于最大匹配和歧义检测的中文分词粗分方法 被引量:1
13
作者 李国和 刘光胜 +3 位作者 吴卫江 孙红军 唐先明 韩宝东 《北京信息科技大学学报(自然科学版)》 2010年第S2期84-88,共5页
中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规... 中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好效果。 展开更多
关键词 中文分词 粗分 最大匹配算法 全切分算法 歧义检测
下载PDF
自动分词算法在智能答疑系统中的应用研究 被引量:4
14
作者 郑耿忠 《计算机工程与设计》 CSCD 北大核心 2007年第9期2224-2226,2235,共4页
汉语自动分词是远程教育智能答疑系统的基础,如何根据远程教育智能答疑系统的特点进行相关分词算法的设计是提高答疑系统智能性,促进智能答疑系统发展的关键所在。针对现有答疑系统智能性不好的问题,在介绍几种常见分词算法的基础上,提... 汉语自动分词是远程教育智能答疑系统的基础,如何根据远程教育智能答疑系统的特点进行相关分词算法的设计是提高答疑系统智能性,促进智能答疑系统发展的关键所在。针对现有答疑系统智能性不好的问题,在介绍几种常见分词算法的基础上,提出了一种改进型的自动分词算法,对该算法及其在智能答疑系统中的应用进行了分析,有利于提高智能答疑系统答疑的准确性和智能性,具有一定的实用价值。 展开更多
关键词 中文自动分词 智能答疑系统 全切分 交集型歧义 远程教育
下载PDF
一个并行分词体系结构模型
15
作者 杨春花 万建成 姜合 《计算机工程与应用》 CSCD 北大核心 2004年第33期89-91,共3页
文章提出并讨论了一种并行全切分分词方法,给出了该方法在MIMD_SM上的并行分词体系结构模型。经过单CPU机上的模拟实验,证明该模型是可行而且有效的。该模型为克服串行全切分存在的复杂性及效率问题提供了新的思路,对于深入研究书面汉... 文章提出并讨论了一种并行全切分分词方法,给出了该方法在MIMD_SM上的并行分词体系结构模型。经过单CPU机上的模拟实验,证明该模型是可行而且有效的。该模型为克服串行全切分存在的复杂性及效率问题提供了新的思路,对于深入研究书面汉语的并行分词问题及实现具有实际意义。 展开更多
关键词 全切分 并行分词 自然语言处理 并行处理
下载PDF
一个书面汉语词库系统的设计与实现
16
作者 杨春花 张洁 胡芳立 《山东轻工业学院学报(自然科学版)》 CAS 2006年第2期29-34,共6页
给出了一个词库维护及检索系统,它采用基于PATRICIA tree的分词词典机制及灵活的词库维护及检索方法,不仅适用于传统的机械切分,更适合于串行和并行全切分。该词库系统已在一个全切分系统应用。
关键词 词库 全切分 检索
下载PDF
不同手术方式治疗结肠癌并发肠梗阻患者的临床疗效观察
17
作者 林传彬 毛春梅 《临床医药实践》 2022年第9期661-663,共3页
目的:探讨结肠癌并发肠梗阻患者采用一期切除吻合术与结肠次全切分期手术治疗的临床价值。方法:回顾性分析2018年7月—2020年10月住院的结肠癌并发肠梗阻患者64例,按照手术治疗方式不同分为对照组与观察组,每组32例。对照组采用结肠次... 目的:探讨结肠癌并发肠梗阻患者采用一期切除吻合术与结肠次全切分期手术治疗的临床价值。方法:回顾性分析2018年7月—2020年10月住院的结肠癌并发肠梗阻患者64例,按照手术治疗方式不同分为对照组与观察组,每组32例。对照组采用结肠次全切分期手术治疗,观察组采用一期切除吻合术治疗,比较两组手术一般指标、术后并发症以及不同手术阶段的炎症反应指标与肿瘤标志物水平。结果:观察组手术时间、肛门排气时间短于对照组(P<0.05);术前两组各项炎症反应指标及肿瘤标志物水平相当(P>0.05),术后观察组各项炎症反应指标及肿瘤标志物水平均低于对照组(P<0.05);两组术后并发症发生率比较,差异无统计学意义(P>0.05)。结论:一期切除吻合手术用于结肠癌并发肠梗阻患者的治疗效果较好,安全性较高,能促进血清炎症因子清除,利于结肠癌彻底根治。 展开更多
关键词 结肠癌 肠梗阻 一期切除吻合术 结肠次全切分期手术
下载PDF
基于混合模型的交集型歧义消歧策略 被引量:2
18
作者 李天侠 戴新宇 陈家骏 《计算机工程与应用》 CSCD 北大核心 2008年第21期5-8,共4页
针对交集型歧义这一汉语分词中的难点问题,提出了一种规则和统计相结合的交集型歧义消歧模型。首先,根据标注语料库,通过基于错误驱动的学习思想,获取交集型歧义消歧规则库,同时,利用统计工具,构建N-Gram统计语言模型;然后,采用正向/逆... 针对交集型歧义这一汉语分词中的难点问题,提出了一种规则和统计相结合的交集型歧义消歧模型。首先,根据标注语料库,通过基于错误驱动的学习思想,获取交集型歧义消歧规则库,同时,利用统计工具,构建N-Gram统计语言模型;然后,采用正向/逆向最大匹配方法和消歧规则库探测发现交集型歧义字段;最后,通过消歧规则库和评分函数进行交集型歧义的消歧处理。这种基于混合模型的方法可以探测到更多的交集型歧义字段,并且结合了规则方法和统计方法在处理交集型歧义上的优势。实验表明,这种方法提高了交集型歧义处理的精度,为解决交集型歧义提供了一种新的思路。 展开更多
关键词 交集型歧义 消歧规则 统计语言模型 评分函数 全切分
下载PDF
一种基于统计的分词标注一体化方法 被引量:3
19
作者 褚颖娜 廖敏 宋继华 《计算机系统应用》 2009年第12期55-58,共4页
分词标注是中文信息处理的基础。传统方法的处理步骤大都是首先对文本进行预处理,得到文本的粗分模型,在此基础上对词语进行词性标注。粗分模型集合的大小取决于采用的分词方法,粗分模型的准确性直接影响着后续处理结果的准确性。提出... 分词标注是中文信息处理的基础。传统方法的处理步骤大都是首先对文本进行预处理,得到文本的粗分模型,在此基础上对词语进行词性标注。粗分模型集合的大小取决于采用的分词方法,粗分模型的准确性直接影响着后续处理结果的准确性。提出一种基于统计的分词标注一体化方法即概率全切分标注模型,该方法的特点是将分词、标注两部分工作融为一体同时进行,在利用全切分获得所有可能分词结果的过程中,计算出每种词串的联合概率,同时利用马尔可夫模型计算出每种词串所有可能标记序列的概率,由此得到最可能的处理结果。该方法提高了结果的召回率和准确率,由于在查询词典时采用的是单次查询双数组Trie树索引,因此效率也很高。 展开更多
关键词 分词标注 粗分模型 双数组Trie树索引 马尔可夫标注模型 全切分
下载PDF
哈萨克语词法分析器的研究与实现 被引量:16
20
作者 达吾勒.阿布都哈依尔 古丽拉.阿东别克 《计算机工程与应用》 CSCD 北大核心 2008年第19期146-149,共4页
研究了哈萨克语自动词法分析中的附加成分的切分和词干提取问题,并实现了哈萨克语词法分析系统KazStemmer。系统首先对待切分词使用有限状态自动机进行分析。如果成功则将输出作为切分结果,否则再使用双向全切分和词法分析相结合的改进... 研究了哈萨克语自动词法分析中的附加成分的切分和词干提取问题,并实现了哈萨克语词法分析系统KazStemmer。系统首先对待切分词使用有限状态自动机进行分析。如果成功则将输出作为切分结果,否则再使用双向全切分和词法分析相结合的改进方法来进行切分。与最大匹配法相比,该方法提高了词干提取的正确率和切分速度。同时,在词干表的搜索中首次采用了改进的逐字母二分词典查询机制来提高了词干提取的效率。 展开更多
关键词 附加成分切分 有限状态自动机 双向匹配 全切分
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部