期刊文献+
共找到70篇文章
< 1 2 4 >
每页显示 20 50 100
一种基于后缀数组的无词典分词方法 被引量:14
1
作者 张长利 赫枫龄 左万利 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2004年第4期548-553,共6页
提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要... 提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要求高的中文信息处理. 展开更多
关键词 词典分词 数组 文档 散列表 计算速度 算法 中文信息处理 法能 频度 实验
下载PDF
中文生物医学文本无词典分词方法研究 被引量:4
2
作者 王军辉 胡铁军 +2 位作者 李丹亚 钱庆 方安 《情报学报》 CSSCI 北大核心 2011年第2期197-203,共7页
为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取... 为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取两方面对其进行了改进.实验结果表明,该方法可以在不需要词典和语料库学习的情况下,实现对生物医学文本中关键性专业术语的有效抽取,分词准确率约为84.51%.最后,基于本研究中的分词结果,对生物医学领域的词长分布进行了初步探讨,结果表明中文生物医学领域的词长分布与普通汉语文本有非常大的差异.研究结果对在处理中文生物医学文本时N-gram模型中N值的确定具有一定的参考价值. 展开更多
关键词 词典分词 结构式摘要 生物医学文本
下载PDF
基于重现的无词典分词方法在中文生物医学文本挖掘中的应用 被引量:5
3
作者 王军辉 胡铁军 李丹亚 《医学信息学杂志》 CAS 2009年第2期21-25,共5页
在对文本挖掘和中文分词方法进行概述的基础上,结合中文生物医学文本的特点,提出基于重现的无词典分词方法在构建医学文献相关性数据库、发现医学新名词、预测新兴研究趋势和基于文献的知识发现中的应用设想。
关键词 词典分词 数据挖掘 文本挖掘 知识发现 文献相关性数据库
下载PDF
基于统计的无词典分词方法 被引量:24
4
作者 傅赛香 袁鼎荣 +1 位作者 黄柏雄 钟智 《广西科学院学报》 2002年第4期252-255,264,共5页
通过分析词的结合模式 ,提出无词典分词模型 ,并对该模型进行实验测试。测试结果表明 。
关键词 分词方法 自动分词 词典分词 词条过滤 词条统计 中文信息处理
下载PDF
中文文本挖掘中的无词典分词的算法及其应用 被引量:26
5
作者 胥桂仙 苏筱蔚 陈淑艳 《吉林工学院学报(自然科学版)》 2002年第1期16-18,共3页
对中文文本挖掘中的词汇处理技术进行了较深入的探讨 ,提出了针对汉语语言特点的无词典分词算法。该算法基于“找最长字共现”的原则 ,可以准确地将文本中的词汇切分出来。
关键词 文本挖掘 中文分词 词典分词
下载PDF
汉语词汇理论、词典分词与“词”的认知 被引量:2
6
作者 杨端志 《山东大学学报(哲学社会科学版)》 北大核心 2003年第6期85-89,共5页
汉语言文字研究的语音、语法、词汇、文字等几个主要方面中,"词"的问题最困难,主要是划分"词"的标准问题。词的确定标准,在现有词汇理论方面存在异质因素,每一种标准都很难贯彻到底,表现在词典分词上则更为混乱。其... 汉语言文字研究的语音、语法、词汇、文字等几个主要方面中,"词"的问题最困难,主要是划分"词"的标准问题。词的确定标准,在现有词汇理论方面存在异质因素,每一种标准都很难贯彻到底,表现在词典分词上则更为混乱。其实,"词"是人们对客观事物认知命名的心理现象,划分"词"的标准要循着人们对客观事物认知命名的心理去寻找。造词之初本义理据的整合性为汉语划分"词"提供了正确的标准。 展开更多
关键词 词汇理论 词典分词 词的认知
下载PDF
基于自然语言网络教学答疑中无词典分词算法的研究
7
作者 高晓梅 杨旭 《西安工程大学学报》 CAS 2009年第3期95-98,共4页
提出了一种面向网络答疑系统的无词典分词方法.该方法用统计的手段从大规模未进行任何切分的领域语料中获取算法所需的参数,并结合一定的规则进行分词.该算法具有自学习的能力,适应性强,只要改变训练所用的语料,就能切分出不同领域的词... 提出了一种面向网络答疑系统的无词典分词方法.该方法用统计的手段从大规模未进行任何切分的领域语料中获取算法所需的参数,并结合一定的规则进行分词.该算法具有自学习的能力,适应性强,只要改变训练所用的语料,就能切分出不同领域的词.实验结果表明,该分词方法有较高的召回率和精度. 展开更多
关键词 领域语料 规则 词典分词方法
下载PDF
一种改进的基于后缀数组的无词典分词方法
8
作者 刘京城 刘锋 《计算机技术与发展》 2011年第11期49-52,共4页
文中改进了基于后缀数组的无词典分词算法。原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词集,并通过置信度的比较来筛选候选词集以获得分词集。文中改进了其计算候选词出现频率的方法并且大大减... 文中改进了基于后缀数组的无词典分词算法。原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词集,并通过置信度的比较来筛选候选词集以获得分词集。文中改进了其计算候选词出现频率的方法并且大大减少了筛选候选词集时两两判断候选词是否具有父子关系的次数。试验表明,改进的算法能够在没有词典的情况下更快速构建候选词集和筛选候选词集。适用于对词条频度敏感,对计算速度要求较高的中文信息处理。 展开更多
关键词 自动分词 词典分词 后缀数组
下载PDF
一种中文分词词典新机制——双字哈希机制 被引量:107
9
作者 李庆虎 陈玉健 孙家广 《中文信息学报》 CSCD 北大核心 2003年第4期13-18,共6页
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多... 汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。 展开更多
关键词 汉语自动分词 汉语信息处理 分词词典机制 双字哈希机制 分词速度 分词效率
下载PDF
汉语自动分词词典机制的实验研究 被引量:118
10
作者 孙茂松 左正平 黄昌宁 《中文信息学报》 CSCD 北大核心 2000年第1期1-6,共6页
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二... 分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。 展开更多
关键词 中文信息处理 汉语自动分词 分词词典机制
下载PDF
一种快速中文分词词典机制 被引量:16
11
作者 吴晶晶 荆继武 +1 位作者 聂晓峰 王平建 《中国科学院研究生院学报》 CAS CSCD 北大核心 2009年第5期703-711,共9页
通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提... 通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率. 展开更多
关键词 文本实时处理 中文分词 词典分词 双字词-长词哈希机制
下载PDF
多级索引的藏语分词词典设计 被引量:6
12
作者 姚徐 郭淑妮 +1 位作者 李永宏 于洪志 《计算机应用》 CSCD 北大核心 2009年第B06期178-180,共3页
藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率。本项目首先收集了多部藏语字、词典的所有词条及藏语标点符号,形成了约10万词条的大型藏语分词词库;根据藏字不同长度的特点,建立了藏语... 藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率。本项目首先收集了多部藏语字、词典的所有词条及藏语标点符号,形成了约10万词条的大型藏语分词词库;根据藏字不同长度的特点,建立了藏语特有的多级索引分词词典机制,分析设计藏语整词二分法进行藏语分词。实验结果表明该藏语分词词典具有结构简单,分词速度快和查询性能高等优点。 展开更多
关键词 藏语分词 分词词典 藏语整词二分法 多级索引
下载PDF
基于双数组Trie树的中文分词词典算法优化研究 被引量:8
13
作者 杨文川 刘健 于淼 《计算机工程与科学》 CSCD 北大核心 2013年第9期127-131,共5页
基于双数组Trie树的中文分词词典具有较高的查找效率,但其插入时间复杂度较高。为此提出了一种基于双数组Trie树结构的改进算法iDAT,在原始词典初始化时优先处理分支多的节点,并在初始化之后对base数组中的空序列的下标值做Hash,Hash表... 基于双数组Trie树的中文分词词典具有较高的查找效率,但其插入时间复杂度较高。为此提出了一种基于双数组Trie树结构的改进算法iDAT,在原始词典初始化时优先处理分支多的节点,并在初始化之后对base数组中的空序列的下标值做Hash,Hash表中存放空序列之前的所有空序列个数之和,而后运用iDAT算法进行插入。本算法借鉴了单模式匹配的Sunday算法中的跳跃思想,在适当增加空间开销的基础上,降低了Trie树在动态插入过程中的平均时间复杂度,在实际操作过程中有着良好的性能。 展开更多
关键词 双数组 TRIE树 时间复杂度 分词词典
下载PDF
基于二字词位图表的汉语自动分词词典机制 被引量:3
14
作者 蒋斌 杨超 赵欢 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第1期121-123,共3页
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的... 根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率. 展开更多
关键词 汉语自动分词 分词词典机制 二字词检测位图表
下载PDF
中文分词词典机制:次字拼音首字母哈希机制 被引量:2
15
作者 杨毅 王禹桥 《计算机工程与设计》 CSCD 北大核心 2010年第6期1369-1371,1375,共4页
为了提高现有基于词典的分词机制的次字查询效率,提出了一种全新的分词词典机制—次字拼音首字母哈希机制。首字查询仍使用成熟的基于逐字二分机制,在首字哈希表中增加该字的拼音首字母字段,次字按其拼音首字母散列到26个子表,子表中记... 为了提高现有基于词典的分词机制的次字查询效率,提出了一种全新的分词词典机制—次字拼音首字母哈希机制。首字查询仍使用成熟的基于逐字二分机制,在首字哈希表中增加该字的拼音首字母字段,次字按其拼音首字母散列到26个子表,子表中记录以首字开头的词组个数并设置次字索引表指针,第3字及其后的字串的匹配仍然采用目前成熟的词典机制。在次字查询时,可大大地缩小查询范围,从而加速了次字查询过程。实验测试表明,该机制在增加少量的存储空间情况下,时间效率提升了15%。 展开更多
关键词 中文信息处理 中文分词 次字 哈希 分词词典
下载PDF
一种中文分词词典新机制——四字哈希机制 被引量:16
16
作者 张培颖 李村合 《微型电脑应用》 2006年第10期35-36,55,共3页
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一... 词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。 展开更多
关键词 中文信息处理 自动分词 分词词典 四字哈希
下载PDF
几种基于词典的中文分词算法评价 被引量:4
17
作者 李丹宁 李丹 +1 位作者 王保华 马新强 《贵州科学》 2008年第3期1-8,共8页
基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中... 基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中文分词系统. 展开更多
关键词 中文信息处理 自动分词 分词词典 缓存优化
下载PDF
一种基于变型B-树的中文自动分词词典机制 被引量:1
18
作者 吴昊 潘无名 +1 位作者 王硕 杨博 《技术与市场》 2007年第4期37-38,共2页
中文自动分词技术是许多中文智能领域尤其是中文信息的数据净化和数据挖掘的基础技术,而分词词典又是影响到中文自动分词的重要因素。本文针对中文地址数据净化和挖掘的具体需要提出了一种新的词典机制,即基于首字HASH,逐字二分和变型B... 中文自动分词技术是许多中文智能领域尤其是中文信息的数据净化和数据挖掘的基础技术,而分词词典又是影响到中文自动分词的重要因素。本文针对中文地址数据净化和挖掘的具体需要提出了一种新的词典机制,即基于首字HASH,逐字二分和变型B-树的词典,从而明显提高了对短词的处理速度。 展开更多
关键词 分词 B-树 二分查找 中文自动分词词典
下载PDF
一种高效的个性化中文分词词典 被引量:1
19
作者 刘珂 任翔 《泰山学院学报》 2007年第6期91-95,共5页
Web个性化服务的核心技术之一是准确描述用户兴趣的用户模型,通过用户行为来挖掘用户兴趣是这一领域研究的重要手段.该文为了对Web个性化服务中用户浏览文档进行分析研究,采用了一种新型的个性化分词词典,通过实验证明是切实可行的,并... Web个性化服务的核心技术之一是准确描述用户兴趣的用户模型,通过用户行为来挖掘用户兴趣是这一领域研究的重要手段.该文为了对Web个性化服务中用户浏览文档进行分析研究,采用了一种新型的个性化分词词典,通过实验证明是切实可行的,并且极大提高了系统的效率. 展开更多
关键词 中文信息处理 汉语自动分词词典机制 个性化
下载PDF
一种中文分词词典新机制—四字哈希机制
20
作者 张培颖 李村合 《微计算机应用》 2006年第4期512-512,共1页
关键词 分词词典 机制 哈希 中文 TRIE 查找算法 数据结构 中后期 索引树 二分
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部