期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
汉语自动分词词典机制的实验研究 被引量:118
1
作者 孙茂松 左正平 黄昌宁 《中文信息学报》 CSCD 北大核心 2000年第1期1-6,共6页
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二... 分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。 展开更多
关键词 中文信息处理 汉语自动分词 分词词典机制
下载PDF
基于二字词位图表的汉语自动分词词典机制 被引量:3
2
作者 蒋斌 杨超 赵欢 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第1期121-123,共3页
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的... 根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率. 展开更多
关键词 汉语自动分词 分词词典机制 二字词检测位图表
下载PDF
一种改进的基于PATRICIA树的汉语自动分词词典机制 被引量:3
3
作者 马哲 姚敏 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第z1期28-31,41,共5页
分词词典机制是影响自动分词的重要因素,而查找速度是衡量一个词典好坏的重要标准.文中分析比较了现有的几种典型的词典机制,并在此基础上提出了一种新的词典机制,即在PATRICIAtree的基础上加入Hash机制,从而在明显提高查找速度的同时,... 分词词典机制是影响自动分词的重要因素,而查找速度是衡量一个词典好坏的重要标准.文中分析比较了现有的几种典型的词典机制,并在此基础上提出了一种新的词典机制,即在PATRICIAtree的基础上加入Hash机制,从而在明显提高查找速度的同时,降低了构造和维护词典的复杂度. 展开更多
关键词 PATRICIA树 汉语 自动分词 分词词典机制
下载PDF
汉语自动分词新思维:无词典切分 被引量:2
4
作者 文庭孝 侯经川 +1 位作者 邱均平 张洋 《情报杂志》 CSSCI 北大核心 2005年第2期2-4,共3页
汉语自动分词与中华民族文化复兴紧密相联 ,但汉语自动分词又是目前中文信息处理中的难题。通过分析现有汉语词自动分词方法及其局限性、汉语词自动分词中存在的困难、汉语同西方语言和日语的差别 ,认为传统汉语文本具有不可自动切分性 ... 汉语自动分词与中华民族文化复兴紧密相联 ,但汉语自动分词又是目前中文信息处理中的难题。通过分析现有汉语词自动分词方法及其局限性、汉语词自动分词中存在的困难、汉语同西方语言和日语的差别 ,认为传统汉语文本具有不可自动切分性 ,从汉语自动分词的成本、影响和汉语言发展的前途出发 ,必须对传统汉语文本进行改革。提出了一种新的自动分词思维 :“无词典切分” ,即改变汉语书写习惯 ,在汉语文本生成时在汉语词之间增加分隔信息 ,使汉语适于计算机自动处理。 展开更多
关键词 汉语自动分词 汉语文本 中文信息处理 计算机 自动切分 自动处理 词典 加分 书写习惯 难题
下载PDF
一种中文分词词典新机制——双字哈希机制 被引量:108
5
作者 李庆虎 陈玉健 孙家广 《中文信息学报》 CSCD 北大核心 2003年第4期13-18,共6页
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多... 汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。 展开更多
关键词 汉语自动分词 汉语信息处理 分词词典机制 双字哈希机制 分词速度 分词效率
下载PDF
一种面向中文信息检索的汉语自动分词方法 被引量:7
6
作者 孙巍 《现代图书情报技术》 CSSCI 北大核心 2006年第7期33-36,共4页
阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。
关键词 中文信息检索 汉语自动分词 词典 互联网 正反向最大增字匹配法
下载PDF
汉语自动分词和自动标引方法研究 被引量:4
7
作者 苏武华 《农业图书情报学刊》 2004年第7期103-105,共3页
中文自动标引一直是学界研究的热点。本文主要研究了两个方面 :自动分词方法和自动标引方法。通过全面的比较研究 ,本文认为自动分词方法可以分为五个类型 ,自动标引的方法分为七种。
关键词 汉语分词 自动分词 自动标引 字符串匹配 专家系统 词典标引法 词频统计 语义分析
下载PDF
一种汉语自动分词标引方法──统计分析法 被引量:4
8
作者 龙泽云 邓钦和 《现代图书情报技术》 1987年第3期11-13,7,共4页
关键词 加词 标引方法 汉语自动分词 无标引 汉字串 统计分析法 汉语词汇 关键词表 词典分词 白数
下载PDF
一种高效的个性化中文分词词典 被引量:1
9
作者 刘珂 任翔 《泰山学院学报》 2007年第6期91-95,共5页
Web个性化服务的核心技术之一是准确描述用户兴趣的用户模型,通过用户行为来挖掘用户兴趣是这一领域研究的重要手段.该文为了对Web个性化服务中用户浏览文档进行分析研究,采用了一种新型的个性化分词词典,通过实验证明是切实可行的,并... Web个性化服务的核心技术之一是准确描述用户兴趣的用户模型,通过用户行为来挖掘用户兴趣是这一领域研究的重要手段.该文为了对Web个性化服务中用户浏览文档进行分析研究,采用了一种新型的个性化分词词典,通过实验证明是切实可行的,并且极大提高了系统的效率. 展开更多
关键词 中文信息处理 汉语自动分词词典机制 个性化
下载PDF
单数组全映射分词词典 被引量:4
10
作者 魏进 常朝稳 《计算机工程与应用》 CSCD 北大核心 2007年第23期184-186,共3页
通过研究和分析目前几种典型的分词词典机制:整词二分、TRIE索引树、逐字二分及双字哈希,提出并实现了新的单数组全映射(SAFM)分词词典。该词典具有构造简单,分词速度快,占用空间小的优点。
关键词 中文信息处理 汉语自动分词 汉语自动分词词典机制 单数组全映射
下载PDF
汉语分词有向图的快速生成算法 被引量:6
11
作者 李大农 董慧 《情报学报》 CSSCI 北大核心 2004年第1期36-39,共4页
给出了一种汉语分词有向图的快速生成算法。所构造的有向图可以作为机械分词、消除歧义以及进一步分析句子的基础。
关键词 汉语分词 构词关系 有向图 算法 自动分词 分词词典 数据结构 中文处理
下载PDF
自动分词中未登录词问题的一揽子解决方案 被引量:26
12
作者 陈小荷 《语言文字应用》 CSSCI 北大核心 1999年第3期103-109,共7页
确定未登录词边界是汉语自动分析中特有的一个问题,未登录词的种类和数量之多,是处理大规模真实文本的严重障碍。本文分析了现有的解决未登录词问题的各种方案,提出两趟分词、在“分词碎片”中计算单字成词概率和未登录词概率的一揽... 确定未登录词边界是汉语自动分析中特有的一个问题,未登录词的种类和数量之多,是处理大规模真实文本的严重障碍。本文分析了现有的解决未登录词问题的各种方案,提出两趟分词、在“分词碎片”中计算单字成词概率和未登录词概率的一揽子解决方案,并报告一个初步的、令人鼓舞的开放测试结果。 展开更多
关键词 未登录词 汉语自动分词 单字词 共现概率 计算语言学 语料库 一揽子解决方案 《现代汉语词典 词性标注 最大匹配法
下载PDF
基于小字符集的藏文自动分词技术研究 被引量:3
13
作者 才华 《西藏大学学报(社会科学版)》 CSSCI 2013年第5期43-47,共5页
文章针对传统藏文分词的切词难点及切分歧义现象,提出一种基于小字符集的藏文自动分词技术方案。其中包括分词预处理、多级Hash词典机制、藏文格助词紧缩格的判别及还原规则、逐字匹配算法和未登录词的处理等内容。
关键词 藏文自动分词 分块预处理 多级Hash词典机制 藏文紧缩格 逐字匹配算法
下载PDF
汉语文本自动处理之管见
14
作者 张国跃 王燕莉 《新乡学院学报(社会科学版)》 1998年第4期95-96,共2页
汉字是世界上使用人数最多的文字。然而由于汉语与英语等西语比较有着独自的特点,这为汉语文献的自动处理带来了困难。如①汉语的字与词没有明显的界限,汉字是组成词或词组的最小单位,单独的汉字也可能是一个词。②一个方块字是一个书... 汉字是世界上使用人数最多的文字。然而由于汉语与英语等西语比较有着独自的特点,这为汉语文献的自动处理带来了困难。如①汉语的字与词没有明显的界限,汉字是组成词或词组的最小单位,单独的汉字也可能是一个词。②一个方块字是一个书写单元,字与字之间有一致的间隔,但词与词之间却无明显的分隔符号,而是彼此连续排列,直到一句话结束有了标点符号为止。③汉语中的词没有固定的词头、词尾和性、数、格变化等的分词标志。这些特点导致了汉语文献自动处理的复杂性,因而汉语自动分词一直是一个难题。近几年来,尽管有不少研究者提出了自动分词的方案,但都不能令人满意。借助于词典法的切分,显然受学科专业的限制;部件词的切分方法,也往往很难照顾全面。 展开更多
关键词 文本自动处理 专业词典 文献资料 学科专业 汉语文献 汉语自动分词 主题法 计算机 分类法 师专图书馆
全文增补中
词典工作的科学化期待理想的计算机软件 被引量:3
15
作者 程荣 《辞书研究》 CSSCI 1997年第5期48-56,共9页
关键词 语料库 计算机编辑系统 词典编纂者 现代汉语词典 语文词典 相关条目 自动分词 词频统计 释义 排版系统
下载PDF
关于书面汉语中词链问题的分析和处理
16
作者 黄祥喜 《情报科学》 1988年第5期28-35,共8页
本文给出了词链的形式定义,分析了词链产生的原因,对词链的可切分性作了系统研究。
关键词 自动分词 汉字串 语言文本 文本切分 分解 分词 成词 汉语语言理解 词典 书面汉语
下载PDF
因特网经济学未登录词计算机辅助挖掘试验 被引量:2
17
作者 罗宇辉 侯汉清 《情报理论与实践》 CSSCI 北大核心 2005年第5期478-481,共4页
近年来随着社会经济科技和因特网的迅速发展,文献中不断涌现出大量未登录词。未登录词的存在严重影响了汉语自动分词与自动标引的准确率和速率。本文对1000篇经济类网页的关键部位———题名、摘要、关键词、首段进行未登录词挖掘试验,... 近年来随着社会经济科技和因特网的迅速发展,文献中不断涌现出大量未登录词。未登录词的存在严重影响了汉语自动分词与自动标引的准确率和速率。本文对1000篇经济类网页的关键部位———题名、摘要、关键词、首段进行未登录词挖掘试验,侧重对未登录词挖掘步骤设计和处理方法的讨论。 展开更多
关键词 经济学 数据挖掘 自动标引/关键词词典 未登录词 因特网 计算机辅助 登录 挖掘 试验 汉语自动分词
下载PDF
数据处理、信息处理
18
《电子科技文摘》 2000年第6期116-116,共1页
0010375一个实用的汉语分词词库自动扩充系统〔刊〕/戴忠健//现代电子工程.—1999,(4).—62~64(L)本文介绍一个实用的微机汉语分词词库自动扩充系统。在进行汉语自动分词的同时,将出现频度较高的新词,扩充刭词库中去。既完成了汉语分词... 0010375一个实用的汉语分词词库自动扩充系统〔刊〕/戴忠健//现代电子工程.—1999,(4).—62~64(L)本文介绍一个实用的微机汉语分词词库自动扩充系统。在进行汉语自动分词的同时,将出现频度较高的新词,扩充刭词库中去。既完成了汉语分词,又生成了电子词典,为中文信息的语音合成技术提供了重要的支持。 展开更多
关键词 汉语分词 数据处理 信息处理 扩充系统 汉语自动分词 现代电子工程 语音合成技术 电子词典 词库 中文信息
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部