期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
18
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
汉语自动分词词典机制的实验研究
被引量:
118
1
作者
孙茂松
左正平
黄昌宁
《中文信息学报》
CSCD
北大核心
2000年第1期1-6,共6页
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二...
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。
展开更多
关键词
中文信息处理
汉语
自动
分词
分词
词典
机制
下载PDF
职称材料
基于二字词位图表的汉语自动分词词典机制
被引量:
3
2
作者
蒋斌
杨超
赵欢
《湖南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2006年第1期121-123,共3页
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的...
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率.
展开更多
关键词
汉语
自动
分词
分词
词典
机制
二字词检测位图表
下载PDF
职称材料
一种改进的基于PATRICIA树的汉语自动分词词典机制
被引量:
3
3
作者
马哲
姚敏
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2004年第z1期28-31,41,共5页
分词词典机制是影响自动分词的重要因素,而查找速度是衡量一个词典好坏的重要标准.文中分析比较了现有的几种典型的词典机制,并在此基础上提出了一种新的词典机制,即在PATRICIAtree的基础上加入Hash机制,从而在明显提高查找速度的同时,...
分词词典机制是影响自动分词的重要因素,而查找速度是衡量一个词典好坏的重要标准.文中分析比较了现有的几种典型的词典机制,并在此基础上提出了一种新的词典机制,即在PATRICIAtree的基础上加入Hash机制,从而在明显提高查找速度的同时,降低了构造和维护词典的复杂度.
展开更多
关键词
PATRICIA树
汉语
自动
分词
分词
词典
机制
下载PDF
职称材料
汉语自动分词新思维:无词典切分
被引量:
2
4
作者
文庭孝
侯经川
+1 位作者
邱均平
张洋
《情报杂志》
CSSCI
北大核心
2005年第2期2-4,共3页
汉语自动分词与中华民族文化复兴紧密相联 ,但汉语自动分词又是目前中文信息处理中的难题。通过分析现有汉语词自动分词方法及其局限性、汉语词自动分词中存在的困难、汉语同西方语言和日语的差别 ,认为传统汉语文本具有不可自动切分性 ...
汉语自动分词与中华民族文化复兴紧密相联 ,但汉语自动分词又是目前中文信息处理中的难题。通过分析现有汉语词自动分词方法及其局限性、汉语词自动分词中存在的困难、汉语同西方语言和日语的差别 ,认为传统汉语文本具有不可自动切分性 ,从汉语自动分词的成本、影响和汉语言发展的前途出发 ,必须对传统汉语文本进行改革。提出了一种新的自动分词思维 :“无词典切分” ,即改变汉语书写习惯 ,在汉语文本生成时在汉语词之间增加分隔信息 ,使汉语适于计算机自动处理。
展开更多
关键词
汉语
自动
分词
汉语
文本
中文信息处理
计算机
自动
切分
自动
处理
词典
加分
书写习惯
难题
下载PDF
职称材料
一种中文分词词典新机制——双字哈希机制
被引量:
108
5
作者
李庆虎
陈玉健
孙家广
《中文信息学报》
CSCD
北大核心
2003年第4期13-18,共6页
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多...
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。
展开更多
关键词
汉语
自动
分词
汉语
信息处理
分词
词典
机制
双字哈希
机制
分词
速度
分词
效率
下载PDF
职称材料
一种面向中文信息检索的汉语自动分词方法
被引量:
7
6
作者
孙巍
《现代图书情报技术》
CSSCI
北大核心
2006年第7期33-36,共4页
阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。
关键词
中文信息检索
汉语
自动
分词
词典
互联网
正反向最大增字匹配法
下载PDF
职称材料
汉语自动分词和自动标引方法研究
被引量:
4
7
作者
苏武华
《农业图书情报学刊》
2004年第7期103-105,共3页
中文自动标引一直是学界研究的热点。本文主要研究了两个方面 :自动分词方法和自动标引方法。通过全面的比较研究 ,本文认为自动分词方法可以分为五个类型 ,自动标引的方法分为七种。
关键词
汉语
分词
自动
分词
自动
标引
字符串匹配
专家系统
词典
标引法
词频统计
语义分析
下载PDF
职称材料
一种汉语自动分词标引方法──统计分析法
被引量:
4
8
作者
龙泽云
邓钦和
《现代图书情报技术》
1987年第3期11-13,7,共4页
关键词
加词
标引方法
汉语
自动
分词
无标引
汉字串
统计分析法
汉语
词汇
关键词表
词典
分词
白数
下载PDF
职称材料
一种高效的个性化中文分词词典
被引量:
1
9
作者
刘珂
任翔
《泰山学院学报》
2007年第6期91-95,共5页
Web个性化服务的核心技术之一是准确描述用户兴趣的用户模型,通过用户行为来挖掘用户兴趣是这一领域研究的重要手段.该文为了对Web个性化服务中用户浏览文档进行分析研究,采用了一种新型的个性化分词词典,通过实验证明是切实可行的,并...
Web个性化服务的核心技术之一是准确描述用户兴趣的用户模型,通过用户行为来挖掘用户兴趣是这一领域研究的重要手段.该文为了对Web个性化服务中用户浏览文档进行分析研究,采用了一种新型的个性化分词词典,通过实验证明是切实可行的,并且极大提高了系统的效率.
展开更多
关键词
中文信息处理
汉语自动分词词典机制
个性化
下载PDF
职称材料
单数组全映射分词词典
被引量:
4
10
作者
魏进
常朝稳
《计算机工程与应用》
CSCD
北大核心
2007年第23期184-186,共3页
通过研究和分析目前几种典型的分词词典机制:整词二分、TRIE索引树、逐字二分及双字哈希,提出并实现了新的单数组全映射(SAFM)分词词典。该词典具有构造简单,分词速度快,占用空间小的优点。
关键词
中文信息处理
汉语
自动
分词
汉语自动分词词典机制
单数组全映射
下载PDF
职称材料
汉语分词有向图的快速生成算法
被引量:
6
11
作者
李大农
董慧
《情报学报》
CSSCI
北大核心
2004年第1期36-39,共4页
给出了一种汉语分词有向图的快速生成算法。所构造的有向图可以作为机械分词、消除歧义以及进一步分析句子的基础。
关键词
汉语
分词
构词关系
有向图
算法
自动
分词
分词
词典
数据结构
中文处理
下载PDF
职称材料
自动分词中未登录词问题的一揽子解决方案
被引量:
26
12
作者
陈小荷
《语言文字应用》
CSSCI
北大核心
1999年第3期103-109,共7页
确定未登录词边界是汉语自动分析中特有的一个问题,未登录词的种类和数量之多,是处理大规模真实文本的严重障碍。本文分析了现有的解决未登录词问题的各种方案,提出两趟分词、在“分词碎片”中计算单字成词概率和未登录词概率的一揽...
确定未登录词边界是汉语自动分析中特有的一个问题,未登录词的种类和数量之多,是处理大规模真实文本的严重障碍。本文分析了现有的解决未登录词问题的各种方案,提出两趟分词、在“分词碎片”中计算单字成词概率和未登录词概率的一揽子解决方案,并报告一个初步的、令人鼓舞的开放测试结果。
展开更多
关键词
未登录词
汉语
自动
分词
单字词
共现概率
计算语言学
语料库
一揽子解决方案
《现代
汉语
词典
》
词性标注
最大匹配法
下载PDF
职称材料
基于小字符集的藏文自动分词技术研究
被引量:
3
13
作者
才华
《西藏大学学报(社会科学版)》
CSSCI
2013年第5期43-47,共5页
文章针对传统藏文分词的切词难点及切分歧义现象,提出一种基于小字符集的藏文自动分词技术方案。其中包括分词预处理、多级Hash词典机制、藏文格助词紧缩格的判别及还原规则、逐字匹配算法和未登录词的处理等内容。
关键词
藏文
自动
分词
分块预处理
多级Hash
词典
机制
藏文紧缩格
逐字匹配算法
下载PDF
职称材料
汉语文本自动处理之管见
14
作者
张国跃
王燕莉
《新乡学院学报(社会科学版)》
1998年第4期95-96,共2页
汉字是世界上使用人数最多的文字。然而由于汉语与英语等西语比较有着独自的特点,这为汉语文献的自动处理带来了困难。如①汉语的字与词没有明显的界限,汉字是组成词或词组的最小单位,单独的汉字也可能是一个词。②一个方块字是一个书...
汉字是世界上使用人数最多的文字。然而由于汉语与英语等西语比较有着独自的特点,这为汉语文献的自动处理带来了困难。如①汉语的字与词没有明显的界限,汉字是组成词或词组的最小单位,单独的汉字也可能是一个词。②一个方块字是一个书写单元,字与字之间有一致的间隔,但词与词之间却无明显的分隔符号,而是彼此连续排列,直到一句话结束有了标点符号为止。③汉语中的词没有固定的词头、词尾和性、数、格变化等的分词标志。这些特点导致了汉语文献自动处理的复杂性,因而汉语自动分词一直是一个难题。近几年来,尽管有不少研究者提出了自动分词的方案,但都不能令人满意。借助于词典法的切分,显然受学科专业的限制;部件词的切分方法,也往往很难照顾全面。
展开更多
关键词
文本
自动
处理
专业
词典
文献资料
学科专业
汉语
文献
汉语
自动
分词
主题法
计算机
分类法
师专图书馆
全文增补中
词典工作的科学化期待理想的计算机软件
被引量:
3
15
作者
程荣
《辞书研究》
CSSCI
1997年第5期48-56,共9页
关键词
语料库
计算机编辑系统
词典
编纂者
现代
汉语
词典
语文
词典
相关条目
自动
分词
词频统计
释义
排版系统
下载PDF
职称材料
关于书面汉语中词链问题的分析和处理
16
作者
黄祥喜
《情报科学》
1988年第5期28-35,共8页
本文给出了词链的形式定义,分析了词链产生的原因,对词链的可切分性作了系统研究。
关键词
自动
分词
汉字串
语言文本
文本切分
分解
分词
法
成词
汉语
语言理解
词典
书面
汉语
下载PDF
职称材料
因特网经济学未登录词计算机辅助挖掘试验
被引量:
2
17
作者
罗宇辉
侯汉清
《情报理论与实践》
CSSCI
北大核心
2005年第5期478-481,共4页
近年来随着社会经济科技和因特网的迅速发展,文献中不断涌现出大量未登录词。未登录词的存在严重影响了汉语自动分词与自动标引的准确率和速率。本文对1000篇经济类网页的关键部位———题名、摘要、关键词、首段进行未登录词挖掘试验,...
近年来随着社会经济科技和因特网的迅速发展,文献中不断涌现出大量未登录词。未登录词的存在严重影响了汉语自动分词与自动标引的准确率和速率。本文对1000篇经济类网页的关键部位———题名、摘要、关键词、首段进行未登录词挖掘试验,侧重对未登录词挖掘步骤设计和处理方法的讨论。
展开更多
关键词
经济学
数据挖掘
自动
标引/关键词
词典
未登录词
因特网
计算机辅助
登录
挖掘
试验
汉语
自动
分词
下载PDF
职称材料
数据处理、信息处理
18
《电子科技文摘》
2000年第6期116-116,共1页
0010375一个实用的汉语分词词库自动扩充系统〔刊〕/戴忠健//现代电子工程.—1999,(4).—62~64(L)本文介绍一个实用的微机汉语分词词库自动扩充系统。在进行汉语自动分词的同时,将出现频度较高的新词,扩充刭词库中去。既完成了汉语分词...
0010375一个实用的汉语分词词库自动扩充系统〔刊〕/戴忠健//现代电子工程.—1999,(4).—62~64(L)本文介绍一个实用的微机汉语分词词库自动扩充系统。在进行汉语自动分词的同时,将出现频度较高的新词,扩充刭词库中去。既完成了汉语分词,又生成了电子词典,为中文信息的语音合成技术提供了重要的支持。
展开更多
关键词
汉语
分词
数据处理
信息处理
扩充系统
汉语
自动
分词
现代电子工程
语音合成技术
电子
词典
词库
中文信息
原文传递
题名
汉语自动分词词典机制的实验研究
被引量:
118
1
作者
孙茂松
左正平
黄昌宁
机构
清华大学计算机科学与技术系
出处
《中文信息学报》
CSCD
北大核心
2000年第1期1-6,共6页
基金
国家自然科学基金资助!(合同号:69433010)
文摘
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。
关键词
中文信息处理
汉语
自动
分词
分词
词典
机制
Keywords
Chinese information processing Chinese word segmentation Dictionary mechanism for Chinese word segmentation
分类号
H085.5 [语言文字—语言学]
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于二字词位图表的汉语自动分词词典机制
被引量:
3
2
作者
蒋斌
杨超
赵欢
机构
湖南大学计算机科学与通信学院
出处
《湖南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2006年第1期121-123,共3页
基金
湖南省自然科学基金资助项目(03JJY3097)
文摘
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率.
关键词
汉语
自动
分词
分词
词典
机制
二字词检测位图表
Keywords
Chinese word segmentation
dictionary mechanism
two-word-bitmap
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种改进的基于PATRICIA树的汉语自动分词词典机制
被引量:
3
3
作者
马哲
姚敏
机构
浙江大学计算机系
出处
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2004年第z1期28-31,41,共5页
基金
国家自然科学基金资助项目(79970037)
文摘
分词词典机制是影响自动分词的重要因素,而查找速度是衡量一个词典好坏的重要标准.文中分析比较了现有的几种典型的词典机制,并在此基础上提出了一种新的词典机制,即在PATRICIAtree的基础上加入Hash机制,从而在明显提高查找速度的同时,降低了构造和维护词典的复杂度.
关键词
PATRICIA树
汉语
自动
分词
分词
词典
机制
Keywords
PATRICIA tree
Chinese
automatic word segmentation
dictionary mechanism
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉语自动分词新思维:无词典切分
被引量:
2
4
作者
文庭孝
侯经川
邱均平
张洋
机构
湘潭大学管理学院
武汉大学信息管理学院
武汉大学中国科学研究评价中心
出处
《情报杂志》
CSSCI
北大核心
2005年第2期2-4,共3页
基金
国家人文社会科学重点研究基地重大项目<文献计量与内容分析的综合研究>(编号 :0 2JAZJD870 0 0 3)研究成果之一。
文摘
汉语自动分词与中华民族文化复兴紧密相联 ,但汉语自动分词又是目前中文信息处理中的难题。通过分析现有汉语词自动分词方法及其局限性、汉语词自动分词中存在的困难、汉语同西方语言和日语的差别 ,认为传统汉语文本具有不可自动切分性 ,从汉语自动分词的成本、影响和汉语言发展的前途出发 ,必须对传统汉语文本进行改革。提出了一种新的自动分词思维 :“无词典切分” ,即改变汉语书写习惯 ,在汉语文本生成时在汉语词之间增加分隔信息 ,使汉语适于计算机自动处理。
关键词
汉语
自动
分词
汉语
文本
中文信息处理
计算机
自动
切分
自动
处理
词典
加分
书写习惯
难题
分类号
G254.361 [文化科学—图书馆学]
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种中文分词词典新机制——双字哈希机制
被引量:
108
5
作者
李庆虎
陈玉健
孙家广
机构
清华大学计算机系
出处
《中文信息学报》
CSCD
北大核心
2003年第4期13-18,共6页
基金
教育部专项基金资助项目 (2 0 0 1BA10 1A12 - 0 2 )
973计划资助 (2 0 0 2CB312 0 0 6 )
文摘
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。
关键词
汉语
自动
分词
汉语
信息处理
分词
词典
机制
双字哈希
机制
分词
速度
分词
效率
Keywords
computer application
Chinese information processing
Chinese word segmentation
dictionary mechanism
double character hash indexing
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种面向中文信息检索的汉语自动分词方法
被引量:
7
6
作者
孙巍
机构
黑龙江大学信息管理学院
出处
《现代图书情报技术》
CSSCI
北大核心
2006年第7期33-36,共4页
文摘
阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。
关键词
中文信息检索
汉语
自动
分词
词典
互联网
正反向最大增字匹配法
Keywords
Chinese information retrieval Chinese automatic word segmentation Dictionary
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉语自动分词和自动标引方法研究
被引量:
4
7
作者
苏武华
机构
中国科技信息研究所
出处
《农业图书情报学刊》
2004年第7期103-105,共3页
文摘
中文自动标引一直是学界研究的热点。本文主要研究了两个方面 :自动分词方法和自动标引方法。通过全面的比较研究 ,本文认为自动分词方法可以分为五个类型 ,自动标引的方法分为七种。
关键词
汉语
分词
自动
分词
自动
标引
字符串匹配
专家系统
词典
标引法
词频统计
语义分析
Keywords
automatic separation of terms
automatic indexing
分类号
G254 [文化科学—图书馆学]
下载PDF
职称材料
题名
一种汉语自动分词标引方法──统计分析法
被引量:
4
8
作者
龙泽云
邓钦和
机构
广西省科技情报所
出处
《现代图书情报技术》
1987年第3期11-13,7,共4页
关键词
加词
标引方法
汉语
自动
分词
无标引
汉字串
统计分析法
汉语
词汇
关键词表
词典
分词
白数
分类号
G25 [文化科学—图书馆学]
G35 [文化科学—情报学]
下载PDF
职称材料
题名
一种高效的个性化中文分词词典
被引量:
1
9
作者
刘珂
任翔
机构
泰山学院物理与电子科学系
重庆大学计算机学院
出处
《泰山学院学报》
2007年第6期91-95,共5页
基金
高等学校博士学科点专项科研基金资助课题(20030611016)
文摘
Web个性化服务的核心技术之一是准确描述用户兴趣的用户模型,通过用户行为来挖掘用户兴趣是这一领域研究的重要手段.该文为了对Web个性化服务中用户浏览文档进行分析研究,采用了一种新型的个性化分词词典,通过实验证明是切实可行的,并且极大提高了系统的效率.
关键词
中文信息处理
汉语自动分词词典机制
个性化
Keywords
Chinese information processing
dictionary mechanism for Chinese word segmentation
personaliza-tion
分类号
TP319 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
单数组全映射分词词典
被引量:
4
10
作者
魏进
常朝稳
机构
解放军信息工程大学电子技术学院
出处
《计算机工程与应用》
CSCD
北大核心
2007年第23期184-186,共3页
基金
公安部金盾工程资助项目
文摘
通过研究和分析目前几种典型的分词词典机制:整词二分、TRIE索引树、逐字二分及双字哈希,提出并实现了新的单数组全映射(SAFM)分词词典。该词典具有构造简单,分词速度快,占用空间小的优点。
关键词
中文信息处理
汉语
自动
分词
汉语自动分词词典机制
单数组全映射
Keywords
Chinese information processing
Chinese word segmentation
dictionary mechanism for Chinese word segmentation
single array full mapping
分类号
TP311.1 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
汉语分词有向图的快速生成算法
被引量:
6
11
作者
李大农
董慧
机构
武汉大学信息资源研究中心
出处
《情报学报》
CSSCI
北大核心
2004年第1期36-39,共4页
文摘
给出了一种汉语分词有向图的快速生成算法。所构造的有向图可以作为机械分词、消除歧义以及进一步分析句子的基础。
关键词
汉语
分词
构词关系
有向图
算法
自动
分词
分词
词典
数据结构
中文处理
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
自动分词中未登录词问题的一揽子解决方案
被引量:
26
12
作者
陈小荷
机构
北京语言文化大学
出处
《语言文字应用》
CSSCI
北大核心
1999年第3期103-109,共7页
文摘
确定未登录词边界是汉语自动分析中特有的一个问题,未登录词的种类和数量之多,是处理大规模真实文本的严重障碍。本文分析了现有的解决未登录词问题的各种方案,提出两趟分词、在“分词碎片”中计算单字成词概率和未登录词概率的一揽子解决方案,并报告一个初步的、令人鼓舞的开放测试结果。
关键词
未登录词
汉语
自动
分词
单字词
共现概率
计算语言学
语料库
一揽子解决方案
《现代
汉语
词典
》
词性标注
最大匹配法
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于小字符集的藏文自动分词技术研究
被引量:
3
13
作者
才华
机构
西藏大学图书馆和现代教育技术中心
出处
《西藏大学学报(社会科学版)》
CSSCI
2013年第5期43-47,共5页
基金
2013年度西藏大学青年科研培育基金项目"Unicode藏文分词相关技术研究"阶段性成果
项目号:ZDPJZK201314
文摘
文章针对传统藏文分词的切词难点及切分歧义现象,提出一种基于小字符集的藏文自动分词技术方案。其中包括分词预处理、多级Hash词典机制、藏文格助词紧缩格的判别及还原规则、逐字匹配算法和未登录词的处理等内容。
关键词
藏文
自动
分词
分块预处理
多级Hash
词典
机制
藏文紧缩格
逐字匹配算法
Keywords
Tibetan word segmentation
segmentation pretreatment
Multi-level Hash dictionary mechanism
case particle
verbatim matching algorithm
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉语文本自动处理之管见
14
作者
张国跃
王燕莉
机构
新乡师专图书馆
出处
《新乡学院学报(社会科学版)》
1998年第4期95-96,共2页
文摘
汉字是世界上使用人数最多的文字。然而由于汉语与英语等西语比较有着独自的特点,这为汉语文献的自动处理带来了困难。如①汉语的字与词没有明显的界限,汉字是组成词或词组的最小单位,单独的汉字也可能是一个词。②一个方块字是一个书写单元,字与字之间有一致的间隔,但词与词之间却无明显的分隔符号,而是彼此连续排列,直到一句话结束有了标点符号为止。③汉语中的词没有固定的词头、词尾和性、数、格变化等的分词标志。这些特点导致了汉语文献自动处理的复杂性,因而汉语自动分词一直是一个难题。近几年来,尽管有不少研究者提出了自动分词的方案,但都不能令人满意。借助于词典法的切分,显然受学科专业的限制;部件词的切分方法,也往往很难照顾全面。
关键词
文本
自动
处理
专业
词典
文献资料
学科专业
汉语
文献
汉语
自动
分词
主题法
计算机
分类法
师专图书馆
分类号
G255 [文化科学—图书馆学]
全文增补中
题名
词典工作的科学化期待理想的计算机软件
被引量:
3
15
作者
程荣
机构
语文出版社
出处
《辞书研究》
CSSCI
1997年第5期48-56,共9页
关键词
语料库
计算机编辑系统
词典
编纂者
现代
汉语
词典
语文
词典
相关条目
自动
分词
词频统计
释义
排版系统
分类号
TP399 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
关于书面汉语中词链问题的分析和处理
16
作者
黄祥喜
机构
吉林大学
出处
《情报科学》
1988年第5期28-35,共8页
文摘
本文给出了词链的形式定义,分析了词链产生的原因,对词链的可切分性作了系统研究。
关键词
自动
分词
汉字串
语言文本
文本切分
分解
分词
法
成词
汉语
语言理解
词典
书面
汉语
分类号
G350 [文化科学—情报学]
G25 [文化科学—图书馆学]
下载PDF
职称材料
题名
因特网经济学未登录词计算机辅助挖掘试验
被引量:
2
17
作者
罗宇辉
侯汉清
机构
南京农业大学工学院
南京农业大学信息管理系
出处
《情报理论与实践》
CSSCI
北大核心
2005年第5期478-481,共4页
文摘
近年来随着社会经济科技和因特网的迅速发展,文献中不断涌现出大量未登录词。未登录词的存在严重影响了汉语自动分词与自动标引的准确率和速率。本文对1000篇经济类网页的关键部位———题名、摘要、关键词、首段进行未登录词挖掘试验,侧重对未登录词挖掘步骤设计和处理方法的讨论。
关键词
经济学
数据挖掘
自动
标引/关键词
词典
未登录词
因特网
计算机辅助
登录
挖掘
试验
汉语
自动
分词
Keywords
economics
data mining
automatic indexing / keyword dictionary
unlisted words
分类号
G354 [文化科学—情报学]
下载PDF
职称材料
题名
数据处理、信息处理
18
出处
《电子科技文摘》
2000年第6期116-116,共1页
文摘
0010375一个实用的汉语分词词库自动扩充系统〔刊〕/戴忠健//现代电子工程.—1999,(4).—62~64(L)本文介绍一个实用的微机汉语分词词库自动扩充系统。在进行汉语自动分词的同时,将出现频度较高的新词,扩充刭词库中去。既完成了汉语分词,又生成了电子词典,为中文信息的语音合成技术提供了重要的支持。
关键词
汉语
分词
数据处理
信息处理
扩充系统
汉语
自动
分词
现代电子工程
语音合成技术
电子
词典
词库
中文信息
分类号
TN [电子电信]
原文传递
题名
作者
出处
发文年
被引量
操作
1
汉语自动分词词典机制的实验研究
孙茂松
左正平
黄昌宁
《中文信息学报》
CSCD
北大核心
2000
118
下载PDF
职称材料
2
基于二字词位图表的汉语自动分词词典机制
蒋斌
杨超
赵欢
《湖南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2006
3
下载PDF
职称材料
3
一种改进的基于PATRICIA树的汉语自动分词词典机制
马哲
姚敏
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2004
3
下载PDF
职称材料
4
汉语自动分词新思维:无词典切分
文庭孝
侯经川
邱均平
张洋
《情报杂志》
CSSCI
北大核心
2005
2
下载PDF
职称材料
5
一种中文分词词典新机制——双字哈希机制
李庆虎
陈玉健
孙家广
《中文信息学报》
CSCD
北大核心
2003
108
下载PDF
职称材料
6
一种面向中文信息检索的汉语自动分词方法
孙巍
《现代图书情报技术》
CSSCI
北大核心
2006
7
下载PDF
职称材料
7
汉语自动分词和自动标引方法研究
苏武华
《农业图书情报学刊》
2004
4
下载PDF
职称材料
8
一种汉语自动分词标引方法──统计分析法
龙泽云
邓钦和
《现代图书情报技术》
1987
4
下载PDF
职称材料
9
一种高效的个性化中文分词词典
刘珂
任翔
《泰山学院学报》
2007
1
下载PDF
职称材料
10
单数组全映射分词词典
魏进
常朝稳
《计算机工程与应用》
CSCD
北大核心
2007
4
下载PDF
职称材料
11
汉语分词有向图的快速生成算法
李大农
董慧
《情报学报》
CSSCI
北大核心
2004
6
下载PDF
职称材料
12
自动分词中未登录词问题的一揽子解决方案
陈小荷
《语言文字应用》
CSSCI
北大核心
1999
26
下载PDF
职称材料
13
基于小字符集的藏文自动分词技术研究
才华
《西藏大学学报(社会科学版)》
CSSCI
2013
3
下载PDF
职称材料
14
汉语文本自动处理之管见
张国跃
王燕莉
《新乡学院学报(社会科学版)》
1998
0
全文增补中
15
词典工作的科学化期待理想的计算机软件
程荣
《辞书研究》
CSSCI
1997
3
下载PDF
职称材料
16
关于书面汉语中词链问题的分析和处理
黄祥喜
《情报科学》
1988
0
下载PDF
职称材料
17
因特网经济学未登录词计算机辅助挖掘试验
罗宇辉
侯汉清
《情报理论与实践》
CSSCI
北大核心
2005
2
下载PDF
职称材料
18
数据处理、信息处理
《电子科技文摘》
2000
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部