-
题名基于N-最短路径方法的中文词语粗分模型
被引量:99
- 1
-
-
作者
张华平
刘群
-
机构
中国科学院计算技术研究所软件实验室
-
出处
《中文信息学报》
CSCD
北大核心
2002年第5期1-7,共7页
-
基金
国家重点基础研究项目(G1998030507-4
G1998030510).
-
文摘
预处理过程的词语粗切分,是整个中文词语分析的基础环节,对最终的召回率、准确率、运行效率起着重要的作用。词语粗分必须能为后续的过程提供少量的、高召回率的、中间结果。本文提出了一种基于N-最短路径方法的粗分模型,旨在兼顾高召回率和高效率。在此基础上,引入了词频的统计数据,对原有模型进行改进,建立了更实用的统计模型。针对人民日报一个月的语料库(共计185,192个句子),作者进行了粗分实验。按句子进行统计,2-最短路径非统计粗分模型的召回率为99.73%;在10-最短路径统计粗分模型中,平均6.12个粗分结果得到的召回率高达99.94%,比最大匹配方法高出15%,比以前最好的切词方法至少高出6.4%。而粗分结果数的平均值较全切分减少了64倍。实验结果表明:N-最短路径方法是一种预处理过程中实用、有效的的词语粗分手段。
-
关键词
n-最短路径方法
中文词语粗分模型
中文词语分析
预处理
统计模型
中文信息处理
-
Keywords
n-shortest paths method
words rough segmentation
Chinese lexical analysis
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名基于N-最短路径的中文分词技术研究
被引量:5
- 2
-
-
作者
吴晓倩
胡学钢
-
机构
合肥工业大学计算机与信息学院
安徽医学高等专科学校公共卫生与卫生管理系
-
出处
《安徽理工大学学报(自然科学版)》
CAS
2014年第1期72-75,共4页
-
文摘
中文分词技术是中文信息处理的基础,快速、准确的中文分词方法是进行中文信息搜索的关键。基于N-最短路径的分词算法,需要计算有向图中从起点到终点的所有路径值,分词效率低,将动态删除算法与最短路径算法结合,通过从最短路径中删除部分节点的策略减少搜索路径范围,从而提高分词效率。
-
关键词
信息处理
中文分词
n-最短路径
删除算法
-
Keywords
information processing
Chinese word segmentation
n-shortest path
deletion algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于最短路径算法的舰船通道逃逸路线研究
被引量:13
- 3
-
-
作者
余为波
吴晓光
王涛
陈立
周巍
-
机构
中国舰船研究设计中心
-
出处
《中国舰船研究》
2008年第2期16-20,共5页
-
文摘
当舰船发生灾变时,正确的疏散指挥是避免和减少人员伤亡的关键,而选择合理的逃逸路线又是正确指挥的前提。在N-最短路径的模型基础上,讨论了逃逸路线的可行性以及道路权重的计算;然后根据舰船的实际情况建立简易模型,讨论两点之间前N条最短逃逸路径的求法。对结果进行了分析并提出进一步开展优化的设想。
-
关键词
舰船通道
逃逸路线
路线选择
n-最短路径算法
当量长度
图论
-
Keywords
ship passage
escape route
route selection
n-shortest paths algorithm
equivalent length
graph theory
-
分类号
U676.8
[交通运输工程—船舶及航道工程]
-
-
题名中文分词及词性标注一体化模型研究
被引量:10
- 4
-
-
作者
佟晓筠
宋国龙
刘强
张俐
姜伟
-
机构
哈尔滨工业大学(威海)计算机科学与技术学院
东北大学信息科学与工程学院
辽东学院计算中心
-
出处
《计算机科学》
CSCD
北大核心
2007年第9期174-175,212,共3页
-
基金
2002年山东省科技发展计划项目基金资助(项目号:2002-276-022090104)
-
文摘
本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自动分词和词性自动标注一体化处理的中文词法分析器。初步的开放测试证明,该分析器的分词准确率和词性标注准确率分别达到98.1%和95.07%。
-
关键词
中文分词
词性标注
n-最短路径法
-
Keywords
Chinese word segmentation, Part-of-speech tagging, n-shortest paths method
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于内容主题的语料库系统设计与实现
被引量:15
- 5
-
-
作者
李文翔
晏蒲柳
夏德麟
-
机构
武汉大学
-
出处
《计算机应用研究》
CSCD
北大核心
2004年第10期149-151,共3页
-
基金
国家自然科学基金
-
文摘
介绍了笔者开发制作的汉语语料库系统的特点、功能,以及系统的设计思想和总体框架.系统以2001年<人民日报>电子文本为生语料,实现了KWIC索引、词表生成、词语搭配分析和分类主题词提取等功能,能够为网络信息挖掘和自然语言处理研究提供丰富而真实的语言环境.
-
关键词
语料库
KWIC索引
n-最短路径
主题词
词语搭配
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于隐马尔科夫模型的中文分词研究
被引量:13
- 6
-
-
作者
魏晓宁
-
机构
南通大学计算机科学与技术学院
-
出处
《电脑知识与技术》
2007年第11期885-886,共2页
-
文摘
一直以来,汉语自动分词是公认的汉语信息处理瓶颈。反思现有汉语自动分词技术,发现均有隐舍两大假设:语言是规律的、词具有确定边界?这与语言的复杂性、组合性、动态性、模糊性特征不符。本文采用一种基于隐马尔科夫模型(HMM)的算法.通过CHMM(层叠形马尔科夫模型)进行分词,再做分层,既增加了分词的;隹确性,又保证了分词的效率。
-
关键词
自动分词
隐马尔科夫模型(HMM)
n-最短路径粗切分
统计模型
-
Keywords
Automation participle
Hidden Markov Model(HMM)
Most fault route segments n-roughly
Count a model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-