-
题名综合最大匹配和歧义检测的中文分词粗分方法
被引量:3
- 1
-
-
作者
李国和
刘光胜
秦波波
吴卫江
李洪奇
-
机构
中国石油大学地球物理与信息工程学院
中国石油大学(北京)油气资源与探测国家重点实验室
石大兆信数字身份管理与物联网技术研究院
-
出处
《计算机工程与应用》
CSCD
2012年第14期139-142,167,共5页
-
基金
国家自然科学基金(No.60473125)
国家高新技术研究发展计划(No.2009AA062802)
+1 种基金
中国石油(CNPC)石油科技中青年创新基金(No.05E7013)
国家重大专项子课题(No.G5800-08-ZS-WX)
-
文摘
中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好的效果。
-
关键词
中文分词
粗分
最大匹配算法
全切分算法
歧义检测
-
Keywords
Chinese word segmentation
rough segmentation
maximum match algorithm
omni-segmentation algorithm
ambiguity detection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于最大匹配和歧义检测的中文分词粗分方法
被引量:1
- 2
-
-
作者
李国和
刘光胜
吴卫江
孙红军
唐先明
韩宝东
-
机构
中国石油大学地球物理与信息工程学院
中国石油大学(北京)油气资源与探测国家重点实验室
中国石油化工股份有限公司石油勘探开发研究院信息所
-
出处
《北京信息科技大学学报(自然科学版)》
2010年第S2期84-88,共5页
-
基金
国家自然科学基金(60473125)
中国石油(CNPC)石油科技中青年创新基金(5E7013)
国家重大专项子课题(G5800-08-ZS-WX)
-
文摘
中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好效果。
-
关键词
中文分词
粗分
最大匹配算法
全切分算法
歧义检测
-
Keywords
Chinese word segmentation
rough segmentation
maximum match algorithm
omni-segmentation algorithm
ambiguity detection
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-