-
题名添加冒号和分号分类标签特征的汉语逗号分类
被引量:2
- 1
-
-
作者
李艳翠
谷晶晶
周国栋
-
机构
苏州大学计算机科学与技术学院
河南科技学院信息工程学院
苏州大学自然语言处理实验室
-
出处
《中文信息学报》
CSCD
北大核心
2014年第5期215-222,共8页
-
基金
国家863计划前沿技术研究类项目(2012AA011102)
国家自然科学基金面上项目(61273320)
-
文摘
标点分析在句子和篇章分析中有重要作用,其中逗号的功能分类是标点分析的重点和难点。该文研究添加冒号和分号分类标签为特征的逗号自动分类。首先给出逗号、冒号和分号的分类方法;然后介绍基于此分类方法的逗号、冒号和分号标点分类语料库;最后分别考察添加冒号类别标签、分号类别标签以及同时添加冒号和分号类别标签为特征的逗号分类结果。实验结果表明,三种情况下的逗号分类正确率均有不同程度的提高。
-
关键词
逗号分类
冒号标签
分号标签
篇章分析
-
Keywords
Chinese comma classification
colon labels
semicolon labels
discourse analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名篇章分析中的逗号分类与识别研究
- 2
-
-
作者
储琢佳
-
机构
南京艺术学院
-
出处
《赤峰学院学报(哲学社会科学版)》
2016年第3期225-226,共2页
-
基金
江苏高校哲学社会科学研究基金指导项目"基于句法
语义和语用理念上计算机智能标注的语音标点符号识别研究"(2014SJD152)
-
文摘
标点符号分析对于篇章分析以及自然语言处理技术的发展有着重要作用。汉语中最常用的标点符号是逗号,研究其在句子中的作用、使用方法及自动分类等问题,可以有助于汉语篇章分析,促进中文信息处理的基础研究和应用研究的发展。
-
关键词
标点符号识别
逗号分类
篇章分析
-
分类号
H515
[语言文字]
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于分词与词性标注的汉语逗号自动分类
- 3
-
-
作者
谷晶晶
周国栋
-
机构
苏州大学计算机科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第18期120-125,共6页
-
基金
国家自然科学基金青年项目(No.61202162)
教育部博士点基金项目(No.20123201120011)
-
文摘
近年来,标点符号作为篇章的重要部分逐渐引起研究者的关注。然而,针对汉语逗号的研究才刚刚展开,采用的方法也大多都是在句法分析的基础上,尚不存在利用汉语句子的表层信息开展逗号自动分类的研究。提出了一种基于汉语句子的分词与词性标注信息做逗号自动分类的方法,并采用了两种有监督的机器学习分类器,即最大熵分类器和CRF分类器,来完成逗号的自动分类。在CTB 6.0语料上的实验表明,CRF的总体结果比最大熵的要好,而这两种分类器的分类精度都非常接近基于句法分析方法的分类精度。由此说明,基于词与词性做逗号分类的方法是可行的。
-
关键词
汉语逗号分类
最大熵
条件随机场(CRF)
-
Keywords
Chinese comma classification
maximum entropy
Conditional Random Field(CRF)
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-