-
题名基于语料库的字母词语自动提取研究
被引量:10
- 1
-
-
作者
郑泽之
张普
杨建国
-
机构
太原师范学院计算机系
北京语言大学dcc博士研究室
-
出处
《中文信息学报》
CSCD
北大核心
2005年第2期78-85,共8页
-
基金
"国家语言资源监测与研究中心"项目资助 (0 4L2 0 0 4 - 0 1- 0 1- 0 3)
-
文摘
目前 ,很多最新的术语和专有名词 ,首先以字母词语的形式出现在汉语中 ,并日益广泛应用。而字母词语多数是汉语自动分词中的未登录词 ,其正确识别 ,将有助于提高中文分词、信息检索、搜索引擎、机器翻译等应用软件的质量。本文在对字母词语进行先期考察的基础上 ,分析了字母词语组成情况的复杂特征和自动识别的难点 ,结合字母词语的各种统计特征和其独有的特点———字母串“锚点” ,提出了从中心往两边扩展的规则加统计辅助的字母词语自动提取的算法。并且对字母词语的双语同现问题进行了处理。算法简单 ,但有效。召回率为 10 0 % ,准确率在 80 %以上。
-
关键词
人工智能
自然语言处理
字母词语
自动提取
-
Keywords
artificial intelligence
natural language processing
lettered-word
automatic extracting
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语文本中字母词语的使用与规范探讨
被引量:21
- 2
-
-
作者
杨建国
郑泽之
-
机构
北京语言大学dcc博士研究室
太原师范学院计算机系
-
出处
《语言文字应用》
CSSCI
北大核心
2005年第1期88-94,共7页
-
文摘
本文基于2002年《人民日报》的语料,对计算机自动提取出的字母词语块进行了考察分析;文章重点考察了字母词语和对应汉字词语或汉字词语和对应字母词语在专名中同现的情形,并就如何规范字母词语提出了两点思考。
-
关键词
字母词语
汉字词语
规范
专名
-
Keywords
Lettered words and phrases
Chinese word
Normalization
proper nouns
-
分类号
H102
[语言文字—汉语]
-
-
题名字母词语块中“标点”的使用状况考察
被引量:11
- 3
-
-
作者
关润芝
杨建国
-
机构
北京语言大学dcc博士研究室
-
出处
《语言文字应用》
CSSCI
北大核心
2005年第1期82-87,共6页
-
文摘
本文对约2600万字的2002年《人民日报》语料库进行了字母词语块机器自动提取和人工后校对,然后利用程序提取出所有带标点字母词语块。文章主要对带标点字母词语块的自身特征和字母词语块中标点的出现情况进行分析,目的是为字母词语块的规范和字母词语块自动识别和提取提供相关统计数据作参考。
-
关键词
字母词语块
标点
自动提取
-
Keywords
Chinese lettered chunk
interpunction
auto-extraction
-
分类号
H08
[语言文字—语言学]
-