期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于语料库的字母词语自动提取研究 被引量:10
1
作者 郑泽之 张普 杨建国 《中文信息学报》 CSCD 北大核心 2005年第2期78-85,共8页
目前 ,很多最新的术语和专有名词 ,首先以字母词语的形式出现在汉语中 ,并日益广泛应用。而字母词语多数是汉语自动分词中的未登录词 ,其正确识别 ,将有助于提高中文分词、信息检索、搜索引擎、机器翻译等应用软件的质量。本文在对字母... 目前 ,很多最新的术语和专有名词 ,首先以字母词语的形式出现在汉语中 ,并日益广泛应用。而字母词语多数是汉语自动分词中的未登录词 ,其正确识别 ,将有助于提高中文分词、信息检索、搜索引擎、机器翻译等应用软件的质量。本文在对字母词语进行先期考察的基础上 ,分析了字母词语组成情况的复杂特征和自动识别的难点 ,结合字母词语的各种统计特征和其独有的特点———字母串“锚点” ,提出了从中心往两边扩展的规则加统计辅助的字母词语自动提取的算法。并且对字母词语的双语同现问题进行了处理。算法简单 ,但有效。召回率为 10 0 % ,准确率在 80 %以上。 展开更多
关键词 人工智能 自然语言处理 字母词语 自动提取
下载PDF
汉语文本中字母词语的使用与规范探讨 被引量:21
2
作者 杨建国 郑泽之 《语言文字应用》 CSSCI 北大核心 2005年第1期88-94,共7页
本文基于2002年《人民日报》的语料,对计算机自动提取出的字母词语块进行了考察分析;文章重点考察了字母词语和对应汉字词语或汉字词语和对应字母词语在专名中同现的情形,并就如何规范字母词语提出了两点思考。
关键词 字母词语 汉字词语 规范 专名
下载PDF
字母词语块中“标点”的使用状况考察 被引量:11
3
作者 关润芝 杨建国 《语言文字应用》 CSSCI 北大核心 2005年第1期82-87,共6页
本文对约2600万字的2002年《人民日报》语料库进行了字母词语块机器自动提取和人工后校对,然后利用程序提取出所有带标点字母词语块。文章主要对带标点字母词语块的自身特征和字母词语块中标点的出现情况进行分析,目的是为字母词语块的... 本文对约2600万字的2002年《人民日报》语料库进行了字母词语块机器自动提取和人工后校对,然后利用程序提取出所有带标点字母词语块。文章主要对带标点字母词语块的自身特征和字母词语块中标点的出现情况进行分析,目的是为字母词语块的规范和字母词语块自动识别和提取提供相关统计数据作参考。 展开更多
关键词 字母词语块 标点 自动提取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部