期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
无词典抽词的RMMFS和BMMFS方法及其比较研究 被引量:5
1
作者 姜韶华 党延忠 宣照国 《情报学报》 CSSCI 北大核心 2006年第4期499-503,共5页
针对作为中文信息处理基础的抽词问题,本文在作者提出的正向串频最大匹配法(MMFS)的基础上,提出了逆向串频最大匹配法(RMMFS)及双向串频最大匹配法(BMMFS).这两种方法分别采用逆向和双向长串优先与串频统计的思路,并引进规则和支... 针对作为中文信息处理基础的抽词问题,本文在作者提出的正向串频最大匹配法(MMFS)的基础上,提出了逆向串频最大匹配法(RMMFS)及双向串频最大匹配法(BMMFS).这两种方法分别采用逆向和双向长串优先与串频统计的思路,并引进规则和支持度指标筛选,不需要词典,不需要事先进行语料库学习,不需要建立字索引,通过串匹配获取中文文本中的汉字共现模式,实时地抽取出包含专业术语及专有名词等未登录词在内的专指语义串、短语和词.实验研究了抽词准确率受规则的影响及随文本大小和词频变化的分布,结果表明BMMFS可以取得更好的抽词效果. 展开更多
关键词 逆向串频最大匹配 双向串频最大匹配 自动抽词 汉字共现模式
下载PDF
基于搜索引擎的模糊字频统计 被引量:2
2
作者 李世明 李铮 +2 位作者 苑志伟 尤枫 赵恒永 《计算机工程与设计》 CSCD 北大核心 2010年第2期443-446,共4页
针对传统字频统计方法周期长、代价高的弱点,提出了一种利用互联网内容并借助搜索引擎检索进行汉字模糊字频统计的全新方法,有效利用了网络时代的相关技术和发展成果,在一定程度上缓解了字频统计需求频繁的和传统统计方法的低效且代价... 针对传统字频统计方法周期长、代价高的弱点,提出了一种利用互联网内容并借助搜索引擎检索进行汉字模糊字频统计的全新方法,有效利用了网络时代的相关技术和发展成果,在一定程度上缓解了字频统计需求频繁的和传统统计方法的低效且代价高昂之间的矛盾,同时对该方法进行了实例化的分析、验证和改进。 展开更多
关键词 中文信息处理 模糊字频统计 搜索引擎 互联网 汉字字频
下载PDF
数理统计方法在汉字规范中的应用 被引量:4
3
作者 周晓文 王晓明 《语言文字应用》 CSSCI 北大核心 2008年第2期16-22,共7页
常用字字量问题是汉字规范首先要解决的问题之一。本文探讨在不同条件下确定的不同字表,是否可以用统计学的假设检验方法,对这些字表的出现概率进行比较,以字表在实际应用中概率的高低来评价其应用效果的大小。经过实际运算,得出了调整... 常用字字量问题是汉字规范首先要解决的问题之一。本文探讨在不同条件下确定的不同字表,是否可以用统计学的假设检验方法,对这些字表的出现概率进行比较,以字表在实际应用中概率的高低来评价其应用效果的大小。经过实际运算,得出了调整后的《规范汉字表》常用字表在应用中的概率高于原3500常用字表的结论。由此证明《规范汉字表》确定的常用字表是合理的、优化的。 展开更多
关键词 常用字 规范汉字表 累积频率 统计方法
下载PDF
从四种汉字频度的比较看汉字的性质 被引量:5
4
作者 司玉英 《内蒙古大学学报(哲学社会科学版)》 CSSCI 北大核心 2006年第3期104-109,共6页
汉字是语素文字。语素文字的性质决定了汉字体系的基本特征:字种数量庞大且不确定。由于字种和语素相关,语素和意义相关,任何字频统计结果都只能反映汉语用字的一般状态或基本状态,并带有一定的倾向性,哪些字常用,哪些字不常用,与字频... 汉字是语素文字。语素文字的性质决定了汉字体系的基本特征:字种数量庞大且不确定。由于字种和语素相关,语素和意义相关,任何字频统计结果都只能反映汉语用字的一般状态或基本状态,并带有一定的倾向性,哪些字常用,哪些字不常用,与字频统计所选择的语料内容密切相关,相同内容的语料又与时代背景密切相关;虽然汉字总体数量庞大,但常用字种只有几千。常用字种所记录的语素,都具有很强的构词能力,是构成汉语基本词汇的基础,也是创造新词的中坚,能够满足现代汉语的基本需求(累积频率达到99%)。 展开更多
关键词 汉字 语素文字 字频统计 语料 字种
下载PDF
字频统计在书目数据整理中的应用——以民国时期图书目录数据整理为例
5
作者 龙向洋 《中国索引》 2016年第1期88-99,共12页
本文以民国时期图书目录数据整理为例,讨论书目数据库数据文本整理过程中字频统计方法的应用问题。通过在数据库内部为目录字段创建以汉字字形为单位的单字索引表,统计书目数据文本实际使用汉字频率分布情况,在此基础上进行异形字归... 本文以民国时期图书目录数据整理为例,讨论书目数据库数据文本整理过程中字频统计方法的应用问题。通过在数据库内部为目录字段创建以汉字字形为单位的单字索引表,统计书目数据文本实际使用汉字频率分布情况,在此基础上进行异形字归并整理,最后通过索引关联实现书目数据文本字形的统一。数据库支持下的字频统计,可以作为书目数据文本整理的一种有效的方法。 展开更多
关键词 民国文献 书目数据 字频统计
下载PDF
关于常用字覆盖率统计算法的研究
6
作者 阿不都克里木·玉素甫 杨琴 王亮亮 《计算机技术与发展》 2020年第5期201-205,210,共6页
对常用字在教育资源电子文本中的覆盖率、使用率、字频统计算法进行了研究,并根据算法通过计算机语言开发常用字覆盖率统计分析系统。统计分析系统可以对文本中所使用的常用字进行统计分析,即可以统计常用字覆盖率、文本汉字数、常用字... 对常用字在教育资源电子文本中的覆盖率、使用率、字频统计算法进行了研究,并根据算法通过计算机语言开发常用字覆盖率统计分析系统。统计分析系统可以对文本中所使用的常用字进行统计分析,即可以统计常用字覆盖率、文本汉字数、常用字字频、常用字使用率等,并根据统计数据以饼形图的方式显示。为了了解常用字在文本中的覆盖率和使用情况,通过常用字覆盖率统计分析系统对一些电子文本进行了统计分析,并得出相应的结果。结果表明常用字在文本中的覆盖率和使用率相当高,即581个常用字在文本中的覆盖率平均在68.9%以上,1 000个常用字在文本中的覆盖率平均在81.4%以上,2 500个常用字在文本中的覆盖率平均在96%以上,并且常用字在不同统计对象文本中的使用频度也会有所不同。 展开更多
关键词 常用字 统计算法 覆盖率统计 使用率统计 字频统计
下载PDF
汉语普通话常用字、音节和音位的统计分析
7
作者 解林清 方华萍 金雅声 《西北民族大学学报(自然科学版)》 2012年第3期35-39,共5页
文章运用音系学、语音学及统计学的基本原理,对封闭空间内的汉语普通话2 500个常用字的音位系统进行不同层级的具体研究,包括字频次、音节频次和音位频次三方面的统计和分析.通过研究发现:①2 500常用字在字频次的分布上还是存在着明显... 文章运用音系学、语音学及统计学的基本原理,对封闭空间内的汉语普通话2 500个常用字的音位系统进行不同层级的具体研究,包括字频次、音节频次和音位频次三方面的统计和分析.通过研究发现:①2 500常用字在字频次的分布上还是存在着明显的差异.②同音字个数与其总频次呈反比关系.③不送气音声母、单元音韵母和去声51在音节中的组合能力属最强. 展开更多
关键词 常用字 频次 音位系统 统计研究
下载PDF
同音字“频度语音差异优势说”研究——基于现代汉语常用汉字的字频统计分析 被引量:1
8
作者 董国华 《北部湾大学学报》 2020年第7期71-80,共10页
同音字数量众多是汉字的一大特点,在3000个常用字中的同音率高达65.19%,这无疑给汉字的日常使用和信息化处理带来困扰。影响汉字使用频度(字频)的因素复杂多样,在读音不同的同义字组中,同音字数少的字理论上会比同音字数多的字使用频度... 同音字数量众多是汉字的一大特点,在3000个常用字中的同音率高达65.19%,这无疑给汉字的日常使用和信息化处理带来困扰。影响汉字使用频度(字频)的因素复杂多样,在读音不同的同义字组中,同音字数少的字理论上会比同音字数多的字使用频度更高,可简称为"频度语音差异优势说"。在3000个常用汉字中随机挑选36组同义字组,通过统计字组的同音字个数,分析其在1925年、1946年、1989年和1992年的四个重要常用字表的位次变化,有18组字组的字频变化符合这一现象,比例占50%。研究表明,同义字组中的单字同音字数是影响字频的重要因素,同音字数量较少的字使用频率呈现逐渐增加的趋势,字频的变化也受到语体色彩、方言差异和使用习惯等因素的综合影响。 展开更多
关键词 同音字 同义字组 常用汉字 字频 统计分析
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部