-
题名运用改进的分词方法进行外国译名识别的研究
被引量:4
- 1
-
-
作者
方华
王振华
陆汝占
刘绍明
-
机构
上海交通大学计算机科学与工程系
日本富士施乐公司
-
出处
《计算机仿真》
CSCD
2005年第3期217-220,共4页
-
文摘
该文首先介绍了基于词典的分词算法的语言模型和一种基于词典分词算法:最大词频分词法。分析了基于词典的分词算法的语言模型,指出其无法处理未登录词的原因。针对此原因,提出了引入动态词典的方法,将最大词频分词算法和局部频率法相结合以解决未登录词中译名识别的问题。最后,给出了一个系统实现。
-
关键词
咱然语言处理
分词
译名
最大词频分词算法
-
Keywords
Nature language process
segmentation
Transliterated name
maxim word frequency segment algorithm.
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-
-
题名高频最大交集型歧义切分字段在汉语自动分词中的作用
被引量:51
- 2
-
-
作者
孙茂松
左正平
邹嘉彦
-
机构
清华大学智能技术与系统国家重点实验室
香港城市大学语言资讯科学研究中心
-
出处
《中文信息学报》
CSCD
北大核心
1999年第1期27-34,共8页
-
基金
国家自然科学基金
-
文摘
交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20%,且覆盖率受领域变化的影响不大。而其中4,279个为伪歧义型,覆盖率高达53.35%。根据以上分析,我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。
-
关键词
中文信息处理
汉语自动分词
歧义切分字段
-
Keywords
Chinese information processing Chinese word segmentation maximal crossing ambiguities with high frequency memory based disambiguation strategy
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于专业术语提取的中文分词方法
被引量:1
- 3
-
-
作者
郑阳
莫建文
-
机构
桂林电子科技大学
-
出处
《大众科技》
2012年第4期20-23,共4页
-
基金
广西自然科学基金(2011GXNSFA018158)
广西科技开发项目(桂科攻11107006-45)
-
文摘
针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。
-
关键词
专业术语
互信息
未登录词
正向最大匹配
中文分词
-
Keywords
professional term
mutual information
Out-of-Vocabulary
positive maximal matching algorithm
chinese word segmentation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词频统计的蛋白质交互关系识别
被引量:3
- 4
-
-
作者
蔡松成
牛耘
-
机构
南京航空航天大学计算机科学与技术学院
-
出处
《计算机技术与发展》
2019年第2期65-68,72,共5页
-
基金
国家自然科学基金(61202132)
-
文摘
目前,基于远监督的蛋白质交互关系抽取方法通过将知识库中的实体对与文本中的实体进行匹配来产生大规模的训练数据,有效地解决了标注数据不足的问题。在基于最大期望算法的蛋白质交互识别的基础上,提出了一种基于词频统计的蛋白质交互关系识别。该方法对每一个蛋白质对签名档进行处理,取出两个目标蛋白质中间的单词;然后对其进行词性标注,只保留名词和动词,同时进行词干提取;最终得到每个蛋白质对签名档下的词频统计。利用得到的词频信息设定阈值来获取签名档的高频词,改进最大期望算法的初始化过程。实验结果表明,通过加入高频词信息的干预来进一步获取句子的类别作为初始值较原始的基于最大期望算法的模型,取得了更高且均衡的精确度和召回率,对目前基于远监督的蛋白质交互关系识别方法进行了明显的改进。
-
关键词
远监督
蛋白质交互
最大期望算法
词频统计
-
Keywords
distant supervision
protein-protein interaction
expectation maximization algorithm
word frequency count
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-