期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
一种基于后缀数组的无词典分词方法 被引量:14
1
作者 张长利 赫枫龄 左万利 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2004年第4期548-553,共6页
提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要... 提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要求高的中文信息处理. 展开更多
关键词 无词典分词 数组 文档 散列表 计算速度 算法 中文信息处理 法能 频度 实验
下载PDF
中文生物医学文本无词典分词方法研究 被引量:4
2
作者 王军辉 胡铁军 +2 位作者 李丹亚 钱庆 方安 《情报学报》 CSSCI 北大核心 2011年第2期197-203,共7页
为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取... 为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取两方面对其进行了改进.实验结果表明,该方法可以在不需要词典和语料库学习的情况下,实现对生物医学文本中关键性专业术语的有效抽取,分词准确率约为84.51%.最后,基于本研究中的分词结果,对生物医学领域的词长分布进行了初步探讨,结果表明中文生物医学领域的词长分布与普通汉语文本有非常大的差异.研究结果对在处理中文生物医学文本时N-gram模型中N值的确定具有一定的参考价值. 展开更多
关键词 无词典分词 结构式摘要 生物医学文本
下载PDF
基于重现的无词典分词方法在中文生物医学文本挖掘中的应用 被引量:5
3
作者 王军辉 胡铁军 李丹亚 《医学信息学杂志》 CAS 2009年第2期21-25,共5页
在对文本挖掘和中文分词方法进行概述的基础上,结合中文生物医学文本的特点,提出基于重现的无词典分词方法在构建医学文献相关性数据库、发现医学新名词、预测新兴研究趋势和基于文献的知识发现中的应用设想。
关键词 无词典分词 数据挖掘 文本挖掘 知识发现 文献相关性数据库
下载PDF
基于统计的无词典分词方法 被引量:24
4
作者 傅赛香 袁鼎荣 +1 位作者 黄柏雄 钟智 《广西科学院学报》 2002年第4期252-255,264,共5页
通过分析词的结合模式 ,提出无词典分词模型 ,并对该模型进行实验测试。测试结果表明 。
关键词 分词方法 自动分词 无词典分词 词条过滤 词条统计 中文信息处理
下载PDF
中文文本挖掘中的无词典分词的算法及其应用 被引量:26
5
作者 胥桂仙 苏筱蔚 陈淑艳 《吉林工学院学报(自然科学版)》 2002年第1期16-18,共3页
对中文文本挖掘中的词汇处理技术进行了较深入的探讨 ,提出了针对汉语语言特点的无词典分词算法。该算法基于“找最长字共现”的原则 ,可以准确地将文本中的词汇切分出来。
关键词 文本挖掘 中文分词 无词典分词
下载PDF
基于自然语言网络教学答疑中无词典分词算法的研究
6
作者 高晓梅 杨旭 《西安工程大学学报》 CAS 2009年第3期95-98,共4页
提出了一种面向网络答疑系统的无词典分词方法.该方法用统计的手段从大规模未进行任何切分的领域语料中获取算法所需的参数,并结合一定的规则进行分词.该算法具有自学习的能力,适应性强,只要改变训练所用的语料,就能切分出不同领域的词... 提出了一种面向网络答疑系统的无词典分词方法.该方法用统计的手段从大规模未进行任何切分的领域语料中获取算法所需的参数,并结合一定的规则进行分词.该算法具有自学习的能力,适应性强,只要改变训练所用的语料,就能切分出不同领域的词.实验结果表明,该分词方法有较高的召回率和精度. 展开更多
关键词 领域语料 规则 无词典分词方法
下载PDF
一种改进的基于后缀数组的无词典分词方法
7
作者 刘京城 刘锋 《计算机技术与发展》 2011年第11期49-52,共4页
文中改进了基于后缀数组的无词典分词算法。原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词集,并通过置信度的比较来筛选候选词集以获得分词集。文中改进了其计算候选词出现频率的方法并且大大减... 文中改进了基于后缀数组的无词典分词算法。原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词集,并通过置信度的比较来筛选候选词集以获得分词集。文中改进了其计算候选词出现频率的方法并且大大减少了筛选候选词集时两两判断候选词是否具有父子关系的次数。试验表明,改进的算法能够在没有词典的情况下更快速构建候选词集和筛选候选词集。适用于对词条频度敏感,对计算速度要求较高的中文信息处理。 展开更多
关键词 自动分词 无词典分词 后缀数组
下载PDF
基于数据量的文本分词算法选取的研究
8
作者 王一蕾 吴英杰 《福建电脑》 2006年第9期18-19,共2页
分析了无词典分词及最大匹配快速分词算法的特点,并针对大数据量和小数据量两类文本,对两种算法进行性能测试。结果表明,两种算法均适用于大数据量的文本分词。此外,对无词典分词算法加以改进,使之也适用于小数据量的文本分词,并通过仿... 分析了无词典分词及最大匹配快速分词算法的特点,并针对大数据量和小数据量两类文本,对两种算法进行性能测试。结果表明,两种算法均适用于大数据量的文本分词。此外,对无词典分词算法加以改进,使之也适用于小数据量的文本分词,并通过仿真实验验证改进的有效性。 展开更多
关键词 无词典分词 最大匹配分词 数据量
下载PDF
领域概念术语提取中特征项自动抽取方法 被引量:3
9
作者 孙珠婷 顾倩颐 《计算机工程与设计》 CSCD 北大核心 2012年第8期3189-3193,共5页
针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首先利用第三方接口从文献资源库中获取大量领域文本集,并对其进行段落分析,在文本预处理阶段提出一种改进... 针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首先利用第三方接口从文献资源库中获取大量领域文本集,并对其进行段落分析,在文本预处理阶段提出一种改进的无词典分词方法进行二次分词,结合TFIDF,开方检验,信息增益及词汇位置权重方法进行特征项抽取。实验结果表明,该方法能实现特征项自动化抽取。 展开更多
关键词 领域概念术语 特征项自动抽取 领域文本集 无词典分词 位置权重
下载PDF
中文文本分类中的特征词抽取方法 被引量:16
10
作者 李晓红 《计算机工程与设计》 CSCD 北大核心 2009年第17期4127-4129,共3页
针对目前各类主流的中文文本特征词抽取方法中只关心词频信息却不关注特征的位置这一现象,给出了位置权重的概念,对以往提出的无词典分词算法进行了适当的修改,并在此基础上提出将信息增益、卡方统计和互信息这3种常用的特征选择方法有... 针对目前各类主流的中文文本特征词抽取方法中只关心词频信息却不关注特征的位置这一现象,给出了位置权重的概念,对以往提出的无词典分词算法进行了适当的修改,并在此基础上提出将信息增益、卡方统计和互信息这3种常用的特征选择方法有机的结合起来,构成新的特征选择方法。这种新方法综合考虑了特征的各类信息,从而更加准确地选取文本中的有效特征词,并且试验结果也验证了这种改进算法的可行性和有效性。 展开更多
关键词 特征抽取 无词典分词 位置权重 词条过滤 文本分类
下载PDF
半结构化数据领域本体构建算法及实现 被引量:1
11
作者 张翔 苏晓龙 吴文辉 《计算机与信息技术》 2011年第Z1期37-40,44,共5页
现有的领域本体大部分都是手工构建的,其过程耗时耗力,近几年如何半自动化构建领域本体的研究越来越多。文章以常用药品说明书作为知识源,结合实际对基于重现的无词典分词方法进行了一定的改进,并且提出了基于分词技术和数据挖掘技术的... 现有的领域本体大部分都是手工构建的,其过程耗时耗力,近几年如何半自动化构建领域本体的研究越来越多。文章以常用药品说明书作为知识源,结合实际对基于重现的无词典分词方法进行了一定的改进,并且提出了基于分词技术和数据挖掘技术的半自动领域本体建模方法。对半结构化信息的领域本体建模,该方法不仅可以降低构建的复杂度,而且节约了很多人力资源,并且实验测试证明是可行的。 展开更多
关键词 领域本体 迭代分词 重现 无词典分词 扩展关联规则
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部