期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
11
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种基于后缀数组的无词典分词方法
被引量:
14
1
作者
张长利
赫枫龄
左万利
《吉林大学学报(理学版)》
CAS
CSCD
北大核心
2004年第4期548-553,共6页
提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要...
提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要求高的中文信息处理.
展开更多
关键词
无词典分词
数组
文档
散列表
计算速度
算法
中文信息处理
法能
频度
实验
下载PDF
职称材料
中文生物医学文本无词典分词方法研究
被引量:
4
2
作者
王军辉
胡铁军
+2 位作者
李丹亚
钱庆
方安
《情报学报》
CSSCI
北大核心
2011年第2期197-203,共7页
为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取...
为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取两方面对其进行了改进.实验结果表明,该方法可以在不需要词典和语料库学习的情况下,实现对生物医学文本中关键性专业术语的有效抽取,分词准确率约为84.51%.最后,基于本研究中的分词结果,对生物医学领域的词长分布进行了初步探讨,结果表明中文生物医学领域的词长分布与普通汉语文本有非常大的差异.研究结果对在处理中文生物医学文本时N-gram模型中N值的确定具有一定的参考价值.
展开更多
关键词
无词典分词
结构式摘要
生物医学文本
下载PDF
职称材料
基于重现的无词典分词方法在中文生物医学文本挖掘中的应用
被引量:
5
3
作者
王军辉
胡铁军
李丹亚
《医学信息学杂志》
CAS
2009年第2期21-25,共5页
在对文本挖掘和中文分词方法进行概述的基础上,结合中文生物医学文本的特点,提出基于重现的无词典分词方法在构建医学文献相关性数据库、发现医学新名词、预测新兴研究趋势和基于文献的知识发现中的应用设想。
关键词
无词典分词
数据挖掘
文本挖掘
知识发现
文献相关性数据库
下载PDF
职称材料
基于统计的无词典分词方法
被引量:
24
4
作者
傅赛香
袁鼎荣
+1 位作者
黄柏雄
钟智
《广西科学院学报》
2002年第4期252-255,264,共5页
通过分析词的结合模式 ,提出无词典分词模型 ,并对该模型进行实验测试。测试结果表明 。
关键词
分词
方法
自动
分词
无词典分词
词条过滤
词条统计
中文信息处理
下载PDF
职称材料
中文文本挖掘中的无词典分词的算法及其应用
被引量:
26
5
作者
胥桂仙
苏筱蔚
陈淑艳
《吉林工学院学报(自然科学版)》
2002年第1期16-18,共3页
对中文文本挖掘中的词汇处理技术进行了较深入的探讨 ,提出了针对汉语语言特点的无词典分词算法。该算法基于“找最长字共现”的原则 ,可以准确地将文本中的词汇切分出来。
关键词
文本挖掘
中文
分词
无词典分词
下载PDF
职称材料
基于自然语言网络教学答疑中无词典分词算法的研究
6
作者
高晓梅
杨旭
《西安工程大学学报》
CAS
2009年第3期95-98,共4页
提出了一种面向网络答疑系统的无词典分词方法.该方法用统计的手段从大规模未进行任何切分的领域语料中获取算法所需的参数,并结合一定的规则进行分词.该算法具有自学习的能力,适应性强,只要改变训练所用的语料,就能切分出不同领域的词...
提出了一种面向网络答疑系统的无词典分词方法.该方法用统计的手段从大规模未进行任何切分的领域语料中获取算法所需的参数,并结合一定的规则进行分词.该算法具有自学习的能力,适应性强,只要改变训练所用的语料,就能切分出不同领域的词.实验结果表明,该分词方法有较高的召回率和精度.
展开更多
关键词
领域语料
规则
无词典分词
方法
下载PDF
职称材料
一种改进的基于后缀数组的无词典分词方法
7
作者
刘京城
刘锋
《计算机技术与发展》
2011年第11期49-52,共4页
文中改进了基于后缀数组的无词典分词算法。原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词集,并通过置信度的比较来筛选候选词集以获得分词集。文中改进了其计算候选词出现频率的方法并且大大减...
文中改进了基于后缀数组的无词典分词算法。原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词集,并通过置信度的比较来筛选候选词集以获得分词集。文中改进了其计算候选词出现频率的方法并且大大减少了筛选候选词集时两两判断候选词是否具有父子关系的次数。试验表明,改进的算法能够在没有词典的情况下更快速构建候选词集和筛选候选词集。适用于对词条频度敏感,对计算速度要求较高的中文信息处理。
展开更多
关键词
自动
分词
无词典分词
后缀数组
下载PDF
职称材料
基于数据量的文本分词算法选取的研究
8
作者
王一蕾
吴英杰
《福建电脑》
2006年第9期18-19,共2页
分析了无词典分词及最大匹配快速分词算法的特点,并针对大数据量和小数据量两类文本,对两种算法进行性能测试。结果表明,两种算法均适用于大数据量的文本分词。此外,对无词典分词算法加以改进,使之也适用于小数据量的文本分词,并通过仿...
分析了无词典分词及最大匹配快速分词算法的特点,并针对大数据量和小数据量两类文本,对两种算法进行性能测试。结果表明,两种算法均适用于大数据量的文本分词。此外,对无词典分词算法加以改进,使之也适用于小数据量的文本分词,并通过仿真实验验证改进的有效性。
展开更多
关键词
无词典分词
最大匹配
分词
数据量
下载PDF
职称材料
领域概念术语提取中特征项自动抽取方法
被引量:
3
9
作者
孙珠婷
顾倩颐
《计算机工程与设计》
CSCD
北大核心
2012年第8期3189-3193,共5页
针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首先利用第三方接口从文献资源库中获取大量领域文本集,并对其进行段落分析,在文本预处理阶段提出一种改进...
针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首先利用第三方接口从文献资源库中获取大量领域文本集,并对其进行段落分析,在文本预处理阶段提出一种改进的无词典分词方法进行二次分词,结合TFIDF,开方检验,信息增益及词汇位置权重方法进行特征项抽取。实验结果表明,该方法能实现特征项自动化抽取。
展开更多
关键词
领域概念术语
特征项自动抽取
领域文本集
无词典分词
位置权重
下载PDF
职称材料
中文文本分类中的特征词抽取方法
被引量:
16
10
作者
李晓红
《计算机工程与设计》
CSCD
北大核心
2009年第17期4127-4129,共3页
针对目前各类主流的中文文本特征词抽取方法中只关心词频信息却不关注特征的位置这一现象,给出了位置权重的概念,对以往提出的无词典分词算法进行了适当的修改,并在此基础上提出将信息增益、卡方统计和互信息这3种常用的特征选择方法有...
针对目前各类主流的中文文本特征词抽取方法中只关心词频信息却不关注特征的位置这一现象,给出了位置权重的概念,对以往提出的无词典分词算法进行了适当的修改,并在此基础上提出将信息增益、卡方统计和互信息这3种常用的特征选择方法有机的结合起来,构成新的特征选择方法。这种新方法综合考虑了特征的各类信息,从而更加准确地选取文本中的有效特征词,并且试验结果也验证了这种改进算法的可行性和有效性。
展开更多
关键词
特征抽取
无词典分词
位置权重
词条过滤
文本分类
下载PDF
职称材料
半结构化数据领域本体构建算法及实现
被引量:
1
11
作者
张翔
苏晓龙
吴文辉
《计算机与信息技术》
2011年第Z1期37-40,44,共5页
现有的领域本体大部分都是手工构建的,其过程耗时耗力,近几年如何半自动化构建领域本体的研究越来越多。文章以常用药品说明书作为知识源,结合实际对基于重现的无词典分词方法进行了一定的改进,并且提出了基于分词技术和数据挖掘技术的...
现有的领域本体大部分都是手工构建的,其过程耗时耗力,近几年如何半自动化构建领域本体的研究越来越多。文章以常用药品说明书作为知识源,结合实际对基于重现的无词典分词方法进行了一定的改进,并且提出了基于分词技术和数据挖掘技术的半自动领域本体建模方法。对半结构化信息的领域本体建模,该方法不仅可以降低构建的复杂度,而且节约了很多人力资源,并且实验测试证明是可行的。
展开更多
关键词
领域本体
迭代
分词
重现
无词典分词
扩展关联规则
原文传递
题名
一种基于后缀数组的无词典分词方法
被引量:
14
1
作者
张长利
赫枫龄
左万利
机构
吉林大学计算机科学与技术学院
出处
《吉林大学学报(理学版)》
CAS
CSCD
北大核心
2004年第4期548-553,共6页
基金
国家自然科学基金(批准号:60373099).
文摘
提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要求高的中文信息处理.
关键词
无词典分词
数组
文档
散列表
计算速度
算法
中文信息处理
法能
频度
实验
Keywords
Chinese information processing
automatic Chinese word segmentation
suffix array
HashMap
分类号
N02 [自然科学总论—科学技术哲学]
TP311.1 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
中文生物医学文本无词典分词方法研究
被引量:
4
2
作者
王军辉
胡铁军
李丹亚
钱庆
方安
机构
中国医学科学院医学信息研究所
出处
《情报学报》
CSSCI
北大核心
2011年第2期197-203,共7页
文摘
为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取两方面对其进行了改进.实验结果表明,该方法可以在不需要词典和语料库学习的情况下,实现对生物医学文本中关键性专业术语的有效抽取,分词准确率约为84.51%.最后,基于本研究中的分词结果,对生物医学领域的词长分布进行了初步探讨,结果表明中文生物医学领域的词长分布与普通汉语文本有非常大的差异.研究结果对在处理中文生物医学文本时N-gram模型中N值的确定具有一定的参考价值.
关键词
无词典分词
结构式摘要
生物医学文本
Keywords
Chinese word segmentation without thesaurus
structured abstract
biomedical text
分类号
G35 [文化科学—情报学]
下载PDF
职称材料
题名
基于重现的无词典分词方法在中文生物医学文本挖掘中的应用
被引量:
5
3
作者
王军辉
胡铁军
李丹亚
机构
中国医学科学院医学信息研究所
出处
《医学信息学杂志》
CAS
2009年第2期21-25,共5页
文摘
在对文本挖掘和中文分词方法进行概述的基础上,结合中文生物医学文本的特点,提出基于重现的无词典分词方法在构建医学文献相关性数据库、发现医学新名词、预测新兴研究趋势和基于文献的知识发现中的应用设想。
关键词
无词典分词
数据挖掘
文本挖掘
知识发现
文献相关性数据库
Keywords
Chinese word segmentation without thesaurus
Data mining
Text mining
Knowledge discovery
Related articles database
分类号
R-5 [医药卫生]
下载PDF
职称材料
题名
基于统计的无词典分词方法
被引量:
24
4
作者
傅赛香
袁鼎荣
黄柏雄
钟智
机构
中国科学院计算技术研究所智能信息处理开放实验室
广西师范大学计算机科学系
出处
《广西科学院学报》
2002年第4期252-255,264,共5页
文摘
通过分析词的结合模式 ,提出无词典分词模型 ,并对该模型进行实验测试。测试结果表明 。
关键词
分词
方法
自动
分词
无词典分词
词条过滤
词条统计
中文信息处理
Keywords
automated word extraction,word extracting without dictionary,word filtering,word statistics
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
中文文本挖掘中的无词典分词的算法及其应用
被引量:
26
5
作者
胥桂仙
苏筱蔚
陈淑艳
机构
吉林工学院计算机科学与工程学院
出处
《吉林工学院学报(自然科学版)》
2002年第1期16-18,共3页
文摘
对中文文本挖掘中的词汇处理技术进行了较深入的探讨 ,提出了针对汉语语言特点的无词典分词算法。该算法基于“找最长字共现”的原则 ,可以准确地将文本中的词汇切分出来。
关键词
文本挖掘
中文
分词
无词典分词
Keywords
text mining
cutting Chinese word
no dictionary cutting word
分类号
TP311.1 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于自然语言网络教学答疑中无词典分词算法的研究
6
作者
高晓梅
杨旭
机构
西安航空职业技术学院计算机工程系
西安市特种设备检验检测院
出处
《西安工程大学学报》
CAS
2009年第3期95-98,共4页
文摘
提出了一种面向网络答疑系统的无词典分词方法.该方法用统计的手段从大规模未进行任何切分的领域语料中获取算法所需的参数,并结合一定的规则进行分词.该算法具有自学习的能力,适应性强,只要改变训练所用的语料,就能切分出不同领域的词.实验结果表明,该分词方法有较高的召回率和精度.
关键词
领域语料
规则
无词典分词
方法
Keywords
field language material
rules
segmentation algorithm without dictionary
分类号
TP391.43 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种改进的基于后缀数组的无词典分词方法
7
作者
刘京城
刘锋
机构
安徽大学
出处
《计算机技术与发展》
2011年第11期49-52,共4页
基金
安徽省教育厅自然科学研究资助项目(KJ2009A60)
文摘
文中改进了基于后缀数组的无词典分词算法。原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词集,并通过置信度的比较来筛选候选词集以获得分词集。文中改进了其计算候选词出现频率的方法并且大大减少了筛选候选词集时两两判断候选词是否具有父子关系的次数。试验表明,改进的算法能够在没有词典的情况下更快速构建候选词集和筛选候选词集。适用于对词条频度敏感,对计算速度要求较高的中文信息处理。
关键词
自动
分词
无词典分词
后缀数组
Keywords
automatic word segmentation
dictionary-free word segmentation
suffix array
分类号
TP31 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于数据量的文本分词算法选取的研究
8
作者
王一蕾
吴英杰
机构
福州大学数学与计算机科学学院
出处
《福建电脑》
2006年第9期18-19,共2页
基金
福州大学科技发展基金(2004-XY-13)
文摘
分析了无词典分词及最大匹配快速分词算法的特点,并针对大数据量和小数据量两类文本,对两种算法进行性能测试。结果表明,两种算法均适用于大数据量的文本分词。此外,对无词典分词算法加以改进,使之也适用于小数据量的文本分词,并通过仿真实验验证改进的有效性。
关键词
无词典分词
最大匹配
分词
数据量
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TP311.132 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
领域概念术语提取中特征项自动抽取方法
被引量:
3
9
作者
孙珠婷
顾倩颐
机构
四川师范大学计算机科学学院
四川师范大学可视化计算与虚拟现实四川省重点实验室
出处
《计算机工程与设计》
CSCD
北大核心
2012年第8期3189-3193,共5页
基金
全国教育科学规划项目国家青年基金项目(CCA100176)
四川省教育厅科研基金项目(09ZC080)
文摘
针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首先利用第三方接口从文献资源库中获取大量领域文本集,并对其进行段落分析,在文本预处理阶段提出一种改进的无词典分词方法进行二次分词,结合TFIDF,开方检验,信息增益及词汇位置权重方法进行特征项抽取。实验结果表明,该方法能实现特征项自动化抽取。
关键词
领域概念术语
特征项自动抽取
领域文本集
无词典分词
位置权重
Keywords
concept terms
feature auto-extraction
domain documents
no word segmentation
position weighting
分类号
TP182 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
中文文本分类中的特征词抽取方法
被引量:
16
10
作者
李晓红
机构
西北师范大学数学与信息科学学院
出处
《计算机工程与设计》
CSCD
北大核心
2009年第17期4127-4129,共3页
文摘
针对目前各类主流的中文文本特征词抽取方法中只关心词频信息却不关注特征的位置这一现象,给出了位置权重的概念,对以往提出的无词典分词算法进行了适当的修改,并在此基础上提出将信息增益、卡方统计和互信息这3种常用的特征选择方法有机的结合起来,构成新的特征选择方法。这种新方法综合考虑了特征的各类信息,从而更加准确地选取文本中的有效特征词,并且试验结果也验证了这种改进算法的可行性和有效性。
关键词
特征抽取
无词典分词
位置权重
词条过滤
文本分类
Keywords
feature extraction
no word segmentation
position weighting
term filter
text classification
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
半结构化数据领域本体构建算法及实现
被引量:
1
11
作者
张翔
苏晓龙
吴文辉
机构
中国矿业大学计算机科学与技术学院
出处
《计算机与信息技术》
2011年第Z1期37-40,44,共5页
基金
江苏省自然科学基金项目"面向高维复杂数据的粒度知识发现研究"
文摘
现有的领域本体大部分都是手工构建的,其过程耗时耗力,近几年如何半自动化构建领域本体的研究越来越多。文章以常用药品说明书作为知识源,结合实际对基于重现的无词典分词方法进行了一定的改进,并且提出了基于分词技术和数据挖掘技术的半自动领域本体建模方法。对半结构化信息的领域本体建模,该方法不仅可以降低构建的复杂度,而且节约了很多人力资源,并且实验测试证明是可行的。
关键词
领域本体
迭代
分词
重现
无词典分词
扩展关联规则
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
一种基于后缀数组的无词典分词方法
张长利
赫枫龄
左万利
《吉林大学学报(理学版)》
CAS
CSCD
北大核心
2004
14
下载PDF
职称材料
2
中文生物医学文本无词典分词方法研究
王军辉
胡铁军
李丹亚
钱庆
方安
《情报学报》
CSSCI
北大核心
2011
4
下载PDF
职称材料
3
基于重现的无词典分词方法在中文生物医学文本挖掘中的应用
王军辉
胡铁军
李丹亚
《医学信息学杂志》
CAS
2009
5
下载PDF
职称材料
4
基于统计的无词典分词方法
傅赛香
袁鼎荣
黄柏雄
钟智
《广西科学院学报》
2002
24
下载PDF
职称材料
5
中文文本挖掘中的无词典分词的算法及其应用
胥桂仙
苏筱蔚
陈淑艳
《吉林工学院学报(自然科学版)》
2002
26
下载PDF
职称材料
6
基于自然语言网络教学答疑中无词典分词算法的研究
高晓梅
杨旭
《西安工程大学学报》
CAS
2009
0
下载PDF
职称材料
7
一种改进的基于后缀数组的无词典分词方法
刘京城
刘锋
《计算机技术与发展》
2011
0
下载PDF
职称材料
8
基于数据量的文本分词算法选取的研究
王一蕾
吴英杰
《福建电脑》
2006
0
下载PDF
职称材料
9
领域概念术语提取中特征项自动抽取方法
孙珠婷
顾倩颐
《计算机工程与设计》
CSCD
北大核心
2012
3
下载PDF
职称材料
10
中文文本分类中的特征词抽取方法
李晓红
《计算机工程与设计》
CSCD
北大核心
2009
16
下载PDF
职称材料
11
半结构化数据领域本体构建算法及实现
张翔
苏晓龙
吴文辉
《计算机与信息技术》
2011
1
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部