期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
无词典抽词的RMMFS和BMMFS方法及其比较研究 被引量:5
1
作者 姜韶华 党延忠 宣照国 《情报学报》 CSSCI 北大核心 2006年第4期499-503,共5页
针对作为中文信息处理基础的抽词问题,本文在作者提出的正向串频最大匹配法(MMFS)的基础上,提出了逆向串频最大匹配法(RMMFS)及双向串频最大匹配法(BMMFS).这两种方法分别采用逆向和双向长串优先与串频统计的思路,并引进规则和支... 针对作为中文信息处理基础的抽词问题,本文在作者提出的正向串频最大匹配法(MMFS)的基础上,提出了逆向串频最大匹配法(RMMFS)及双向串频最大匹配法(BMMFS).这两种方法分别采用逆向和双向长串优先与串频统计的思路,并引进规则和支持度指标筛选,不需要词典,不需要事先进行语料库学习,不需要建立字索引,通过串匹配获取中文文本中的汉字共现模式,实时地抽取出包含专业术语及专有名词等未登录词在内的专指语义串、短语和词.实验研究了抽词准确率受规则的影响及随文本大小和词频变化的分布,结果表明BMMFS可以取得更好的抽词效果. 展开更多
关键词 逆向串频最大匹配 双向串频最大匹配 自动抽词 汉字共现模式
下载PDF
一种使用自动聚类思想的自动文摘方法 被引量:7
2
作者 杨建林 《情报学报》 CSSCI 北大核心 2001年第5期532-536,共5页
本文提出了一种使用自动聚类思想的自动文摘方法 ,这种方法是进行自动文摘研究的一种新的有益的尝试。该方法首先利用词频统计方法得到文献的关键词向量、每个段落的关键词向量 ,然后利用自动聚类的方法将文献分为若干个段落类 ,从中选... 本文提出了一种使用自动聚类思想的自动文摘方法 ,这种方法是进行自动文摘研究的一种新的有益的尝试。该方法首先利用词频统计方法得到文献的关键词向量、每个段落的关键词向量 ,然后利用自动聚类的方法将文献分为若干个段落类 ,从中选出与文献主题相关的段落类作为候选的用来挑出文摘句的段落类 。 展开更多
关键词 自动文摘 信息处理 自动处理技术 词频统计 关键词向量 段落类
下载PDF
统计分析法自动标引的改进 被引量:18
3
作者 赵云志 《情报学报》 CSSCI 北大核心 2000年第4期333-337,共5页
情报检索的目的是为用户服务 ,因而标引词的提取应以其与文献主题内容相关程度为标准。文章基于原有的统计分析标引法 ,对其权值设计予以重新考虑 ,并与文献词频统计相结合 ,使分词与标引相统一 ,标引词更好地反映文献主题概念 ,提高检... 情报检索的目的是为用户服务 ,因而标引词的提取应以其与文献主题内容相关程度为标准。文章基于原有的统计分析标引法 ,对其权值设计予以重新考虑 ,并与文献词频统计相结合 ,使分词与标引相统一 ,标引词更好地反映文献主题概念 ,提高检索效率。 展开更多
关键词 自动标引 词频统计 权值 统计分析
下载PDF
基于词频统计法的医学新闻自动受控标引 被引量:1
4
作者 张精理 何晓阳 丁婷 《中华医学图书情报杂志》 CAS 2014年第8期7-10,共4页
分析了医学新闻信息利用的必要性及自动标引的发展现状,提出一种医学新闻文本自动受控标引方法,即以分词词表为基础词表,引入汉化MeSH词表建立标引词表,对中文医学新闻文本进行分词、词频统计和排序,过滤掉不在主题词表中的高频词后,选... 分析了医学新闻信息利用的必要性及自动标引的发展现状,提出一种医学新闻文本自动受控标引方法,即以分词词表为基础词表,引入汉化MeSH词表建立标引词表,对中文医学新闻文本进行分词、词频统计和排序,过滤掉不在主题词表中的高频词后,选取词频最高的5个MeSH主题词用作标引词。 展开更多
关键词 词频统计 自动标引 主题标引 受控标引 医学主题词表
下载PDF
基于XML的PubMed生物医学工程文献的聚类分析方法的探讨 被引量:1
5
作者 刘春艳 胡铁军 《中华医学图书情报杂志》 CAS 2006年第6期58-60,共3页
采用依据主题词表的聚类数据挖掘技术对基于可扩展标识语言(Extensible Markup Language,XML)的PubMed生物医学工程方面的文献进行分析,实现PubMed生物医学工程文献的概念导航,建立生物医学工程专题文献数据库,并利用加权的词频统计方... 采用依据主题词表的聚类数据挖掘技术对基于可扩展标识语言(Extensible Markup Language,XML)的PubMed生物医学工程方面的文献进行分析,实现PubMed生物医学工程文献的概念导航,建立生物医学工程专题文献数据库,并利用加权的词频统计方法分析其文献主题分布。 展开更多
关键词 生物医学工程 可扩展标识语言 自动文本聚类 专题文献数据库 词频统计
下载PDF
中文自动文献系统研究 被引量:1
6
作者 杨建林 《情报学报》 CSSCI 北大核心 2001年第4期460-463,共4页
本文提出了几个可以改善中文自动文摘系统的文摘效果的措施 :1 将字频统计方法和词频统计方法有机结合起来 ;2 进一步研究人工文摘中理解性文摘句的形成机理 ,完善仿人算法 ;3 将自动聚类的方法引入自动文摘研究。
关键词 中文自动文献系统 自动文摘 词频统计 自动聚类 算法 字频统计
下载PDF
基于二元模糊匹配的编程题智能评分方法 被引量:1
7
作者 冷强奎 刘雨晴 秦玉平 《计算机技术与发展》 2020年第2期71-74,共4页
针对传统编程题自动评分方法不能准确衡量学生程序与参考答案之间的接近程度等问题,提出了一种基于二元模糊匹配的编程题智能评分方法。第一元为结构匹配,检测学生程序在变量声明、数据输入、函数调用、控制结构等方面与参考答案的相似... 针对传统编程题自动评分方法不能准确衡量学生程序与参考答案之间的接近程度等问题,提出了一种基于二元模糊匹配的编程题智能评分方法。第一元为结构匹配,检测学生程序在变量声明、数据输入、函数调用、控制结构等方面与参考答案的相似程度,目的是快速判断学生程序中是否存在关键的采分点。第二元为词语匹配,首先进行词频统计,以确定每个词的权重。然后,分别构造学生程序与参考答案的向量空间模型,并计算两者的余弦相似度,来作为评判词语相似的依据。最终的分数由结构相似度和词语相似度的加权分数计算得出。由于该二元匹配方法不关心程序中结构/词语的先后顺序和是否为精确表达,因此被称为是模糊的。仿真实验表明,该方法具有不错的评分准确性,尽管与人工评分相比还存在一定的差距,但当试题规模较大时,可以作为人工评分的替代手段。 展开更多
关键词 二元模糊匹配 自动评分 词频统计 余弦相似度 向量空间模型
下载PDF
简单中文自动摘要系统研究 被引量:1
8
作者 张雷生 万绍俊 许鹏文 《装备指挥技术学院学报》 2004年第3期105-109,共5页
摘要是对文档内容的概括,在信息检索中起着重要的作用.分析了机械式自动摘要的局限性,提出一种模仿人工进行自动摘要的方法;探讨了简单的中文自动摘要系统的结构模型,在此基础上对模型中的分词模块和文摘句的提取模块进行了分析.最后,... 摘要是对文档内容的概括,在信息检索中起着重要的作用.分析了机械式自动摘要的局限性,提出一种模仿人工进行自动摘要的方法;探讨了简单的中文自动摘要系统的结构模型,在此基础上对模型中的分词模块和文摘句的提取模块进行了分析.最后,结合实例对系统进行了进一步地讨论.结果表明:该系统能够达到较好的质量和效率. 展开更多
关键词 信息检索 中文自动摘要 分词模块 文摘句
下载PDF
基于有效词频的改进C-value自动术语抽取方法 被引量:11
9
作者 熊李艳 谭龙 钟茂生 《现代图书情报技术》 CSSCI 北大核心 2013年第9期54-59,共6页
现有的中文术语自动抽取方法主要针对术语的高频特征与单元性指标,而低频术语和术语的术语性指标缺乏有效的处理方法。针对上述问题,将背景语料库引入C-value方法,提出词语领域分布度与有效词频的概念,通过计算候选术语的EC-value值来... 现有的中文术语自动抽取方法主要针对术语的高频特征与单元性指标,而低频术语和术语的术语性指标缺乏有效的处理方法。针对上述问题,将背景语料库引入C-value方法,提出词语领域分布度与有效词频的概念,通过计算候选术语的EC-value值来自动抽取术语,并结合术语簇识别与挖掘,改善低频术语抽取性能。通过计算机领域术语抽取实验,表明本文提出的改进方法(EC-value方法)能更有效地衡量术语的术语性,改善低频术语抽取性能。 展开更多
关键词 自动术语抽取 EC—value 有效词频 术语簇
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部