期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
结合词语分布信息的TFIDF关键词抽取方法研究 被引量:2
1
作者 徐振强 李保利 《中原工学院学报》 CAS 2014年第6期59-63,共5页
介绍了关键词抽取的相关工作,并对基于TFIDF的关键词抽取算法进行了分析。结合词语在文本中的分布均衡程度和首次出现位置等特征,提出了一种改进的TFIDF算法,并给出了相应的计算公式。在文档数量和文档平均长度不同的3个语料上进行了对... 介绍了关键词抽取的相关工作,并对基于TFIDF的关键词抽取算法进行了分析。结合词语在文本中的分布均衡程度和首次出现位置等特征,提出了一种改进的TFIDF算法,并给出了相应的计算公式。在文档数量和文档平均长度不同的3个语料上进行了对比实验。实验结果表明,结合词语分布信息的TFIDF关键词抽取方法是可行和有效的。 展开更多
关键词 抽取 TFIDF 词语分布 自动标引
下载PDF
文献中的词语分布、词型等级和风格计算 被引量:10
2
作者 马创新 陈小荷 《中文信息学报》 CSCD 北大核心 2017年第4期20-27,共8页
文献的语言风格是作者在语言运用方面的思维定势的体现,对于文献之间语言风格的差异,以前的研究大多采用定性分析的方式加以比较和概括,而在文献检索和文本分类领域需要得到量化的语言风格相似度。该文首先分析文献中词语分布的普遍规律... 文献的语言风格是作者在语言运用方面的思维定势的体现,对于文献之间语言风格的差异,以前的研究大多采用定性分析的方式加以比较和概括,而在文献检索和文本分类领域需要得到量化的语言风格相似度。该文首先分析文献中词语分布的普遍规律,以先秦八部经典文献为观察语料,发现这些文献中的词语既呈离散分布,又呈集中分布;然后通过计算文献之间词型等级的相关系数,来获取量化的语言风格相似度,构建了八部文献之间的相似度矩阵,验证了语言风格的差异不仅体现在使用的常用词上,还更细微地体现在常用词的使用频率等级上。 展开更多
关键词 词语分布 离散 集中 检索 风格
下载PDF
基于例子的基本名词短语识别中词语分布相似度的研究 被引量:1
3
作者 赵军 黄昌宁 《模式识别与人工智能》 EI CSCD 北大核心 1998年第2期140-146,共7页
本文提出一种基于例子的基本名词短语的识别模型,并着重讨论了其中的词语相似度度量方法:首先根据词语在限定距离内的同现关系计算词语的关联度,然后利用关联词语和关联度建立词语的语境向量,并基于"相似语境中出现的词语相似"... 本文提出一种基于例子的基本名词短语的识别模型,并着重讨论了其中的词语相似度度量方法:首先根据词语在限定距离内的同现关系计算词语的关联度,然后利用关联词语和关联度建立词语的语境向量,并基于"相似语境中出现的词语相似"的假设,用词语出现的语境相似度来度量词语分布相似度.实验结果表明,这种基于分布的词语相似度度量方法是基于义类词典的相似度度量方法的重要补充. 展开更多
关键词 自然语言处理 名词短语识别 词语分布相似度
原文传递
女性话题概念及形象描述词语的分布分析——基于杨百翰大学英语系列语料库的统计 被引量:2
4
作者 周韵 《暨南学报(哲学社会科学版)》 CSSCI 北大核心 2014年第6期154-159,共6页
女性形象在各类研究和文学作品分析中屡见不鲜。以女性概念词为例,基于杨百翰大学系列英语语料库资源,分析和研究女性概念词和女性形象描述词语的频次分布,解释女性公众形象的特征。结果显示,在各英语国家书面语和以美剧为代表的口语中... 女性形象在各类研究和文学作品分析中屡见不鲜。以女性概念词为例,基于杨百翰大学系列英语语料库资源,分析和研究女性概念词和女性形象描述词语的频次分布,解释女性公众形象的特征。结果显示,在各英语国家书面语和以美剧为代表的口语中,表达女性的概念存在单复数用法差异,书面语多使用复数而口语中则偏向于单数。除生理特点外,女性形象备受关注的是外貌、教育程度、优秀品质,婚姻状况等主题。女性典型行为则突破男女界限,呈分散性分布,但体现女性被歧视现象的动词仍然存在一定的分布。 展开更多
关键词 女性形象 杨百翰英语语料库 词语分布
下载PDF
文档中词语权重计算方法的改进 被引量:120
5
作者 鲁松 李晓黎 +1 位作者 白硕 王实 《中文信息学报》 CSCD 北大核心 2000年第6期8-13,20,共7页
文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型 (VectorSpaceModel)中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例... 文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型 (VectorSpaceModel)中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一 ,但现在tf.idf方法无法把握这一因素。针对这个问题 ,本文引入信息论中信息增益的概念 ,提出一种对tf.idf的改进方法tf.idf.IG文本表示方法。该方法将词语的信息增益作为一个文本表示的一个因子 ,来衡量词语在文本集合中分布比例在量上的差异。在文本分类实验中 ,tf.idf.IG文本表示的向量空间模型的分类效果要好于tf.idf方法 ,验证了改进方法tf.idf.IG的有效性和可行性。 展开更多
关键词 文本表示 向量空间模型 词语分布比例 信息增益
下载PDF
一种新的词语相似度计算方法 被引量:10
6
作者 赵军 胡栓柱 樊兴华 《重庆邮电大学学报(自然科学版)》 北大核心 2009年第4期528-532,共5页
提出了一种新的词语相似度计算方法。该方法利用词语关联分布规范化因子,对互信息中目标词和基词的关联度度量方法进行了修正,通过计算目标词和基词的关联度,构造目标词的属性向量,由目标词的属性向量,利用夹角余弦法计算出目标词语相... 提出了一种新的词语相似度计算方法。该方法利用词语关联分布规范化因子,对互信息中目标词和基词的关联度度量方法进行了修正,通过计算目标词和基词的关联度,构造目标词的属性向量,由目标词的属性向量,利用夹角余弦法计算出目标词语相似度。实验结果验证了该方法的有效性。 展开更多
关键词 互信息 词语关联分布 词语关联度 词语相似度
下载PDF
基于信息增益的特征词权重调整算法研究 被引量:33
7
作者 张玉芳 陈小莉 熊忠阳 《计算机工程与应用》 CSCD 北大核心 2007年第35期159-161,共3页
传统权重公式TFIDF忽略了词语在集合中的分布比例,针对TFIDF的这个缺点,把信息增益公式引入文本集合中并提出IF*IDF*IG,取得了较好的效果。在分析中发现单纯把信息增益引入文本集合并不能完全解决词语分布对词语权重的影响。从文档类别... 传统权重公式TFIDF忽略了词语在集合中的分布比例,针对TFIDF的这个缺点,把信息增益公式引入文本集合中并提出IF*IDF*IG,取得了较好的效果。在分析中发现单纯把信息增益引入文本集合并不能完全解决词语分布对词语权重的影响。从文档类别层次上考虑,把信息论中信息增益应用到文本集合的类别层次上,提出了一种改进的权重公式tf*idf*IGc,用改进的权重公式来衡量词语在文本集合的各个类别中分布比例上的差异,进一步弥补传统公式的不足。实验对比了改进的公式tf*idf*IGc和IF*IDF*IG的实验效果,实验证明tf*idf*IGc权重公式在表现词语权重时更有效。 展开更多
关键词 信息增益 信息熵 词语分布比例 文本分类
下载PDF
Fuzzy Words Distribution in Management Science Research Articles 被引量:1
8
作者 董艳云 白永权 蒋跃 《Sino-US English Teaching》 2007年第3期37-42,共6页
By using ZHANG Qiao's method for identifying fuzzy words (1998), the present paper makes a statistic analysis of fuzzy words appearing in about 43,000 words of 6 academic research articles in management science. A ... By using ZHANG Qiao's method for identifying fuzzy words (1998), the present paper makes a statistic analysis of fuzzy words appearing in about 43,000 words of 6 academic research articles in management science. A distribution curve of fuzzy words in management research articles is drawn in accordance with the structures of the articles, and it is proved to be reasonable for tile discourse function of each section. Furthermore, the fuzzy words are divided into three categories and eleven sub-categories, including Category Ⅰ-fuzzy words, Category Ⅱ-fuzzy words+non-fuzzy part / non-fuzzy part+fuzzy words, Category Ⅲ-approximators+fuzzy words. Distribution of fuzzy words varies in different sections of research articles in management science, because of different communicative purposes or discourse functions. Introduction section and Conclusion section have a higher occurrence rate of fuzzy words than Abstract section and Methodology and Data section. 展开更多
关键词 academic research articles in management science fuzzy words distribution curve discourse function category research
下载PDF
以新HSK考题和经典对外汉语教材为语料基础的情感句分析
9
作者 王敬 朱琦 《曲靖师范学院学报》 2015年第2期96-102,共7页
对外汉语教学的目标是培养学生的交际能力,句子情感信息的理解和表达是初级阶段交际能力培养的重要内容。以国家汉办公布的新HSK试卷文本和6套经典对外汉语教材为语料基础,以句子为单位,对语料的情感信息进行人工标注,计算情感句在不同... 对外汉语教学的目标是培养学生的交际能力,句子情感信息的理解和表达是初级阶段交际能力培养的重要内容。以国家汉办公布的新HSK试卷文本和6套经典对外汉语教材为语料基础,以句子为单位,对语料的情感信息进行人工标注,计算情感句在不同类型语料中的分布,并进行了对比分析。结果显示,句子中显示积极评价态度、表达"吃惊/怀疑"、"关心"情感类别的频率最高,分别为38.62%、10.18%、9.31%,在情感句中非常显著。此外,还从每个情感句中抽取了情感词、短语和句式,分析其组合方式以及分布规律,发现在表达消极的情感时,多使用"否定词+积极情感词"的表达方式,相关数据和结论可为汉语国际教育领域情感句研究以及新HSK备考提供参考。 展开更多
关键词 情感分析 汉语国际教育动态语料库 评价词语和短语的分布
下载PDF
与自然语言查询表述相关的词语分析 被引量:1
10
作者 熊文新 《图书情报工作》 CSSCI 北大核心 2012年第17期115-121,共7页
考察在信息检索过程中用户以自然语言表述的查询语句中的词语使用情况。以一个信息需求描述颗粒度不等的查询表述语料库为素材,辅以汉语通用语料作为对照,通过词频以及词语的文本覆盖率等统计数据,按照是否需要在目标文本中直接或以其... 考察在信息检索过程中用户以自然语言表述的查询语句中的词语使用情况。以一个信息需求描述颗粒度不等的查询表述语料库为素材,辅以汉语通用语料作为对照,通过词频以及词语的文本覆盖率等统计数据,按照是否需要在目标文本中直接或以其他形式出现,将查询表述语句中的词语区分为对汉语文本处理具有普遍意义的通用停用词、服务于信息检索表述用的专用停用词和与特定需求相关的信息内容词语。区分词语使用的不同性质,能为信息系统前端的自然语言查询处理增加一道剥离工序,防止将整个查询语句的分词结果全部作为检索项所造成的效率和准确率的退化。 展开更多
关键词 查询语句 检索项 语料库 词语分布 信息检索
原文传递
汉语特征词研究的缘起、意义和方法 被引量:1
11
作者 刘云 《华中学术》 2013年第2期200-208,共9页
特征词指能够反映文本特征、分布差异较大的词语。特征词的研究缘于以下四个方面:信息论中关于熵的研究,情报学中关于反文献频率的研究,语料库统计中各种词表的建立,语言学研究中的方言特征词研究。特征词的研究具有较大的理论意义和现... 特征词指能够反映文本特征、分布差异较大的词语。特征词的研究缘于以下四个方面:信息论中关于熵的研究,情报学中关于反文献频率的研究,语料库统计中各种词表的建立,语言学研究中的方言特征词研究。特征词的研究具有较大的理论意义和现实意义,一个可行的研究方法是以国家语委通用语料库为对象来考察时代特征词和语体特征词。 展开更多
关键词 特征词 语料库 词语分布
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部