期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于支持向量机的隐含语意特征选择方法 被引量:2
1
作者 李旻松 段琢华 《计算机应用》 CSCD 北大核心 2011年第9期2429-2431,2435,共4页
隐含语意索引(LSI)是一个能有效捕获文档中词的隐含语意特征的方法。然而,用该方法选择的特征空间对文本分类来说可能不是最适合的,因为这种方法按照词的变化排序特征,而没有考虑到分类能力。支持向量机(SVM)高度的泛化能力使它特别适... 隐含语意索引(LSI)是一个能有效捕获文档中词的隐含语意特征的方法。然而,用该方法选择的特征空间对文本分类来说可能不是最适合的,因为这种方法按照词的变化排序特征,而没有考虑到分类能力。支持向量机(SVM)高度的泛化能力使它特别适用于高维数据例如文档的分类。为此提出基于支持向量机的特征提取方法用于选择适于分类的LSI特征。该方法利用SVM高度泛化的分类能力,通过使用在每一个规则下训练的分类器的参数对第k个特征对反向平方分解面的贡献w2k的值进行估计。实验表明当需要比LSI更少的训练和测试时间时,该方法能够以更为紧凑的表示方式提高分类性能。 展开更多
关键词 隐含语意索引 向量空间模型 奇异值分解 文档矩阵 支持向量机
下载PDF
中文医学专业术语的层次结构生成研究 被引量:4
2
作者 王昊 苏新宁 朱惠 《情报学报》 CSSCI 北大核心 2014年第6期594-604,共11页
本文基于术语共现理论,利用形式概念分析中概念格的自动生成来推理作为属性的领域专业术语的层次结构并进行可视化展示,进而提出了一整套用于实现领域本体概念层次关系构建的解决方案,具体包括文档/词汇与术语语义关联的识别、领域... 本文基于术语共现理论,利用形式概念分析中概念格的自动生成来推理作为属性的领域专业术语的层次结构并进行可视化展示,进而提出了一整套用于实现领域本体概念层次关系构建的解决方案,具体包括文档/词汇与术语语义关联的识别、领域形式化背景的建立、基于形式概念分析的主题概念的生成、基于主题概念格的术语层次关系抽取、术语层次体系的OWL描述和图形展示等。笔者以“白血病”领域为例,详细论证了无知识库支持环境下中文文本到医学学科术语层次结构的衍化过程,并对以文档术语矩阵(DTM)和词汇术语矩阵(WTM)为形式化背景生成的术语层次体系进行了比较分析。 展开更多
关键词 医学专业术语 层次结构 本体学习 文档术语矩阵 词汇术语矩阵 形式概念分析 OWL
下载PDF
潜在语义分析权重计算的改进 被引量:19
3
作者 刘云峰 齐欢 +1 位作者 Xiang’en Hu Zhiqiang Cai 《中文信息学报》 CSCD 北大核心 2005年第6期64-69,共6页
自从潜在语义分析方法诞生以来,被广泛应用于信息检索、文本分类、自动问答系统等领域中。潜在语义分析的一个重要过程是对词语文档矩阵作加权转换,加权函数直接影响潜在语义分析结果的优劣。本文首先总结了传统的、已成熟的权重计算方... 自从潜在语义分析方法诞生以来,被广泛应用于信息检索、文本分类、自动问答系统等领域中。潜在语义分析的一个重要过程是对词语文档矩阵作加权转换,加权函数直接影响潜在语义分析结果的优劣。本文首先总结了传统的、已成熟的权重计算方法,包括局部权重部分和词语全局权重部分,随后指出已有方法的不足之处,并对权重计算方法进行扩展,提出文档全局权重的概念。在最后的实验中,提出了一种新的检验潜在语义分析结果优劣的方法———文档自检索矩阵,实验结果证明改进后的权重计算方法提高了检索效率。 展开更多
关键词 计算机应用 中文信息处理 潜在语义分析 权重 文档全局权重 文档自检索矩阵
下载PDF
基于主题模型的微博话题检测算法
4
作者 黄华军 谭骏珊 秦姣华 《网络与信息安全学报》 2016年第5期30-38,共9页
微博数据的实时、大规模、短文本以及富含噪声等特征为话题检测带来新的挑战,传统向量空模型(VSM)表示文本无法很好地对其进行建模。基于此,提出一种基于主题模型的微博话题检测算法。首先,对微博数据构建文档词条矩阵和词语关联矩阵来... 微博数据的实时、大规模、短文本以及富含噪声等特征为话题检测带来新的挑战,传统向量空模型(VSM)表示文本无法很好地对其进行建模。基于此,提出一种基于主题模型的微博话题检测算法。首先,对微博数据构建文档词条矩阵和词语关联矩阵来提取主题词;然后,对主题词进行聚类,得到主题模型;最后,利用文本与主题模型相互匹配实现文本聚类,从而达到话题检测的目的。实验结果表示,该算法能有效地进行话题聚类并检测出话题,在最佳参数组合条件下,其各类别的平均F值达到95%以上。 展开更多
关键词 话题检测 主题模型 文档词条矩阵 词语关联矩阵
下载PDF
《统计与决策》期刊文献规模的探测
5
作者 钮亮 杨玉香 《统计与决策》 CSSCI 北大核心 2016年第9期107-111,共5页
以中国知网中"统计与决策"期刊1985—2015年中文献的关键词为分析对象,构建"文档-关键词"矩阵,通过lda模型和余弦相似度计算期刊年度中话题的相似情况,对年度文档进行聚类;构建主题和年度文档二分图网络并对其进行... 以中国知网中"统计与决策"期刊1985—2015年中文献的关键词为分析对象,构建"文档-关键词"矩阵,通过lda模型和余弦相似度计算期刊年度中话题的相似情况,对年度文档进行聚类;构建主题和年度文档二分图网络并对其进行投影,通过社团分割和介数中心性计算核心年度文档和核心主题以及其对应的关键词。文章克服了共词网络分析法对同名异意,异名同意的问题,实现自动挖掘科技文献主题。 展开更多
关键词 文档-关键词”矩阵 主题模型 二分图 社团分割 介数中心性 统计与决策
下载PDF
基于主题建模的文本相关分析与情感研究 被引量:1
6
作者 乔平安 刘佩龙 《现代电子技术》 北大核心 2019年第18期125-129,135,共6页
伴随着互联网信息技术的飞速发展,网络上文本信息增长迅速,对文本进行研究、处理和分析已成为热门研究课题.这些海量的文本数据中包含的大量信息,如何挖掘这些文本中隐含的信息是目前自然语言处理和文本检索领域的一大研究难点.针对此... 伴随着互联网信息技术的飞速发展,网络上文本信息增长迅速,对文本进行研究、处理和分析已成为热门研究课题.这些海量的文本数据中包含的大量信息,如何挖掘这些文本中隐含的信息是目前自然语言处理和文本检索领域的一大研究难点.针对此情况提出一种基于主题建模的文本相关分析和情感研究的方法,充分挖掘海量文本隐含信息.该方法首先对文本进行整洁后计算文本之间的相关系数,然后依据相关系数把整洁文本转化为文档-词项矩阵后输入LAD模型进行建模分析,最后基于情感词典进行总-分式的情感研究.实验结果表明,该方法能够充分挖掘文本潜在信息,效率较好且可视化效果好. 展开更多
关键词 主题建模 相关分析 情感研究 情感词典 文档-词项矩阵 可视化效果
下载PDF
基于语句-词条矩阵的聚簇式动态增长聚类算法 被引量:1
7
作者 孙辉 陈晓云 马志新 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1814-1817,共4页
W eb信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息。为此该文提出了一种基于语句词条矩阵的聚簇式动态增长聚类算法。该平面分割的算法的整个工作过程有3个步骤:预处理W eb数据,进行文本摘取和... W eb信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息。为此该文提出了一种基于语句词条矩阵的聚簇式动态增长聚类算法。该平面分割的算法的整个工作过程有3个步骤:预处理W eb数据,进行文本摘取和过滤处理;形成每个文档的语句词条矩阵,构成若干文档的矩阵集合;通过聚簇式动态增长聚类算法,对相似文档进行聚类。对该算法进行了实验分析。结果表明,该算法在保持文档语义联系的同时,其对文档的聚类有较高的准确性。 展开更多
关键词 文档聚类 词频和反向词频 语句词条矩阵 文档矩阵集合
原文传递
基于潜在语义空间维度特性的多层文档聚类 被引量:11
8
作者 刘云峰 齐欢 +2 位作者 HU Xiang'en CAI Zhiqiang 代建民 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1783-1786,共4页
为实现文档在不同概念层次下的自动聚类,研究了潜在语义空间中维度的统计特性,发现对应大奇异值的维度描述了语义元素间的共性,对应小奇异值的维度描述了语义元素间的特性,呈现出潜在语义空间维度与概念粒度之间隐含的对应关系。基于这... 为实现文档在不同概念层次下的自动聚类,研究了潜在语义空间中维度的统计特性,发现对应大奇异值的维度描述了语义元素间的共性,对应小奇异值的维度描述了语义元素间的特性,呈现出潜在语义空间维度与概念粒度之间隐含的对应关系。基于这种认识,通过采用不同维度来实现文档在不同概念粒度下的聚类,并获得了很好的聚类准确率。另外,在基于潜在语义分析的文档聚类算法中,采用文档自检索矩阵的行向量,代替低维文档向量作为聚类对象,获得了更好的聚类准确率。 展开更多
关键词 信息处理 潜在语义分析 文档自检索矩阵 文档聚类 概念粒度
原文传递
基于SVD的档案学主题挖掘
9
作者 奉国和 王丹迪 李媚婵 《山东大学学报(理学版)》 CAS CSCD 北大核心 2016年第1期95-100,共6页
收集2010—2014年国家社科基金档案学领域立项课题,基于课题名称进行分词等预处理,得到词项-文档矩阵,依据词项重要性设计局部及全局权重,组合局部与全局权重,得到词项-文档矩阵权重值。利用奇异值分解SVD进行特征降维,研究在不同维度下... 收集2010—2014年国家社科基金档案学领域立项课题,基于课题名称进行分词等预处理,得到词项-文档矩阵,依据词项重要性设计局部及全局权重,组合局部与全局权重,得到词项-文档矩阵权重值。利用奇异值分解SVD进行特征降维,研究在不同维度下近5 a国家社科档案学立项课题研究主题。经过可视化分析得到社科档案学七大研究主题为:非物质文化遗产保护、电子文件管理、数字资源建设及体系、档案信息资源价值与挖掘、档案保护机制、档案馆研究、档案信息安全。 展开更多
关键词 词项-文档矩阵 奇异值分解 权重设计 档案学课题 主题挖掘
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部