期刊文献+
共找到85篇文章
< 1 2 5 >
每页显示 20 50 100
Fuzzy c-means text clustering based on topic concept sub-space 被引量:3
1
作者 吉翔华 陈超 +1 位作者 邵正荣 俞能海 《Journal of Southeast University(English Edition)》 EI CAS 2007年第3期439-442,共4页
To improve the accuracy of text clustering, fuzzy c-means clustering based on topic concept sub-space (TCS2FCM) is introduced for classifying texts. Five evaluation functions are combined to extract key phrases. Con... To improve the accuracy of text clustering, fuzzy c-means clustering based on topic concept sub-space (TCS2FCM) is introduced for classifying texts. Five evaluation functions are combined to extract key phrases. Concept phrases, as well as the descriptions of final clusters, are presented using WordNet origin from key phrases. Initial centers and membership matrix are the most important factors affecting clustering performance. Orthogonal concept topic sub-spaces are built with the topic concept phrases representing topics of the texts and the initialization of centers and the membership matrix depend on the concept vectors in sub-spaces. The results show that, different from random initialization of traditional fuzzy c-means clustering, the initialization related to text content contributions can improve clustering precision. 展开更多
关键词 TCS2FCM topic concept space fuzzy c-means clustering text clustering
下载PDF
Identification and Prediction of Interdisciplinary Research Topics: A Study Based on the Concept Lattice Theory 被引量:4
2
作者 Haiyun Xu Chao Wang +1 位作者 Kun Dong Zenghui Yue 《Journal of Data and Information Science》 CSCD 2019年第1期60-88,共29页
Purpose: Formal concept analysis(FCA) and concept lattice theory(CLT) are introduced for constructing a network of IDR topics and for evaluating their effectiveness for knowledge structure exploration.Design/methodolo... Purpose: Formal concept analysis(FCA) and concept lattice theory(CLT) are introduced for constructing a network of IDR topics and for evaluating their effectiveness for knowledge structure exploration.Design/methodology/approach: We introduced the theory and applications of FCA and CLT, and then proposed a method for interdisciplinary knowledge discovery based on CLT. As an example of empirical analysis, interdisciplinary research(IDR) topics in Information & Library Science(LIS) and Medical Informatics, and in LIS and Geography-Physical, were utilized as empirical fields. Subsequently, we carried out a comparative analysis with two other IDR topic recognition methods.Findings: The CLT approach is suitable for IDR topic identification and predictions.Research limitations: IDR topic recognition based on the CLT is not sensitive to the interdisciplinarity of topic terms, since the data can only reflect whether there is a relationship between the discipline and the topic terms. Moreover, the CLT cannot clearly represent a large amounts of concepts.Practical implications: A deeper understanding of the IDR topics was obtained as the structural and hierarchical relationships between them were identified, which can help to get more precise identification and prediction to IDR topics.Originality/value: IDR topics identification based on CLT have performed well and this theory has several advantages for identifying and predicting IDR topics. First, in a concept lattice, there is a partial order relation between interconnected nodes, and consequently, a complete concept lattice can present hierarchical properties. Second, clustering analysis of IDR topics based on concept lattices can yield clusters that highlight the essential knowledge features and help display the semantic relationship between different IDR topics. Furthermore, the Hasse diagram automatically displays all the IDR topics associated with the different disciplines, thus forming clusters of specific concepts and visually retaining and presenting the associations of IDR topics through multiple inheritance relationships between the concepts. 展开更多
关键词 INTERDISCIPLINARY research IDR topicS concept lattice FORMAL ANALYSIS Cluster ANALYSIS
下载PDF
论明清侠义章回小说的伦理叙事与女性观念的发展演变
3
作者 樊庆彦 《烟台大学学报(哲学社会科学版)》 CSSCI 2024年第1期120-128,共9页
明清时期,侠义章回小说逐步发展繁荣,女性人物的性别存在也受到越来越多的关注,通过伦理叙事所反映出的女性观念逐渐增强,女性角色在书中所占地位也越发凸显。这反映了明清小说家对社会现实认识的逐步深入,更加符合下层民众的审美趣味,... 明清时期,侠义章回小说逐步发展繁荣,女性人物的性别存在也受到越来越多的关注,通过伦理叙事所反映出的女性观念逐渐增强,女性角色在书中所占地位也越发凸显。这反映了明清小说家对社会现实认识的逐步深入,更加符合下层民众的审美趣味,从而给侠义小说的创作带来了崭新的面貌。女性角色增加与社会环境的变化、文化思潮的影响、创作观念的更新、文学艺术的发展不无关系。但是,由于封建时代伦理道德规范仍然占有统治地位,女性最终只有服膺于性别角色的固有设定,进入传统伦常秩序之中,才能获得人生价值的圆满。 展开更多
关键词 明清小说家 侠义题材 章回小说 女性观念 伦理叙事
下载PDF
知识单元重组视角下的科学主题预测研究 被引量:4
4
作者 梁继文 杨建林 王伟 《情报学报》 CSSCI CSCD 北大核心 2023年第5期511-524,共14页
准确的科学主题预测能够明确学科未来的发展方向,为科研领域的发展规划和管理决策提供参考。本文着眼于新生科学主题的预测,基于知识单元重组视角,将主题-特征词的表征关系类比为科学概念-知识单元的表征关系,提出科学主题预测方法。首... 准确的科学主题预测能够明确学科未来的发展方向,为科研领域的发展规划和管理决策提供参考。本文着眼于新生科学主题的预测,基于知识单元重组视角,将主题-特征词的表征关系类比为科学概念-知识单元的表征关系,提出科学主题预测方法。首先,使用LDA(latent Dirichlet allocation)主题模型获取全局主题、特征词与概率矩阵,通过转置向量空间获得特征词向量;其次,运用ARIMA(autoregressive integrated moving average model)模型预测特征词的词频并计算向量调节系数,从而获得特征词预测向量,运用t-SNE(t-distributed stochastic neighbor embedding)算法将预测向量降维,并使用模糊C-均值算法将低维预测向量聚类生成预测主题,实现知识单元的重组;最后,筛选出由多个原始主题聚合而来、具有全新释义的预测主题,将其视为科学主题预测结果。本文以“知识管理-知识组织-知识服务”领域为例进行实证研究,预测出智库、数字人文等在已有领域研究中尚未出现的新词与相关主题,并通过特征词直接聚合与概念集成这两种主题映射模式,获得这些新生主题的基本内涵与相关研究内容。实证结果表明,本文提出的科学主题预测方法能够准确地预测出新生主题。 展开更多
关键词 知识单元 科学概念 科学主题 主题预测 向量调节
下载PDF
基于OBE理念的机器学习课程实验教学案例设计 被引量:4
5
作者 董婧 程波 陈静锐 《曲靖师范学院学报》 2023年第3期103-109,共7页
机器学习是人工智能专业的核心课,课程具有工程实践性强、算法复杂且不易掌握的特点.基于工程教育的OBE教育理念,依据机器学习项目开发流程,利用课程算法设计了新浪微博热点话题研究的实验教学案例.将微博文本向量化后,基于TF-IDF算法... 机器学习是人工智能专业的核心课,课程具有工程实践性强、算法复杂且不易掌握的特点.基于工程教育的OBE教育理念,依据机器学习项目开发流程,利用课程算法设计了新浪微博热点话题研究的实验教学案例.将微博文本向量化后,基于TF-IDF算法赋予特征项权重并构建特征词矩阵,然后利用LDA模型采用EM算法得到不同时间窗口的主题,结合可视化技术发现微博热点主题.开展该教学案例的实验教学实践表明,使用机器学习算法解决社会热点问题的实验案例,不但能够较好地培养学生的实际工程能力和工程素养,而且激发了学生对该门课程的自主学习热情,是一种有效的实验教学案例设计方法;该实验综合性强,对学生的数理功底也是一种挑战. 展开更多
关键词 机器学习课程 教学案例设计 OBE理念 新浪微博文本 热点主题
下载PDF
数字出版的关键概念与新兴研究主题 被引量:3
6
作者 高坚 《数字出版研究》 2023年第2期43-49,共7页
数字出版活动受技术创新驱动,其在演化发展过程中呈现出诸多新特征和新现象,由此引致数字出版基本概念的持续变动和多次界定,“窄化”“泛化”“混用”伴随数字出版活动整个发展过程。本文从出版本质出发重新表述数字出版的概念,通过对... 数字出版活动受技术创新驱动,其在演化发展过程中呈现出诸多新特征和新现象,由此引致数字出版基本概念的持续变动和多次界定,“窄化”“泛化”“混用”伴随数字出版活动整个发展过程。本文从出版本质出发重新表述数字出版的概念,通过对数字技术、内容(数据、信息、知识)、数字交互,去中心化等关键概念的深入阐释与分析,明晰数字出版研究应关注媒介技术层面的议题,重视关键概念之间的对接与融合,关照数字出版客体与社会生活的联系,重新审视数字出版既有理论体系等。 展开更多
关键词 数字出版 关键概念 新兴研究主题
下载PDF
层次概念的分布式表示和学习方法综述
7
作者 朱晓光 《计算机技术与发展》 2023年第10期1-7,共7页
层次概念能够有效解释语言模型的隐含知识,并且提升语言模型的结构化优化性能。针对层次概念表示和学习模型的多样化发展,该文分析了层次概念表示的线性空间、概率空间和文本蕴含性质,梳理了概念学习模型的层次结构和优化原理,用于促进... 层次概念能够有效解释语言模型的隐含知识,并且提升语言模型的结构化优化性能。针对层次概念表示和学习模型的多样化发展,该文分析了层次概念表示的线性空间、概率空间和文本蕴含性质,梳理了概念学习模型的层次结构和优化原理,用于促进概念学习模型的应用效果。通过阐述概念学习过程和语义空间的层次性质,归纳层次概念学习的四类计算模型:基于条件熵的文本层次概念抽取;建立语言资源的概念层次和神经网络的隐含层次之间的映射;通过迭代的随机过程拓展主题模型;在正则化因子中添加语义关系约束。通过概念学习综述得出如下结论:层次性的语言模型广泛结合了显明和隐含的概念表示方法;统计模型和语言资源的语义映射是拓展层次结构的主要路径;层次结构具有双曲空间和嵌套球形结构;层次结构分析可以提升统计模型的解释水平。 展开更多
关键词 层次概念 概念学习 分布式表示 统计语言模型 层次主题模型
下载PDF
基于概念统计和语义层次分析的英文自动文摘研究 被引量:9
8
作者 季姮 罗振声 +1 位作者 万敏 高小云 《中文信息学报》 CSCD 北大核心 2003年第2期14-20,共7页
传统的自动文摘方法基于词语统计抽取文摘句 ,未进行文本的语义分析 ,导致文摘精度不高。为了克服传统方法的缺点 ,本文提出了一种基于主题概念的自动文摘方法 ,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用W... 传统的自动文摘方法基于词语统计抽取文摘句 ,未进行文本的语义分析 ,导致文摘精度不高。为了克服传统方法的缺点 ,本文提出了一种基于主题概念的自动文摘方法 ,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用WordNet以概念统计代替传统的词频统计 ,基于主题概念构建向量空间模型 ,计算句子重要度。并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块 ,以意义块为单元抽取文摘 ,初步解决了多主题文章的文摘结构不平衡问题。本文主要介绍了概念层次树的构造 ,主题概念的抽取步骤 ,基于主题概念的句子重要度的计算和意义块的划分算法。测试表明 ,通过概念统计和语义层次分析的方法 ,我们设计了更理想的向量空间模型 ,系统生成的文摘精度较高 。 展开更多
关键词 计算机应用 中文信息处理 概念统计 主题概念 向量空间模型 句子重要度 意义块划分
下载PDF
知识地图相关概念辨析及其研究进展 被引量:44
9
作者 唐钦能 高峰 王金平 《情报理论与实践》 CSSCI 北大核心 2011年第1期121-125,共5页
本文首先分析了知识地图与知识图谱、主题图及概念图之间的联系与区别,澄清了这几个概念使用时造成的混乱。其次侧重介绍知识地图研究的进展,包括知识地图中知识建模技术及数据挖掘与人工智能技术在知识地图构建过程的应用。最后分析了... 本文首先分析了知识地图与知识图谱、主题图及概念图之间的联系与区别,澄清了这几个概念使用时造成的混乱。其次侧重介绍知识地图研究的进展,包括知识地图中知识建模技术及数据挖掘与人工智能技术在知识地图构建过程的应用。最后分析了知识地图的应用领域及其未来研究方向。 展开更多
关键词 知识地图 知识图谱 主题图 概念图 研究进展
下载PDF
基于概念统计的英文自动文摘研究 被引量:9
10
作者 万敏 罗振声 +1 位作者 季姮 高小云 《计算机工程与应用》 CSCD 北大核心 2002年第24期7-9,16,共4页
文章提出了一种基于概念统计和语义层次分析的自动文摘方法,并以此实现了一个英文自动文摘系统。系统利用WordNet对英文文章进行词语分析,用概念统计的方法选取文章的主题概念,以此构建向量空间模型;并根据主题概念在概念层次树上的分... 文章提出了一种基于概念统计和语义层次分析的自动文摘方法,并以此实现了一个英文自动文摘系统。系统利用WordNet对英文文章进行词语分析,用概念统计的方法选取文章的主题概念,以此构建向量空间模型;并根据主题概念在概念层次树上的分布划分意义块,以意义块为单位抽取文摘,初步解决多主题文章的文摘结构不平衡问题。该文主要介绍概念层次树的构造,主题概念的抽取步骤,句子重要度的计算和意义块的划分算法。测试表明该文提到的方法比传统的基于词频统计的方法有更高的召回率与精确率。 展开更多
关键词 概念统计 英文自动文摘 主题概念 向量空间模型 句子重要度 计算机
下载PDF
基于标签主题和概念空间的个性化推荐研究 被引量:7
11
作者 房小可 纪春光 《情报理论与实践》 CSSCI 北大核心 2015年第5期105-111,共7页
社会化标签已经成为个性化信息推荐领域的研究热点之一。为了克服标签推荐存在的不足,文章提出一种综合考虑标签主题和主题概念空间两种因素的标签推荐方法 (LDA-Concept)。通过主题下标签的推荐可以保证推荐的准确性,标签概念空间的推... 社会化标签已经成为个性化信息推荐领域的研究热点之一。为了克服标签推荐存在的不足,文章提出一种综合考虑标签主题和主题概念空间两种因素的标签推荐方法 (LDA-Concept)。通过主题下标签的推荐可以保证推荐的准确性,标签概念空间的推荐可以保证多样性。以MovieLens为平台进行实验,结果表明主题因素和概念空间因素有着同等的重要性,提出的LDA-Concept方法优于单纯使用LDA方法。 展开更多
关键词 社会化标签 潜在主题 概念空间 个性化推荐
下载PDF
基于信息论的潜在概念获取与文本聚类 被引量:7
12
作者 李晓光 于戈 +1 位作者 王大玲 鲍玉斌 《软件学报》 EI CSCD 北大核心 2008年第9期2276-2284,共9页
针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用... 针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用以获得概念层次树以及在不同层次概念上的文本聚类结果,是一种双向软聚类方法.方法通过基于最短描述长度原则的概念选择方法,最终确定概念个数和对应的文本聚类结果.实验结果表明,所提出的方法优于基于词空间的文本聚类方法以及双向硬聚类方法. 展开更多
关键词 潜在概念 主题 文本聚类 信息论
下载PDF
受限领域中文文本内容主题概念识别研究 被引量:1
13
作者 顾益军 于江德 +1 位作者 刘群 樊孝忠 《计算机工程与应用》 CSCD 北大核心 2004年第1期58-59,70,共3页
该文尝试利用领域知识库,实现受限领域中文文本内容主题概念识别,并尝试利用领域概念建立特征向量,实现受限领域文本与主题概念的相关度计算。其中,利用领域知识库进行主题特征识别,利用知识库中概念间的关系进行特征项权重的计算,并利... 该文尝试利用领域知识库,实现受限领域中文文本内容主题概念识别,并尝试利用领域概念建立特征向量,实现受限领域文本与主题概念的相关度计算。其中,利用领域知识库进行主题特征识别,利用知识库中概念间的关系进行特征项权重的计算,并利用knn算法进行文本与主题概念的相关度计算。实现了基于词汇分析技术和基于领域知识计算相结合的方式下,受限领域中文文本内容主题概念的识别和文本与主题概念的相关度计算。实验结果显示,主题识别平均正确率为79%文本与主题概念的相关度计算的正确率达到62%。 展开更多
关键词 向量空间模型 主题 概念 领域知识 几率比
下载PDF
基于主题相关概念和网页分块的主题爬虫研究 被引量:9
14
作者 黄仁 王良伟 《计算机应用研究》 CSCD 北大核心 2013年第8期2377-2380,2409,共5页
针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接... 针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接结构相结合的策略计算候选链接优先级,并在HITS算法的基础上提出了R-HITS算法计算链接结构对候选链接优先级的贡献。实验结果表明,利用该方法实现的主题爬虫查准率达66%、信息量总和达53%,在垂直搜索引擎和舆情分析应用方面有更好的搜索效果。 展开更多
关键词 主题爬虫 主题相关概念 网页分块 优先级计算 R-HITS
下载PDF
受限领域中文文本主题标引系统研究 被引量:1
15
作者 顾益军 樊孝忠 +1 位作者 于江德 李良富 《计算机应用》 CSCD 北大核心 2004年第1期6-7,共2页
文中介绍了受限领域中文文本主题标引系统的设计原理。该系统基于领域知识库进行主题特征识别 ,根据知识库中概念间的关系进行特征项权重的计算。实现了基于词汇分析技术和基于领域知识计算相结合的方式下 ,受限领域中文文本内容主题概... 文中介绍了受限领域中文文本主题标引系统的设计原理。该系统基于领域知识库进行主题特征识别 ,根据知识库中概念间的关系进行特征项权重的计算。实现了基于词汇分析技术和基于领域知识计算相结合的方式下 ,受限领域中文文本内容主题概念的识别。实验结果显示 ,主题识别平均正确率为 79%。 展开更多
关键词 知识 主题 概念
下载PDF
基于多Web信息源的主题概念网络获取 被引量:1
16
作者 许焱 金芝 +1 位作者 李戈 魏强 《计算机研究与发展》 EI CSCD 北大核心 2013年第9期1843-1854,共12页
Wikipedia一方面能够提供关于特定百科条目的概念性描述;另一方面,也通过分类系统将这些百科条目组织成一个概念网络.它对信息的广泛覆盖和有效组织使其成为了自动化知识获取的常用信息源.然而,仅仅依靠Wikipedia自身的信息,还不足以准... Wikipedia一方面能够提供关于特定百科条目的概念性描述;另一方面,也通过分类系统将这些百科条目组织成一个概念网络.它对信息的广泛覆盖和有效组织使其成为了自动化知识获取的常用信息源.然而,仅仅依靠Wikipedia自身的信息,还不足以准确地刻画其内部概念间的关联性知识,而这是符号化知识表述的一个重要组成部分.因此,提出了一种基于多Web信息源的主题概念网络获取方法.它以Wikipedia的分类系统为基础,同时利用搜索引擎收集相关的Web信息作为关联性知识验证和发现的参照系,并通过集成信息检索和自然语言处理等领域的方法,实现了以给定的主题词为核心,在Wikipedia分类系统对应的概念网络中获取面向该主题的概念网络,同时网络内的概念间关系得到识别和标注.我们基于不同领域的主题词进行了实验,对实验结果的经验性评估展示了所获取的主题概念网络既能满足面向主题的要求,其内部的概念关联性知识又具备了一定的精度要求. 展开更多
关键词 Web信息源 主题概念网络 知识获取 信息检索 自然语言处理
下载PDF
逻辑思维能力在英语专业四级写作审题中的作用 被引量:5
17
作者 刘丽 董鸿雁 《通化师范学院学报》 2009年第7期70-72,共3页
英语写作是一项能反映作者的逻辑思维能力和语言表达能力的活动。英语写作中的各个环节,如审题、构思、写作、修改等都和逻辑思维密不可分。文中运用逻辑思维的三个组成部分——概念,判断和推理对英语专业四级作文审题的作用进行论述,... 英语写作是一项能反映作者的逻辑思维能力和语言表达能力的活动。英语写作中的各个环节,如审题、构思、写作、修改等都和逻辑思维密不可分。文中运用逻辑思维的三个组成部分——概念,判断和推理对英语专业四级作文审题的作用进行论述,旨在指导英语学习者在应对英语专业四级作文时能做到有的放矢,避免跑题和偏题。 展开更多
关键词 逻辑思维 英语专业四级 写作 审题 概念 判断 推理
下载PDF
关系概念的Web文本主题抽取模型研究 被引量:1
18
作者 程春雷 夏家莉 +2 位作者 曹重华 李光泉 曹中华 《小型微型计算机系统》 CSCD 北大核心 2016年第5期972-977,共6页
Web文本主题抽取是文本分类与知识发现的研究热点,既有的抽取方法一般存在主题粒度确定、主题语义解释、新网络词汇识别等难题,限制了其在开放应用领域的使用效果.论文借助百度百科词条背景,基于关系概念的概念分层以及主题连通的思想,... Web文本主题抽取是文本分类与知识发现的研究热点,既有的抽取方法一般存在主题粒度确定、主题语义解释、新网络词汇识别等难题,限制了其在开放应用领域的使用效果.论文借助百度百科词条背景,基于关系概念的概念分层以及主题连通的思想,面向中文文本构建了关系概念主题抽取模型(relational concept topic model,RCTM),RCTM模拟人的概念局部识别,上下文语境理解的并行阅读方式,由此实现中文文本的主题抽取.RCTM中主题的表达相对独立、语义连通灵活,主题的描述具有更好的通用性与可解释性,为Web文本主题抽取提供了新的研究思路.实验表明,RCTM具有良好的主题抽取准确率,文本抽取出的主题词,简洁直观、可解释性好.针对开放的WEB文本,具有更好的通用性、稳定性. 展开更多
关键词 文本主题 抽取 关系概念 概念连通
下载PDF
信息技术时代的课程论发展 被引量:31
19
作者 靳玉乐 张铭凯 孟宪云 《华东师范大学学报(教育科学版)》 CSSCI 北大核心 2019年第4期47-56,共10页
信息技术深刻影响课程论的发展。从静态确定到互动创生的知识形态变革、从实体思维到智能思维的人类认知飞跃以及从局部影响到整体巨变的社会环境重塑是信息技术对课程论发展带来的挑战,而社会环境变革创生的新发展情境、知识形态变革... 信息技术深刻影响课程论的发展。从静态确定到互动创生的知识形态变革、从实体思维到智能思维的人类认知飞跃以及从局部影响到整体巨变的社会环境重塑是信息技术对课程论发展带来的挑战,而社会环境变革创生的新发展情境、知识形态变革厚植的新发展基础和思维方式变革培育的新发展智能是信息技术为课程论发展创造的机遇。推进信息技术时代课程论的发展,需要树立新的理念,这包含课程本质的人性化、设计的动态化、教材的电子化、实施的平台化、评价的数据化和管理的协同化等。关注网络在线课程发展、重视电子课程资源创建、推进课堂与信息技术的深度融合、观照信息技术驱动下课程论发展的伦理问题,以及慎思信息技术影响课程论发展的尺度问题等,这些是信息技术时代课程论发展需要探索的新课题。 展开更多
关键词 信息技术 课程论发展 挑战 机遇 新理念 新课题
下载PDF
基于概念相似度的话题自动检测方法 被引量:3
20
作者 刘嵩 张先飞 +1 位作者 李弼程 孙显著 《信息工程大学学报》 2010年第3期303-307,共5页
传统话题自动检测一般采用向量空间模型进行文本相似度计算,这种方法单纯依靠特征词进行话题检测,忽略了词之间的概念及由此而引发的概念相似度。针对此问题,文章首先对网络新闻文本进行事件元素提取,并将事件元素特征词分解为概念集合... 传统话题自动检测一般采用向量空间模型进行文本相似度计算,这种方法单纯依靠特征词进行话题检测,忽略了词之间的概念及由此而引发的概念相似度。针对此问题,文章首先对网络新闻文本进行事件元素提取,并将事件元素特征词分解为概念集合,通过计算概念集合的内积空间得到词之间的相似度,进而根据词相似度计算文本相似度,最后根据概念相似度计算实现话题的自动检测。实验结果表明,本方法能够有效提高话题检测的准确率和召回率。 展开更多
关键词 话题检测 概念 相似度 向量空间模型 命名实体
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部