期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
文本主题提取及相似度计算系统研究与开发
1
作者 郭肇毅 《现代信息科技》 2017年第4期20-22,共3页
文本主题词提取及相似度计算在搜索引擎、智能问答等自然语言处理的很多研究领域都有着广泛的应用,国内外的专家学者对此有着广泛的研究,但大多都采用了复杂的数学模型,实现起来较为麻烦。对此,在文本主题词提取中,采用提取出文档中除... 文本主题词提取及相似度计算在搜索引擎、智能问答等自然语言处理的很多研究领域都有着广泛的应用,国内外的专家学者对此有着广泛的研究,但大多都采用了复杂的数学模型,实现起来较为麻烦。对此,在文本主题词提取中,采用提取出文档中除开常见停用词之外的高频词,并通过对比高频词向量之间的夹角余弦,剔除与其他高频词相差最大的噪声高频词的方法,得到文档最终的主题词。再根据提取出的主题词,通过比较两篇文档的主题词的词向量之和之间的夹角余弦,以此来判断两篇文档之间的相似度。基于此思路,开发了一款基于win Form技术的文本主题提取及相似度计算软件系统,实现较为简单,效果超出单纯通过文档向量来判定文档相似度的方法。 展开更多
关键词 文本主题提取 文本相似度计算 高频词 词向量 软件系统
下载PDF
基于规则模型的网页主题文本提取方法 被引量:3
2
作者 张裕钦 李振坤 吴永杰 《计算机工程与设计》 CSCD 北大核心 2009年第20期4665-4667,共3页
通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法。该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到... 通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法。该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到有效提取网页主题文本的目的。实验结果表明,该方法对于各类型网页主题文本的提取均具有较高的准确率,通用性强。 展开更多
关键词 规则模型 信息抽取 主题文本提取 数据采集 WEB挖掘
下载PDF
The Chinese Image on Twitter: An Empirical Study Based on Text Mining
3
作者 Ming Xiao Hongfa Yi 《Journalism and Mass Communication》 2016年第8期469-479,共11页
The study use crawler to get 842,917 hot tweets written in English with keyword Chinese or China. Topic modeling and sentiment analysis are used to explore the tweets. Thirty topics are extracted. Overall, 33% of the ... The study use crawler to get 842,917 hot tweets written in English with keyword Chinese or China. Topic modeling and sentiment analysis are used to explore the tweets. Thirty topics are extracted. Overall, 33% of the tweets relate to politics, and 20% relate to economy, 21% relate to culture, and 26% relate to society. Regarding the polarity, 55% of the tweets are positive, 31% are negative and the other 14% are neutral. There are only 25.3% of the tweets with obvious sentiment, most of them are joy. 展开更多
关键词 Chinese image topic modeling sentiment analysis text mining TWITTER
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部