为进一步提高文本相似度计算的准确性,提出基于句向量的文本相似函数(part of speech and order smooth inverse frequency,PO-SIF),从词性和词序方面优化了平滑反频率(smooth inverse frequency,SIF)计算方法,SIF算法的核心是通过加权...为进一步提高文本相似度计算的准确性,提出基于句向量的文本相似函数(part of speech and order smooth inverse frequency,PO-SIF),从词性和词序方面优化了平滑反频率(smooth inverse frequency,SIF)计算方法,SIF算法的核心是通过加权和去除噪声得到句向量来计算句子相似度。在具体计算时,一方面通过增加词性消减因子调节SIF句向量计算权重参数,获得带有词性信息的句向量,另一方面通过将词序相似度与SIF句向量相似度算法进行线性加权优化句子相似度得分。实验结果表明,增加词性和词序的方法可以提升算法准确率。展开更多
W eb信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息。为此该文提出了一种基于语句词条矩阵的聚簇式动态增长聚类算法。该平面分割的算法的整个工作过程有3个步骤:预处理W eb数据,进行文本摘取和...W eb信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息。为此该文提出了一种基于语句词条矩阵的聚簇式动态增长聚类算法。该平面分割的算法的整个工作过程有3个步骤:预处理W eb数据,进行文本摘取和过滤处理;形成每个文档的语句词条矩阵,构成若干文档的矩阵集合;通过聚簇式动态增长聚类算法,对相似文档进行聚类。对该算法进行了实验分析。结果表明,该算法在保持文档语义联系的同时,其对文档的聚类有较高的准确性。展开更多
文摘为进一步提高文本相似度计算的准确性,提出基于句向量的文本相似函数(part of speech and order smooth inverse frequency,PO-SIF),从词性和词序方面优化了平滑反频率(smooth inverse frequency,SIF)计算方法,SIF算法的核心是通过加权和去除噪声得到句向量来计算句子相似度。在具体计算时,一方面通过增加词性消减因子调节SIF句向量计算权重参数,获得带有词性信息的句向量,另一方面通过将词序相似度与SIF句向量相似度算法进行线性加权优化句子相似度得分。实验结果表明,增加词性和词序的方法可以提升算法准确率。