随着网络与信息技术的快速发展,导致网络上产生了大量的电子文本,而文本间的相似度计算是文本处理的一种重要手段。对于大规模的文本集,通常采用向量空间模型(vector space model,VSM)进行文本表示,但是该方法面临着文本向量维度较高及...随着网络与信息技术的快速发展,导致网络上产生了大量的电子文本,而文本间的相似度计算是文本处理的一种重要手段。对于大规模的文本集,通常采用向量空间模型(vector space model,VSM)进行文本表示,但是该方法面临着文本向量维度较高及文本语义相似度难以度量的问题。提出一种改进的文本相似度计算方法,从大量的特征空间中选择出具有代表性的元数据特征向量元素,以降低向量空间的维度;构建领域概念树并设计基于领域概念树的文本相似度算法,对领域概念中广泛存在的同义词进行处理,以提高文本之间语义相似度度量的性能。实验结果表明:通过降维和概念相似度计算可提高文本相似度计算的性能。展开更多
文献资产元数据仓储建设是图书馆文献资产管理的基础,在文献资产元数据仓储建设中,文献资产权益的法律保障问题、图书馆合理获得及使用文献元数据的权益保障问题及资产元数据组织规范问题的解决是关键。文章通过对高校图书馆数字资源采...文献资产元数据仓储建设是图书馆文献资产管理的基础,在文献资产元数据仓储建设中,文献资产权益的法律保障问题、图书馆合理获得及使用文献元数据的权益保障问题及资产元数据组织规范问题的解决是关键。文章通过对高校图书馆数字资源采购联盟(Digital Resource Acquisition Alliance of Chinese Academic Libraries,缩写为DRAA)采购方案样本中存档权、永久使用权、永久访问权、元数据获得权等与资产管理密切相关的条款的研究,探讨数字资产权益的保障程度;并以重庆大学图书馆为例,提出了基于教育部学科门类进行资源组织的思路,提出了文献判重标准和数字资产馆藏号方案。展开更多
文摘随着网络与信息技术的快速发展,导致网络上产生了大量的电子文本,而文本间的相似度计算是文本处理的一种重要手段。对于大规模的文本集,通常采用向量空间模型(vector space model,VSM)进行文本表示,但是该方法面临着文本向量维度较高及文本语义相似度难以度量的问题。提出一种改进的文本相似度计算方法,从大量的特征空间中选择出具有代表性的元数据特征向量元素,以降低向量空间的维度;构建领域概念树并设计基于领域概念树的文本相似度算法,对领域概念中广泛存在的同义词进行处理,以提高文本之间语义相似度度量的性能。实验结果表明:通过降维和概念相似度计算可提高文本相似度计算的性能。
文摘文献资产元数据仓储建设是图书馆文献资产管理的基础,在文献资产元数据仓储建设中,文献资产权益的法律保障问题、图书馆合理获得及使用文献元数据的权益保障问题及资产元数据组织规范问题的解决是关键。文章通过对高校图书馆数字资源采购联盟(Digital Resource Acquisition Alliance of Chinese Academic Libraries,缩写为DRAA)采购方案样本中存档权、永久使用权、永久访问权、元数据获得权等与资产管理密切相关的条款的研究,探讨数字资产权益的保障程度;并以重庆大学图书馆为例,提出了基于教育部学科门类进行资源组织的思路,提出了文献判重标准和数字资产馆藏号方案。