-
题名财务文档分词及文档相关性分析
被引量:1
- 1
-
-
作者
殷伟
-
机构
盐城市工商行政管理局
-
出处
《电脑知识与技术》
2013年第3期1718-1719,1722,共3页
-
文摘
搜集财务专业语料库,利用中科院的分词工具对专业语料库进行分词,计算分词的准确率和召回率,并将结果保存在文件中。计算文档中给定词的词频和反文档频率,并对专业词汇加权,提高专业词汇的重要性,利用数学模型进行文档的相似度匹配。设置阈值,若两篇文档的相似度大于指定阈值,即认定两篇文档相似,进而生成一个矩阵,求解矩阵的连通性,得到该本聚类的结果,并进行文章的相关性分析。该文有利于财务分析人员根据已分类好的财务文档,了解企业过去,评价企业现状,作出对企业有长远影响的决策。
-
关键词
准确率和召回率
财务文档相似度匹配
财务文档相关性分析
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-