企业财务报告中存在大量蕴含着许多重要财务信息的非结构化文本信息.这类信息难以被计算机识别、分析和处理,也难以通过数据库技术进行管理.本文结合本体相关理论和自然语言处理(Natural Language Processing,NLP)技术,从词语属性描述...企业财务报告中存在大量蕴含着许多重要财务信息的非结构化文本信息.这类信息难以被计算机识别、分析和处理,也难以通过数据库技术进行管理.本文结合本体相关理论和自然语言处理(Natural Language Processing,NLP)技术,从词语属性描述、词语关系组织和相关知识链接3个维度构建财务报告领域本体,利用NLP工具对中文财务报告中的文本信息进行处理,将非结构化文本信息转化为结构化信息并使用XBRL表示,在一定程度上实现了文本信息的数据库存储与计算机分析处理.展开更多
文摘企业财务报告中存在大量蕴含着许多重要财务信息的非结构化文本信息.这类信息难以被计算机识别、分析和处理,也难以通过数据库技术进行管理.本文结合本体相关理论和自然语言处理(Natural Language Processing,NLP)技术,从词语属性描述、词语关系组织和相关知识链接3个维度构建财务报告领域本体,利用NLP工具对中文财务报告中的文本信息进行处理,将非结构化文本信息转化为结构化信息并使用XBRL表示,在一定程度上实现了文本信息的数据库存储与计算机分析处理.