摘要
在智能算法快速发展背景下,学界已开始借助词提取、主题聚类、情感分析、网络分析等自然语言处理方法对现有体育学知识进行挖掘整合,并基于此展开体系构建与话语呈现研究,以回应中国特色体育学“三大体系”与自主知识体系建设。事实上,在自然语言处理过程中,文本分词结果对知识挖掘结果起基础性作用。从现有研究看,体育学知识挖掘研究多只采用jieba、Han LP等基础分词模块对文本进行简单分词,这较难捕捉到一些体育学特色突出的词汇,继而影响体育学知识挖掘的精准度。词向量(Word Embedding)是一种通过对文本语料展开大数据学习,将其中的词语或短语映射到一个低维、连续、稠密的实数向量空间中,并用一个固定长度对词语进行向量化表示的形式。这可以使相似语义的词语在几何层面距离相近,提升知识挖掘的精准度。
出处
《上海体育大学学报》
北大核心
2024年第10期48-48,共1页
Journal of Shanghai University of Sport
基金
国家社会科学基金项目(23BTY106)。