-
题名基于中文维基百科的词语语义相关度计算
被引量:9
- 1
-
-
作者
万富强
吴云芳
-
机构
北京大学计算语言学教育部重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2013年第6期31-37,109,共8页
-
基金
国家自然科学基金资助项目(61371129)
教育部人文社会科学研究规划基金资助项目(13YJA740060)
国家社科基金资助项目(12&ZD227)
-
文摘
语义相关度计算在信息检索、词义消歧、自动文摘、拼写校正等自然语言处理中均扮演着重要的角色。该文采用基于维基百科的显性语义分析方法计算汉语词语之间的语义相关度。基于中文维基百科,将词表示为带权重的概念向量,进而将词之间相关度的计算转化为相应的概念向量的比较。进一步,引入页面的先验概率,利用维基百科页面之间的链接信息对概念向量各分量的值进行修正。实验结果表明,使用该方法计算汉语语义相关度,与人工标注标准的斯皮尔曼等级相关系数可以达到0.52,显著改善了相关度计算的结果。
-
关键词
语义相关度
显性语义分析
中文维基百科
先验概率
概念向量
-
Keywords
semantic relatedness
explicit semantic analysis
Chinese Wikipedia
priori probability
concept vectors
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合知识图谱和ESA方法的网络新词识别
被引量:2
- 2
-
-
作者
刘申凯
周霁婷
朱永华
高洪皓
-
机构
上海大学
上海大学计算机工程与科学学院
上海大学计算中心
-
出处
《计算机技术与发展》
2019年第3期12-17,共6页
-
基金
国家重点研发计划专项课题(2017YFD0400101)
-
文摘
随着互联网的高速发展,微博、微信等文本形式的使用量逐渐增多,对于这类文本的分析理解在自然语言处理领域形成了新的挑战,尤其是文本中的网络新词识别与语义理解方面。为了克服传统方法无法识别网络新词及其语义的缺点,提出了一种融合知识图谱和显性语义分析(explicit semantic analysis,ESA)方法的网络新词识别方法。该方法以短语的粗粒度对原文进行切分来保留词语间的逻辑关系,利用百度知识图谱Schema匹配短语的语义表达后,再逐步以ESA方法分解剩余文本并将短语的百科信息提炼出核心语义词汇来补充Schema无法识别的部分。实验结果表明,与已有新词识别算法相比,该算法仅需要少量的语料库作为底层知识支撑,大幅降低了人工规则制订的成本,并提高了网络新词识别正确率与词语理解准确率。
-
关键词
语义识别
语义相关度
新词识别
知识图谱
显性语义分析
-
Keywords
semantic recognition
semantic relevance
neologism recognition
knowledge graph
explicit semantic analysis
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于维基百科的中文文本层次路径生成研究
- 3
-
-
作者
夏天
-
机构
中国人民大学数据工程与知识工程教育部重点实验室
中国人民大学信息资源管理学院
-
出处
《现代图书情报技术》
CSSCI
2016年第3期25-32,共8页
-
基金
北京高等学校青年英才计划项目"基于链接和主题分析的微博社区挖掘研究"(项目编号:YETP0215)
国家社会科学基金重大项目"国家数字档案资源整合与服务机制研究"(项目编号:13&ZD184)的研究成果之一
-
文摘
【目的】利用维基百科知识库生成自由文本的层次语义路径。【方法】针对维基百科的中文导出数据,构建层次结构的树状图;进而通过显性语义分析将自由文本表示为文章概念向量,通过文章–类别关联关系将文本映射到树状图中构成种子类别节点,再通过种子节点开始的信息扩散和自顶向下的路径选择与优化,生成层次路径。【结果】首条层次路径的平均相关度在测试集上达到54.10%,前20条路径整体上按相关度降序排序。【局限】未分析显性概念向量在保留不同概念数量时对生成路径质量的影响。【结论】基于维基百科知识库所生成的层次路径结果能够反映文本的主要语义信息。
-
关键词
语义路径
显性语义分析
层次分类
维基百科
-
Keywords
Semantic path Explicit semantic analysis Hierarchical classification Wikipedia
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-