期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
学术论文子句语义类型自动标注技术研究 被引量:3
1
作者 黄文彬 王越千 +1 位作者 步一 车尚锟 《情报学报》 CSSCI CSCD 北大核心 2021年第6期621-629,共9页
学术论文语义结构的解析可以广泛应用于信息抽取、论文检索等多个问题。本文通过机器学习的方法,自动标注论文全文中每个子句的语义类型,以实现对论文语义结构的识别。本文使用了论文的宏观篇章结构,以及每个子句的语法、词汇信息作为特... 学术论文语义结构的解析可以广泛应用于信息抽取、论文检索等多个问题。本文通过机器学习的方法,自动标注论文全文中每个子句的语义类型,以实现对论文语义结构的识别。本文使用了论文的宏观篇章结构,以及每个子句的语法、词汇信息作为特征,训练了支持向量机、条件随机场、随机森林、梯度提升分类器和随机梯度下降分类器5种机器学习模型,并将其中效果较好的支持向量机、条件随机场、梯度提升分类器3个模型进行集成,最终得到适用于学术论文全文本子句语义类型标注的集成模型。实验证明,无论在论文全文还是仅包含"结果"的章节中,与对照模型相比,集成模型的子句语义类型标注准确度和F-score均有提升。此外,本文通过主题聚类实验验证了集成模型在识别论文主题等文本挖掘领域能实现较好的效果。 展开更多
关键词 学术论文 语义标注 文本分类 机器学习 聚类
下载PDF
计算文本相似度的方法体系与应用分析 被引量:16
2
作者 黄文彬 车尚锟 《情报理论与实践》 CSSCI 北大核心 2019年第11期128-134,共7页
[目的/意义]文本间的相似度是信息检索、文档检测和文本挖掘等任务核心参考的指标之一。梳理现有计算文本相似度的方法、分类体系及应用,有助于研究人员选择合适的计算方法提高特定场景应用的性能。[方法/过程]文章将算法利用文本语义... [目的/意义]文本间的相似度是信息检索、文档检测和文本挖掘等任务核心参考的指标之一。梳理现有计算文本相似度的方法、分类体系及应用,有助于研究人员选择合适的计算方法提高特定场景应用的性能。[方法/过程]文章将算法利用文本语义信息的程度、基础语义信息类型、模型类型以及关联关系类型作为划分依据构建方法体系,并从原理和应用上梳理算法间的异同。[结果/结论]将文本相似度计算方法分为无语义信息、基于浅层语义信息、基于深层语义信息三个大类,对参考的语义信息、算法的基本原理和该类的典型应用做了探索分析。[创新/价值]使文本相似度计算方法具有更清晰和完整的体系,使研究人员能更好地区分相似度计算方法间的计算需求与应用场景的差异。 展开更多
关键词 文本挖掘 文本相似度 分类体系 语义信息 应用
下载PDF
群体极化还是协商调和?——维基百科“Islamophobia”词条实证研究 被引量:5
3
作者 尚闻一 车尚锟 《图书馆论坛》 CSSCI 北大核心 2019年第9期71-81,共11页
网络技术发展促进了网络空间中的多元对话,也引发了群体极化等问题。以维基百科为代表的在线协作书写社群提供了一种协商机制,对网络用户的意见形成与演变有重要影响。文章选取维基百科词条“Islamophobia”(伊斯兰恐惧症)这一极具争议... 网络技术发展促进了网络空间中的多元对话,也引发了群体极化等问题。以维基百科为代表的在线协作书写社群提供了一种协商机制,对网络用户的意见形成与演变有重要影响。文章选取维基百科词条“Islamophobia”(伊斯兰恐惧症)这一极具争议性的词条进行实证研究,构建训练模型判断讨论页中文本的情感倾向并分析其变化;构建编辑用户的社会网络并进行互惠性关系分析和社群发现及其相似性计算。研究结果表明:维基百科这一词条的讨论微观上趋向激化、宏观上趋向缓和,编辑关系则整体趋向协调。初步证明维基百科的在线协作书写机制有利于促进不同观点对话,在观点交锋中达成协商调和。 展开更多
关键词 维基百科 群体极化 在线协作书写 计算社会科学 数据挖掘
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部