期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
学术论文子句语义类型自动标注技术研究
被引量:
3
1
作者
黄文彬
王越千
+1 位作者
步一
车尚锟
《情报学报》
CSSCI
CSCD
北大核心
2021年第6期621-629,共9页
学术论文语义结构的解析可以广泛应用于信息抽取、论文检索等多个问题。本文通过机器学习的方法,自动标注论文全文中每个子句的语义类型,以实现对论文语义结构的识别。本文使用了论文的宏观篇章结构,以及每个子句的语法、词汇信息作为特...
学术论文语义结构的解析可以广泛应用于信息抽取、论文检索等多个问题。本文通过机器学习的方法,自动标注论文全文中每个子句的语义类型,以实现对论文语义结构的识别。本文使用了论文的宏观篇章结构,以及每个子句的语法、词汇信息作为特征,训练了支持向量机、条件随机场、随机森林、梯度提升分类器和随机梯度下降分类器5种机器学习模型,并将其中效果较好的支持向量机、条件随机场、梯度提升分类器3个模型进行集成,最终得到适用于学术论文全文本子句语义类型标注的集成模型。实验证明,无论在论文全文还是仅包含"结果"的章节中,与对照模型相比,集成模型的子句语义类型标注准确度和F-score均有提升。此外,本文通过主题聚类实验验证了集成模型在识别论文主题等文本挖掘领域能实现较好的效果。
展开更多
关键词
学术论文
语义标注
文本分类
机器学习
聚类
下载PDF
职称材料
计算文本相似度的方法体系与应用分析
被引量:
16
2
作者
黄文彬
车尚锟
《情报理论与实践》
CSSCI
北大核心
2019年第11期128-134,共7页
[目的/意义]文本间的相似度是信息检索、文档检测和文本挖掘等任务核心参考的指标之一。梳理现有计算文本相似度的方法、分类体系及应用,有助于研究人员选择合适的计算方法提高特定场景应用的性能。[方法/过程]文章将算法利用文本语义...
[目的/意义]文本间的相似度是信息检索、文档检测和文本挖掘等任务核心参考的指标之一。梳理现有计算文本相似度的方法、分类体系及应用,有助于研究人员选择合适的计算方法提高特定场景应用的性能。[方法/过程]文章将算法利用文本语义信息的程度、基础语义信息类型、模型类型以及关联关系类型作为划分依据构建方法体系,并从原理和应用上梳理算法间的异同。[结果/结论]将文本相似度计算方法分为无语义信息、基于浅层语义信息、基于深层语义信息三个大类,对参考的语义信息、算法的基本原理和该类的典型应用做了探索分析。[创新/价值]使文本相似度计算方法具有更清晰和完整的体系,使研究人员能更好地区分相似度计算方法间的计算需求与应用场景的差异。
展开更多
关键词
文本挖掘
文本相似度
分类体系
语义信息
应用
下载PDF
职称材料
群体极化还是协商调和?——维基百科“Islamophobia”词条实证研究
被引量:
5
3
作者
尚闻一
车尚锟
《图书馆论坛》
CSSCI
北大核心
2019年第9期71-81,共11页
网络技术发展促进了网络空间中的多元对话,也引发了群体极化等问题。以维基百科为代表的在线协作书写社群提供了一种协商机制,对网络用户的意见形成与演变有重要影响。文章选取维基百科词条“Islamophobia”(伊斯兰恐惧症)这一极具争议...
网络技术发展促进了网络空间中的多元对话,也引发了群体极化等问题。以维基百科为代表的在线协作书写社群提供了一种协商机制,对网络用户的意见形成与演变有重要影响。文章选取维基百科词条“Islamophobia”(伊斯兰恐惧症)这一极具争议性的词条进行实证研究,构建训练模型判断讨论页中文本的情感倾向并分析其变化;构建编辑用户的社会网络并进行互惠性关系分析和社群发现及其相似性计算。研究结果表明:维基百科这一词条的讨论微观上趋向激化、宏观上趋向缓和,编辑关系则整体趋向协调。初步证明维基百科的在线协作书写机制有利于促进不同观点对话,在观点交锋中达成协商调和。
展开更多
关键词
维基百科
群体极化
在线协作书写
计算社会科学
数据挖掘
下载PDF
职称材料
题名
学术论文子句语义类型自动标注技术研究
被引量:
3
1
作者
黄文彬
王越千
步一
车尚锟
机构
北京大学信息管理系
清华大学经济管理学院
出处
《情报学报》
CSSCI
CSCD
北大核心
2021年第6期621-629,共9页
基金
国家社会科学基金一般项目“基于全文本分析的数据科学范式及其演化研究”(20BTQ054)。
文摘
学术论文语义结构的解析可以广泛应用于信息抽取、论文检索等多个问题。本文通过机器学习的方法,自动标注论文全文中每个子句的语义类型,以实现对论文语义结构的识别。本文使用了论文的宏观篇章结构,以及每个子句的语法、词汇信息作为特征,训练了支持向量机、条件随机场、随机森林、梯度提升分类器和随机梯度下降分类器5种机器学习模型,并将其中效果较好的支持向量机、条件随机场、梯度提升分类器3个模型进行集成,最终得到适用于学术论文全文本子句语义类型标注的集成模型。实验证明,无论在论文全文还是仅包含"结果"的章节中,与对照模型相比,集成模型的子句语义类型标注准确度和F-score均有提升。此外,本文通过主题聚类实验验证了集成模型在识别论文主题等文本挖掘领域能实现较好的效果。
关键词
学术论文
语义标注
文本分类
机器学习
聚类
Keywords
research article
semantic labeling
text classification
machine learning
clustering
分类号
G254 [文化科学—图书馆学]
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
计算文本相似度的方法体系与应用分析
被引量:
16
2
作者
黄文彬
车尚锟
机构
北京大学信息管理系
出处
《情报理论与实践》
CSSCI
北大核心
2019年第11期128-134,共7页
文摘
[目的/意义]文本间的相似度是信息检索、文档检测和文本挖掘等任务核心参考的指标之一。梳理现有计算文本相似度的方法、分类体系及应用,有助于研究人员选择合适的计算方法提高特定场景应用的性能。[方法/过程]文章将算法利用文本语义信息的程度、基础语义信息类型、模型类型以及关联关系类型作为划分依据构建方法体系,并从原理和应用上梳理算法间的异同。[结果/结论]将文本相似度计算方法分为无语义信息、基于浅层语义信息、基于深层语义信息三个大类,对参考的语义信息、算法的基本原理和该类的典型应用做了探索分析。[创新/价值]使文本相似度计算方法具有更清晰和完整的体系,使研究人员能更好地区分相似度计算方法间的计算需求与应用场景的差异。
关键词
文本挖掘
文本相似度
分类体系
语义信息
应用
Keywords
text mining
text similarity
classification system
semantic information
application
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
群体极化还是协商调和?——维基百科“Islamophobia”词条实证研究
被引量:
5
3
作者
尚闻一
车尚锟
机构
北京大学信息管理系
出处
《图书馆论坛》
CSSCI
北大核心
2019年第9期71-81,共11页
文摘
网络技术发展促进了网络空间中的多元对话,也引发了群体极化等问题。以维基百科为代表的在线协作书写社群提供了一种协商机制,对网络用户的意见形成与演变有重要影响。文章选取维基百科词条“Islamophobia”(伊斯兰恐惧症)这一极具争议性的词条进行实证研究,构建训练模型判断讨论页中文本的情感倾向并分析其变化;构建编辑用户的社会网络并进行互惠性关系分析和社群发现及其相似性计算。研究结果表明:维基百科这一词条的讨论微观上趋向激化、宏观上趋向缓和,编辑关系则整体趋向协调。初步证明维基百科的在线协作书写机制有利于促进不同观点对话,在观点交锋中达成协商调和。
关键词
维基百科
群体极化
在线协作书写
计算社会科学
数据挖掘
Keywords
Wikipedia
opinion polarization
online collaborative writing
computational social science
data mining
分类号
G63 [文化科学—教育学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
学术论文子句语义类型自动标注技术研究
黄文彬
王越千
步一
车尚锟
《情报学报》
CSSCI
CSCD
北大核心
2021
3
下载PDF
职称材料
2
计算文本相似度的方法体系与应用分析
黄文彬
车尚锟
《情报理论与实践》
CSSCI
北大核心
2019
16
下载PDF
职称材料
3
群体极化还是协商调和?——维基百科“Islamophobia”词条实证研究
尚闻一
车尚锟
《图书馆论坛》
CSSCI
北大核心
2019
5
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部