期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
大数据环境下同行评议面临的问题与对策 被引量:23
1
作者 秦成磊 章成志 《情报理论与实践》 CSSCI 北大核心 2021年第4期99-112,共14页
[目的/意义]梳理同行评议发展脉络,分析当前同行评议面临的问题,进而提出科学合理的应对之策。[方法/过程]首先从同行评议起源、传统同行评议模式、开放同行评议、同行评议文本挖掘四方面梳理同行评议发展脉络,并以Web of Science核心... [目的/意义]梳理同行评议发展脉络,分析当前同行评议面临的问题,进而提出科学合理的应对之策。[方法/过程]首先从同行评议起源、传统同行评议模式、开放同行评议、同行评议文本挖掘四方面梳理同行评议发展脉络,并以Web of Science核心库中收录的同行评议模式文献数据为例,分析学者对同行评议模式的研究变化趋势;随后,对Elsevier旗下2426种期刊使用的同行评议模式进行统计,分析同行评议模式的实际应用情况。其次,根据国家统计局发布的中国创新指数、中国知网2000—2019年间收录的图书馆、情报与文献学领域的题录数据,从科研文献数量增长、研究主题演化以及潜在评审专家数量变化角度分析当前同行评议工作面临的问题。最后,根据分析结果,提出从构建学术质量评估系统、精准构建学者画像、量化学者在同行评议中的贡献三个方面应对在大数据环境下同行评议面临的困境。[结果/结论]在科研文献数量不断增长、研究主题不断拓展、评审专家数量增长放缓的情形下,同行评议面临的挑战与日俱增。通过发展脉络梳理、研究趋势与应用现状总结、挑战与策略分析,能够加深对同行评议的认识;提出的方案能够在一定程度上缓解日趋严峻的同行评议工作,具有一定的应用价值。[局限]由于数据获取难度大,文章使用的数据不够全面,所提出的对策尚未开发出验证系统。 展开更多
关键词 大数据 同行评议 开放同行评议 评议文本挖掘 学者画像 评审专家贡献量化
下载PDF
基于书写行为与语义特征的评论有用性评估 被引量:2
2
作者 秦成磊 魏晓 曹红兵 《计算机工程与应用》 CSCD 北大核心 2016年第6期117-121,126,共6页
针对电子商务网站充斥着大量有用性较低的评论,提出一种基于用户书写行为与语义特征的中文评论有用性评估方法。方法通过在Web客户端实时监听评论文本框值的变化,识别出句尾插入、非句尾插入、句尾删除、非句尾删除等书写行为,在服务器... 针对电子商务网站充斥着大量有用性较低的评论,提出一种基于用户书写行为与语义特征的中文评论有用性评估方法。方法通过在Web客户端实时监听评论文本框值的变化,识别出句尾插入、非句尾插入、句尾删除、非句尾删除等书写行为,在服务器端根据书写行为、评论的语义特征建立的线性评估模型计算用户评论的有用性。实验结果表明该方法能够较为准确地识别有用性较高的评论。 展开更多
关键词 评论有用性评估 书写行为 评论质量检测 评论语义特征
下载PDF
一种基于统计的复杂页面正文提取方法 被引量:1
3
作者 秦成磊 魏晓 杨阳 《计算机应用与软件》 CSCD 2015年第7期90-92,147,共4页
随着信息技术的发展,web页面复杂多样的特点愈来愈明显,传统页面正文提取方法的效率和精确度较低。针对这种情况,提出一种基于统计的正文提取算法。该算法依据Html标签特征提取经过过滤的每对“〉”和“〈”之间的文本信息,对其长... 随着信息技术的发展,web页面复杂多样的特点愈来愈明显,传统页面正文提取方法的效率和精确度较低。针对这种情况,提出一种基于统计的正文提取算法。该算法依据Html标签特征提取经过过滤的每对“〉”和“〈”之间的文本信息,对其长度进行统计并按照匹配顺序进行排序。根据文本长度最优阈值,划定文本行号区间,最后利用公共子序列进行优化并完成正文提取。实验结果表明,该方法能够精确高效地提取复杂页面的正文信息且具有较好的通用性。 展开更多
关键词 复杂页面 正文提取 统计 公共子序列 文本长度最优阈值 文本行号区间
下载PDF
中文在线评论中的产品新属性识别研究 被引量:1
4
作者 秦成磊 章成志 《信息资源管理学报》 CSSCI 2020年第3期78-91,共14页
新材料、新技术、新工艺的应用使得新属性广泛存在于新上市的产品中。现有的产品属性抽取方法通常只关注评价对象的主要属性抽取,未对新属性识别展开深入研究,从而影响以属性抽取为研究基础的相关研究的实验结论。针对该情况,本研究将... 新材料、新技术、新工艺的应用使得新属性广泛存在于新上市的产品中。现有的产品属性抽取方法通常只关注评价对象的主要属性抽取,未对新属性识别展开深入研究,从而影响以属性抽取为研究基础的相关研究的实验结论。针对该情况,本研究将产品新属性识别转化为分类任务,分别将分类模型、条件随机场(CRF)、双向长短期记忆网络与条件随机场结合的深度学习模型(Bi-LSTM-CRF)应用到该任务中。对实验结果进行分析,确定使用CRF模型获取候选新属性;随后,使用四种强约束规则过滤噪音,优化模型识别结果;最后,为增强所识别新属性的可解释性,基于层次聚类的思想对新属性和种子属性进行聚类,以种子属性解释新属性。实验结果表明本研究所提出的产品新属性识别方案能够对产品属性进行有效扩充。 展开更多
关键词 新属性抽取 属性聚类 条件随机场 Bi-LSTM-CRF
下载PDF
基于Web知识的中文分词结果优化 被引量:6
5
作者 杨阳 魏晓 秦成磊 《计算机应用与软件》 CSCD 2015年第12期55-58,共4页
随着人们在互联网上的活动越来越频繁,网络新词不断涌现。现有的中文分词系统对新词的识别效率并不高。对新词的识别效率直接影响分词的精度,也对互联网应用系统的服务质量产生影响。在分词系统分词结果的基础上,提出利用搜索引擎和百... 随着人们在互联网上的活动越来越频繁,网络新词不断涌现。现有的中文分词系统对新词的识别效率并不高。对新词的识别效率直接影响分词的精度,也对互联网应用系统的服务质量产生影响。在分词系统分词结果的基础上,提出利用搜索引擎和百度百科等Web知识,结合统计和匹配实现新词识别的方法,进一步实现对系统原始分词结果的优化。实验数据表明,该方法能够有效识别网络新词并实现分词结果的优化。 展开更多
关键词 中文分词 未登录词 网络新词 搜索引擎 分词优化
下载PDF
中文在线评论中的商品特征聚类研究
6
作者 秦成磊 魏晓 《计算机应用与软件》 CSCD 2016年第7期64-67,共4页
针对评论中蕴含的商品特征数目繁多且同一特征具有多种不同描述的情况,提出一种基于语义相似度的商品特征聚类算法。算法包括"分配"和"转移"两个过程。"分配"过程对特征词进行聚类得到初始簇序列;"... 针对评论中蕴含的商品特征数目繁多且同一特征具有多种不同描述的情况,提出一种基于语义相似度的商品特征聚类算法。算法包括"分配"和"转移"两个过程。"分配"过程对特征词进行聚类得到初始簇序列;"转移"过程依次遍历初始簇序列将簇内可能存在的与其他簇语义相似度更高的特征词转移到对应的簇。实验结果表明该算法聚类质量高、时间复杂度小且对数据输入次序不敏感。 展开更多
关键词 商品特征聚类 特征聚类 语义相似度 评论挖掘
下载PDF
基于层次注意力网络模型的学术文本结构功能识别 被引量:16
7
作者 秦成磊 章成志 《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第11期26-42,共17页
【目的】针对当前学术文本章节功能识别存在诸多不足的现状,提出使用层次注意力网络模型提升学术文本章节功能识别的效果。【方法】首先,构建能够捕获章节结构信息的不同粒度的层次注意力网络模型,对比分析使用不同文本特征向量的传统... 【目的】针对当前学术文本章节功能识别存在诸多不足的现状,提出使用层次注意力网络模型提升学术文本章节功能识别的效果。【方法】首先,构建能够捕获章节结构信息的不同粒度的层次注意力网络模型,对比分析使用不同文本特征向量的传统机器学习模型、Bert模型与层次注意力网络模型在PLoS的4种期刊规范数据集上的学术文本结构功能的识别结果以获取最佳模型;随后,使用最佳模型识别Atmospheric Chemistry and Physics(ACP,IF 5.6)期刊中章节标题命名缺乏规范且人工标注结构功能一致性较低的章节的结构功能,并提出使用参考文献分布相似、动词线索词分布相似评估识别结果;最后,对所构建的层次注意力网络模型的领域适应性进行分析。【结果】以Bi-LSTM+Attention为编码器的句子级层次注意力网络模型识别效果优于其他模型,Macro-F1值为0.8661;存在领域适应问题,在差异较大的领域中模型识别性能下降明显,Macro-F1值最低为0.4554。【局限】不能识别具有混合结构的章节的功能;模型中未考虑文章结构之间的逻辑关系。【结论】句子级层次注意力网络模型能够较好地识别章节的结构功能,引入学术文本结构信息能够丰富和拓展基于学术论文全文本相关研究的研究内容与范围。 展开更多
关键词 学术文本结构功能识别 层次注意力网络 IMRaD 领域适应性分析
原文传递
同行评审意见类型识别及其在不同被引频次下的分布研究 被引量:2
8
作者 秦成磊 韩茹雪 +2 位作者 周昊旻 仲江涛 章成志 《图书情报工作》 CSSCI 北大核心 2022年第13期102-117,共16页
[目的/意义]识别学术论文同行评审意见类型、分析不同被引频次下同行评审意见类型在同行评审报告中的分布情况,有助于加深对同行评议机制的认识,为评估论文学术质量、量化评审专家贡献提供新思路。[方法/过程]首先,将同行评审意见类型... [目的/意义]识别学术论文同行评审意见类型、分析不同被引频次下同行评审意见类型在同行评审报告中的分布情况,有助于加深对同行评议机制的认识,为评估论文学术质量、量化评审专家贡献提供新思路。[方法/过程]首先,将同行评审意见类型划分为正面评价、负面评价、要求/建议(主、次要方面)、问题/疑问、陈述六个类别,经人工标注、获取训练、测试语料后,对比分析传统机器学习模型、深度学习模型在同行评审意见类型自动识别上的效果;其次,将同行评审报告涉及的学术论文进行主题聚类,进而对被引频次进行标准化处理;最后,使用Spearman相关系数、累积分布、K-S检验、负二项回归分析不同被引频次学术论文对应的同行评审报告中同行评审意见类型的分布情况。[结果/结论]SciBert模型识别效果最佳;在基于Spearman的相关性分析中,评审报告中正面评价的分布占比与被引频次具有显著的弱正相关,负面评价的分布占比与被引频次具有显著的弱负相关;通过累计分布发现,多数情况下,当累积概率相同时,高被引分区中正面评价的分布占比大于低被引分区、负面评价的分布占比小于低被引分区,K-S检验能够检测到这种差异;在负二项回归分析中,正面评价分布占比、负面评价分布占比分别对被引频次有显著的正向影响、负向影响。研究结果表明,同行评审报告中正面评价、负面评价的分布情况与其对应论文的被引频次存在相关性,被引频次一定程度上能够反映论文的学术质量。 展开更多
关键词 同行评议 同行评审意见 同行评审意见类型 被引频次 相关性分析
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部