-
题名基于字词重复模式及错字率的中文词组语料校对策略
- 1
-
-
作者
王云
杨存榜
陈红素
-
机构
中国工程物理研究院激光聚变研究中心信息管理中心
-
出处
《教学与科技》
2014年第4期38-42,共5页
-
文摘
经过统计发现在中文词组语料中具有字词重复特性的词组具有较高的错字率。对词组的字训重复模式进行了分类统计,统计了不同重复模式的出错率。了解到高错字率的重复模式。比如重复字词出现在词组尾部,或者出现连续性重复,则出错概率较大。基于字词重复模式的出错率数据,推荐了两种对人肌模词组语料进行人工校对的优化策略。
-
关键词
中文词组语料
校对策略
字词重复模式
错字率
-
Keywords
Chinese phrase corpus
Proofreading strategies
Words repeat patterns
Typo rate
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名学术界科研话题的数据分析与趋势评论
- 2
-
-
作者
王云
杨存榜
唐道润
-
机构
中国工程物理研究院激光聚变研究中心信息管理中心
-
出处
《中国科技期刊数据库 科研》
2016年第12期179-179,181,共2页
-
文摘
采集研究“科研”问题的学术论文9594篇(2006-1016),据关键词不同年份数量分布,计算“阶梯式累进总数”和“年度正负增量累进总数”,帮助了解“科研”领域主要方向的构成规模和发展动向。学术界科研问题研究主体是教育科研单位科研管理服务人员,研究内容从早期较多宽泛性宏观性话题(管理导向)变得更多具有实用目的性(效果导向)和客观性的特征。
-
关键词
科研
关键词时间数据挖掘
统计评价
-
分类号
G237.5
[文化科学]
-
-
题名大数据领域学术微信号TOP50挖掘评价排名
- 3
-
-
作者
王云
肖寒
杨存榜
-
机构
中国工程物理研究院激光聚变研究中心信息管理中心
-
出处
《移动信息》
2016年第11期121-122,125,共3页
-
文摘
微信随学术界产业界纷纷入驻而崛起为重要信息源.为了用丰富关键词覆盖大数据相关领域,基于语料共现统计得到200多“大数据”相关词,将其分为3组,每两组之间词词组合得到1万多检索式,搜索并采集微信摘要22万篇,抽取去重并用“浓度”模型筛选高相关文章14万篇,计微信号9104个.采用“阶梯式累进权重”,评分方法综合考虑文章量、相关性和时间趋势.最后得到“大数据领域微信号TOP50”排名表.
-
关键词
大数据
微信号
阶梯式累进权重算法
数据挖掘
统计评价
-
分类号
F49
[经济管理—产业经济]
-