-
题名基于词同现网络与支持向量机的论文甄别
被引量:2
- 1
-
-
作者
孙文俊
杜娟
-
机构
哈尔滨工业大学经济管理学院
-
出处
《现代情报》
CSSCI
2010年第7期87-92,共6页
-
文摘
单词在句子中的交互不是随机的,而是基于一定的规则,这种规则可以通过语言网络进行研究。词同现网络是人类语言网络的一种表现形式,它利用单词在句子中的相邻关系来确定一个连接。文中采用语言网络分析的方法对论文进行甄别:将论文用词同现网络表示,计算网络的特征参数并输出一个向量来表征论文,然后运用支持向量机对论文进行分类。结果表明,使用该方法对高水平的论文和文本发生器产生的论文具有很好的甄别效果,对领域差别大的论文甄别效果也较显著。
-
关键词
词同现网络
论文甄别
语言网络分析
小世界网络
-
Keywords
language network analysis
word co-occurrence network
paper discrimination
small-world network
-
分类号
G434
[文化科学—教育技术学]
-
-
题名基于平行词同现网络的语言聚类
被引量:4
- 2
-
-
作者
刘海涛
丛进
-
机构
浙江大学外国语言文化与国际交流学院
-
出处
《科学通报》
EI
CAS
CSCD
北大核心
2013年第5期432-437,共6页
-
基金
国家社会科学基金(09BYY024
11&ZD188)资助
-
文摘
考察了在语言精细分类中使用复杂网络以及在基于复杂网络的语言分类中使用平行词同现网络替代句法依存网络的可行性.采用12种斯拉夫语言和2种非斯拉夫语言的平行文本,构建了14个词同现网络.通过这些网络的主要参数的恰当组合,聚类分析能够将斯拉夫诸语言与非斯拉夫语言区分开来,并能将12种斯拉夫语言正确地划分到各自的语支中去.另外,聚类也能反映某些斯拉夫语言在其语支内部的亲缘关系.结果表明,平行词同现网络能够被用于语言的精细分类,而且在基于复杂网络的语言分类中可被用作句法依存网络的一种更为便捷的替代品.
-
关键词
词同现网络
斯拉夫语言
平行文本
语言分类
聚类分析
-
分类号
G633.3
[文化科学—教育学]
-
-
题名汉语词网络的抗毁性研究
被引量:1
- 3
-
-
作者
郎利影
李思骞
张永强
王勇
-
机构
河北工程大学信息与电气工程学院
-
出处
《科学技术与工程》
北大核心
2015年第5期276-279,288,共5页
-
基金
国家自然科学基金项目(41373101)
河北省自然科学基金项目(F2014402094)资助
-
文摘
运用复杂网络理论,基于北京大学语言研究所做出的《人民日报》和国家语委现代汉语的语料库,构建了四个汉语词同现网络;并计算了测度指标。由结果绘制出分布曲线,证实了该词同现网络具有小世界效应和无标度特性。对上述词同现网络进行抗毁性分析,用最大连通子图尺寸下降率和整体效能下降率作为衡量复杂网络抗毁性的指标。实验结果表明对于词同现网中度和介数很大的节点的挖除,会使整个网络破裂为若干孤立的网,将使文章变的支离破碎。从侧面反映了汉语词中的核心词汇,对接下来为研究汉语词中的核心词汇提供了方案。
-
关键词
复杂网络
汉语词同现网络
无标度
抗毁性
核心词语
-
Keywords
complex network Chinese word co-occurrence scale-free invulnerability core vocabulary
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名基于拉普拉斯谱分析的真伪科学论文甄别研究
- 4
-
-
作者
孙文俊
王谦
-
机构
哈尔滨工业大学管理学院
-
出处
《现代图书情报技术》
CSSCI
北大核心
2010年第5期58-65,共8页
-
文摘
应用拉普拉斯谱分析方法研究科学论文的词同现网络,从拉普拉斯谱逆序分布、拉普拉斯谱密度、拉普拉斯谱特征值极值三个角度对比分析真伪科学论文词同现网络的拉普拉斯谱特征。通过对比分析发现,真伪论文词同现网络的拉普拉斯谱特征存在明显差别,可以利用这些差别对真伪论文进行甄别。
-
关键词
复杂网络
词同现网络
拉普拉斯谱
拉普拉斯谱密度
-
Keywords
Complex network Word co- occurrence network Laplacian spectrum Laplace spectral density
-
分类号
G358
[文化科学—情报学]
-