语义、句法网络作为语体分类知识源的对比研究被引量：2

Comparison study of using semantic and syntactic network characteristics to do text clustering

下载PDF

导出

摘要基于6种语体的句法和语义树库分别构建了依存句法和语义网络,对这些网络的边数、节点数、节点平均度、聚类系数、平均最短路径长度、网络中心势、直径、节点度幂律分布的幂指数、度分布与幂律拟合的决定系数等整体特征进行了对比分析。以这些整体特征为变量,采用不同的聚类方法,对这6种语体的句法和语义网络进行了聚类分析。研究结果显示,同样是基于语言学原则构建起来的网络结构,依存句法网络和依存语义网络之间有明显差异。其参数的含义不尽相同,依据其各项参数所做的聚类实验的结果也不相同。采用语义网络的一些主要参数组合,可以获得相对合理的聚类结果,但不能很好地区分书面语体和口语体;通过句法网络的一些主要参数组合,可以很好地区分不同语体的文本,获得较为合理的文本聚类结果。 The study builds six dependence syntactic networks and semantic networks based on syntactic and semantic treebanks of different genres and does a comparative analysis of overall features of the networks, including the number of edges, the number of the nodes, the average degree, the clustering coefficient, the average path length, the centraliza- tion, the diameter, the index of power-law, and the coefficient of determination. The article tries multi-methods, with fea- tures as variables, to do clustering analysis of these networks. The results show that, although the syntactic and semantic networks all follow the linguistic principles, there are obvious differences between syntax and semantic networks. The meanings of the network parameters vary and the clustering results according to the parameters are different. Using the combinations of main semantic network parameters can obtain relatively reasonable clustering results, but it cannot distin- guish well written style from colloquialism while using the combinations of main syntactic network parameters can well distinguish different styles of texts and obtain reasonable text clustering results.

作者陈芯莹刘海涛

机构地区西安交通大学外国语学院浙江大学语言行为模式中心

出处《计算机工程与应用》 CSCD 2014年第2期10-14,43,共6页 Computer Engineering and Applications

基金国家社会科学基金重大项目(No.11&ZD188)

关键词语体文本分类网络特征 genre text clustering network features

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献19

1谷晓娟,张迈曾.语体变异的社会语言学研究[J].外语与外语教学,2007(6):7-9. 被引量：18
2李熙宗.语体学的研究方法探析[J].平顶山学院学报,2011,26(1):101-107. 被引量：8
3陈芯莹,李雯雯,王燕.计量特征在语言风格比较及作家判定中的应用——以韩寒《三重门》与郭敬明《梦里花落知多少》为例[J].计算机工程与应用,2012,48(3):137-139. 被引量：29
4黄伟,刘海涛.汉语语体的计量特征在文本聚类中的应用[J].计算机工程与应用,2009,45(29):25-27. 被引量：35
5刘健,张维明.基于互信息的文本特征选择方法研究与改进[J].计算机工程与应用,2008,44(10):135-137. 被引量：23
6陈龙,范瑞霞,高琪.基于概念的文本表示模型[J].计算机工程与应用,2008,44(20):162-164. 被引量：16
7廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12
8陈芯莹,刘海涛.句法复杂网络作为语体分类的知识源研究[J].计算机工程与应用,2013,49(8):32-36. 被引量：6
9Hudson R.Language networks:the new word grammar[M]. Oxford: Oxford University Press, 2007.
10刘海涛.语言复杂网络的聚类研究[J].科学通报,2010,55(27):2667-2674. 被引量：17

二级参考文献182

1张迈曾,郑荣萱.社会语言学变异研究的若干问题[J].外语与外语教学,1999(1):10-12. 被引量：5
2李兆麟.汉语计量研究初探——兼评《现代汉语频率词典》[J].辞书研究,1989(1):116-123. 被引量：6
3曹聪孙.言语风格统计学试说[J].天津师范大学学报（社会科学版）,1988,8(4):70-75. 被引量：7
4常宝儒.现代汉语词汇统计问题的初步研究[J].语言教学与研究,1985(1):117-124. 被引量：8
5吴礼权.庄重风格与幽默风格的计算统计研究[J].渤海大学学报（哲学社会科学版）,2004,26(5):99-103. 被引量：1
6钱铁云,王元珍,冯小年.结合类频率的关联中文文本分类[J].中文信息学报,2004,18(6):30-36. 被引量：12
7徐建斌,施亚东.基于概念的文本自动分类研究的综述[J].福建电脑,2005,21(2):2-4. 被引量：3
8陈炯,范卓华,张虎.汉语文本聚类及其算法设计[J].山西电子技术,2005(2):29-30. 被引量：3
9王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
10王笑旻.基于Bigram的特征词抽取及自动分类方法研究[J].计算机工程与应用,2005,41(22):177-179. 被引量：5

共引文献168

1陈好修.基于语料库的作家作品词汇风格分析——以茅盾、巴金、老舍为例[J].语料库语言学,2019,6(2):50-63. 被引量：2
2王家琪,张莉.面向文本特征选择的去冗余相对判别准则[J].山西大学学报（自然科学版）,2021,44(4):688-694. 被引量：2
3刘俊杰,叶英豪,董立映.航空安全信息风险主题语义图谱构建[J].情报工程,2022,8(4):31-40.
4夏菁,孙未未.多向度计量语体特征下的对外汉语教材可读性自动评估研究[J].华中学术,2020(2):181-193. 被引量：3
5王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
6李湘云.ISODATA动态聚类算法在文本挖掘中的应用[J].长春工程学院学报（自然科学版）,2007(2):56-58.
7左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
8李营,王儒敬,王大为,魏保子.基于用户兴趣的搜索结果动态聚类算法[J].计算机工程与应用,2008,44(4):187-189. 被引量：2
9陈莉.《当代句法学导论》评介[J].湖南冶金职业技术学院学报,2008,8(1):90-93. 被引量：1
10刘颖,胡明涵.基于随机关键词产生技术的政府公文分类系统[J].计算机应用,2008,28(5):1359-1361. 被引量：1

同被引文献19

1唐璐,张永光,付雪.Structures of semantic networks: how do we learn semantic knowledge[J].Journal of Southeast University(English Edition),2006,22(3):413-417. 被引量：5
2谭跃进吕欣吴俊等.复杂网络抗毁性研究若干问题的思考.系统工程理论与实践,2008,(0):116-120.
3刘知远,孙茂松.汉语词同现网络的小世界效应和无标度特性[J].中文信息学报,2007,21(6):52-58. 被引量：41
4LIU Jian-yi, WANG Jing-hua. Keyword extraction using language net- work [ C ]//Proc of IEEE International Conference on Natural Lan- guage Processing and Knowledge. 2007 : 129-134.
5SOLE R V, COROMINAS-MURTRA B, VALVERDE S, et el. Lan- guage networks : their structure, function, and evolution [ J ]. Com- plexity,2010,15 (6) :20-26.
6CANCHO R F I, SOLE R V. The small world of human language [J]. Proceedings of the Royal Society of London Series B-Bio- logical Sciences ,2001,268(1482) :2261-2265.
7CANCHO R F I, SOLE R V. Two regimes in the frequency of words and the origins of complex lexicons : zipf' s law revisited [ J ]. ,Journal of Quantitative Linguistics ,2001,8 ( 3 ) : 165-173.
8GAO Yu-yang, LIANG Wei, SHI Yu-ming, et al. Comparison of di- rected and weighted co-occurrence networks of six languages [ J ]. Physica A: Statistical Mechanics and its Applications, 2014,393:579-589.
9SHENG Long, LI Chun-guang. English and Chinese languages as weighted complex networks[J]. Physica A: Statistical Mechanics and its Applications, 2009,388 ( 12 ) : 2561 - 2570.
10BARRAT A, BARTHELEMY M, VESPIGNANI A. Modeling the evolution of weighted networks [ J ]. Physical Review E, 2004,70 (6) :1-1.

引证文献2

1申艳光,王杰,生龙,吴迪.基于复杂网络的文本抗毁性分析[J].计算机应用研究,2015,32(3):679-682. 被引量：2
2胡宇涵.聚类分析在外国语言学研究中的应用探讨[J].中国校外教育（上旬）,2018,0(3):91-92.

二级引证文献2

1宗敏,杨杰.协同式网络攻击下抗毁性优化建模仿真[J].计算机仿真,2017,34(11):320-323. 被引量：2
2生龙,广晓芸.进化计算与复杂网络结构关系的研究[J].新型工业化,2016,6(11):1-9. 被引量：1

1陈芯莹,刘海涛.句法复杂网络作为语体分类的知识源研究[J].计算机工程与应用,2013,49(8):32-36. 被引量：6
2王柯.论文体学中的口语体和书面体[J].科技信息,2010(16):112-112.
3丁政.搭配词统计分析与Excel实现[J].洛阳师范学院学报,2006,25(5):100-102. 被引量：3
4仲晓敏,侯建花,杨长青.基于Object-Z与Markov链的校园卡系统测试用例[J].微电子学与计算机,2012,29(3):73-77.
5曹步清,刘建勋,王光荣.Mashup服务网络及其拓扑结构分析[J].湖南科技大学学报（自然科学版）,2012,27(2):72-76. 被引量：3
6黄伟,刘海涛.汉语语体的计量特征在文本聚类中的应用[J].计算机工程与应用,2009,45(29):25-27. 被引量：35
7何宇,赵洪利,姚曜,赵东杰,付芸.介数中心性和平均最短路径长度整合近似算法[J].复杂系统与复杂性科学,2011,8(3):44-53. 被引量：8
8张雄鹰.浅谈布朗的语言学原则教学原理与课堂教学[J].科技致富向导,2012(35):112-112.
9吴少华,崔鑫,胡勇.基于SNA的网络舆情演变分析方法[J].四川大学学报（工程科学版）,2015,47(1):138-142. 被引量：13
10董迎飞,王鼎兴,郑纬民.精确计算n维Mesh网络和n维Torus网络的平均最短路径长度[J].计算机学报,1997,20(4):376-380. 被引量：7

计算机工程与应用

2014年第2期

浏览历史

内容加载中请稍等...

语义、句法网络作为语体分类知识源的对比研究被引量：2

参考文献19

二级参考文献182

共引文献168

同被引文献19

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

语义、句法网络作为语体分类知识源的对比研究 被引量：2

参考文献19

二级参考文献182

共引文献168

同被引文献19

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

语义、句法网络作为语体分类知识源的对比研究被引量：2