中文歌词的统计特征及其检索应用被引量：8

Statistical Features of Chinese Song Lyrics and its Application to Retrieval

下载PDF

导出

摘要我们在歌词上做了一些传统的自然语言处理相关的实验。歌词是歌曲语义上的重要表达,因此,对歌词的分析可以作为歌曲音频处理的互补。我们利用齐夫定律对歌词语料库的字和词进行统计特征的考察,实验表明,其分布基本符合齐夫定律。利用向量空间模型的表示,我们可以找到比较相似的歌词集合。另外,我们探讨了如何利用歌词中的时间标注信息进行进一步的分析:例如发现歌曲中重复片段,节奏划分,检索等。初步的实验表明,我们的方法具有一定的效果。 We report experiments on song lyrics based on natural language processing techniques. Song lyrics play an important role of the semantics in songs; therefore, analysis of lyrics may be a complement of acoustic methods. We investigate the lyrics corpus based on Zip＇f Law using both character and word as a unit, which proves the validness Zip＇f Law in such corpus. Also, we find a set of lyrics that are similar to each other by means of vector space mo- del. Moreover, we discuss how to use the time annotation for further analysis; detecting the repetition of songs identifying rhythms, retrieving songs and soon. Preliminary experiment shows the effectiveness of our proposed method.

作者郑亚斌刘知远孙茂松

机构地区清华大学计算机科学与技术系

出处《中文信息学报》 CSCD 北大核心 2007年第5期61-67,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60573187 60621062 60520130299)

关键词计算机应用中文信息处理歌词齐夫定律 K-近邻节奏 computer application Chinese information processing song lyrics zipf＇ s law k-NN rhythm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1S.Baumann,A.Kluter.Super-Convenience for Non-Musicians:Querying mp3 and the Semantic Web[A].In:Proceedings of the 3rd International Conference on Music Information Retrieval[C].2002,157-163.
2A.Berenzweig,B.Logan,D.Ellis and B.Whitman,A large-scale evaluation of acoustic and subjective music similarity measures[J].Computer Music Journal.2003,28(2),63-76.
3B.Logan,D.Ellis and A.Berenzweig,Towards Evaluation Techniques for Music Similarity[A].In:International Conference.on Multimedia and Expo[C].2003.
4J.P.G.Mahedro,A.Martinez,P.Cano,M.Koppenberger and F.Gouyon,Natural language processing of lyrics[A].In:International Conference.on Multimedia[C].2005.475-478.
5B.Logan,A.Kositsky and P.Moreno,Semantic analysis of song lyrics[A],In:International Conference.on Multimedia[C].2004.827-830.
6G.K.Zipf,Human Behavior and the Principle of Least Effort:An Introduction to Human Ecology[M].Cambridge,Mass Addison-Wesley Press,INC,1949.
7G.Salton,A.Wong.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.
8王煜,王正欧,白石.用于文本分类的改进KNN算法[J].中文信息学报,2007,21(3):76-82. 被引量：15
9Tom Mitchell.Machine Learning[M].McGraw Hill Press,1996.
10D.Bainbridge,S.J.Cunningham and J.S.Downie,Analysis of queries to a Wizard-of-Oz MIR system:Challenging assumptions about what people really want[A].In:International Conference.on Multimedia and Expo[C].2003.

二级参考文献10

1王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
2王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13
3Carlota Domeniconi, Jing Peng, Dimitrios Gunopulos.Locally Adaptive Metric Nearest-Neighbor Classification[J]. IEEE TRASACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIENGCE. 2002,24(9) : 1281-1285.
4Jing Peng, Douglas R. Heisterkamp, H. K. Dai. LDA/SVM Driven Nearest Neighbor Classification [J].IEEE TRASACTIONS ON NEURAL NETWORKS.2003,14 (4) :940-942.
5Setiono R, Liu H. Neural network feature selector[J]. IEEE TRANSCATIONS ON NEURAL NETWORKS, 1977,8(3): 654-662.
6David A. White, Ramesh Jain. Similarity indexing with the SS-tree[A]. In: Proceedings of the 12th International Conference on Data Engineering[C]. 1996,516-523.
7Weitschereck D, Aha D W, Mohri T. A review and empirical evaluation of feature weighting methods for a class of lazy learning algorithms [J]. AI Review.1997, 11(2): 273-314.
8T. Hastie, R. Tibshirani. Discriminant Adaptive Nearest Neighbor Classification [J]. IEEE TRASACTIONS ON PATTERNANALYSIS and MACHINE INTELLIGENCE. 1996, 18(6) : 607-615.
9周水庚,关佶红,胡运发.隐含语义索引及其在中文文本处理中的应用研究[J].小型微型计算机系统,2001,22(2):239-243. 被引量：41
10代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228

共引文献14

1乔冠禹,胡然,李咏晋.基于随机森林与特征提取算法的试验文本分类算法研究[J].军民两用技术与产品,2018,0(18):198-200.
2田宝明,戴新宇,陈家骏.一种基于随机森林的多视角文本分类方法[J].中文信息学报,2009,23(4):48-54. 被引量：9
3刘海峰,张学仁,姚泽清,刘守生.基于类别选择的改进KNN文本分类[J].计算机科学,2009,36(11):213-216. 被引量：9
4刘海峰,汪泽焱,姚泽清,刘守生.文本分类中一种基于密度的KNN改进方法[J].情报学报,2009,28(6):834-838. 被引量：4
5刘海峰,陈琦,刘守生,苏展.一种基于数据偏斜的改进KNN文本分类[J].微电子学与计算机,2010,27(3):51-53. 被引量：3
6郑伟,奉国和.概率估算方法对中文文本特征提取质量的影响[J].情报科学,2011,29(4):544-547. 被引量：2
7周靖,刘晋胜.特征联合熵的一种改进K近邻分类算法[J].计算机应用,2011,31(7):1785-1788. 被引量：8
8周靖,刘晋胜.采用特征相关性差异优化距离的改进k近邻算法[J].计算机工程与设计,2011,32(9):3178-3181.
9张海涛,张连峰,王丹,魏毓璟.基于网址与内容的商务网站信息过滤原理研究[J].情报科学,2015,33(8):125-128. 被引量：1
10刘晋胜.基于熵降噪优化相似性距离的KNN算法研究[J].计算机应用与软件,2015,32(9):254-256. 被引量：4

同被引文献108

1沈关龙.齐普夫定律与专题文献标题词频的研究及应用[J].情报理论与实践,1988,11(2):58-64. 被引量：8
2张仲梁.齐普夫定律的一个证明[J].科学学研究,1987,5(4):44-46. 被引量：2
3冯志伟.齐普夫定律的来龙去脉[J].情报科学,1983,4(2):37-42. 被引量：21
4马费城.布拉德福特—齐普夫分布系的概率模型[J].情报科学,1982,3(2):22-33. 被引量：11
5刘胜久,李天瑞,贾真,尹红风.元搜索引擎排序方法建模与算法研究[J].计算机科学,2012,39(S3):197-199. 被引量：4
6刘可欣.流行音乐审美特征研究[J].东方论坛（青岛大学学报）,2004(3):32-37. 被引量：17
7董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：57
8李文兰,杨祖国.中国情报学期刊论文关键词词频分析[J].情报科学,2005,23(1):68-70. 被引量：214
9薛益明.明代医家对虚损治法的研究[J].浙江中医杂志,1994,29(9):386-387. 被引量：2
10李玉鑑,肖创柏.蛋白质序列中可能存在的Zipf定律[J].北京工业大学学报,2005,31(4):366-368. 被引量：1

引证文献8

1叶飞,宋志强.一种基于齐普夫定律的确定语料中高低词频分界点的新方法——以科学计量研究为例[J].情报学报,2013,32(11):1196-1203. 被引量：21
2蒋盛益,王冬青,廖静欣,阳垚.基于歌词的歌曲高潮片段自动提取[J].小型微型计算机系统,2014,35(1):40-43.
3蒋盛益,阳垚,廖静欣.中文音乐情感词典构建及情感分类方法研究[J].计算机工程与应用,2014,50(24):118-121. 被引量：12
4刘胜久,李天瑞,珠杰.Zipf定律与网络信息计量学[J].中文信息学报,2015,29(4):89-94. 被引量：5
5孟磊,冶忠林,赵海兴,杨燕琳.中文文献关键词分布特性研究[J].计算机应用与软件,2019,36(12):51-59. 被引量：7
6仁青东主,头旦才让,尼玛扎西.基于改进的VSM的藏文期刊论文检索研究[J].计算机仿真,2020,37(12):400-403.
7崔京月,董柔纯,李伟卿,王伟军.网易云音乐不同人格用户的网络行为及歌词偏好特征分析[J].心理科学,2021,44(6):1403-1410. 被引量：4
8卢伟名,罗广波.明代虚劳专著及专篇虚劳方药的分布特性研究[J].计算机应用与软件,2023,40(2):89-95. 被引量：2

二级引证文献51

1廖金菊.基于情感分类的音色建模样本采集[J].科教导刊（电子版）,2014(10):112-113.
2郭顺利,张向先.面向中文图书评论的情感词典构建方法研究[J].现代图书情报技术,2016(2):67-74. 被引量：24
3王宇明.我国数字阅读研究的文献计量与分析[J].巢湖学院学报,2016,18(1):75-82. 被引量：3
4王宇明.我国数字出版产业政策研究的现状分析[J].巢湖学院学报,2016,18(4):62-67. 被引量：4
5朱琳琳,徐健.网络评论情感分析关键技术及应用研究[J].情报理论与实践,2017,40(1):121-126. 被引量：25
6陈杨华,张少林.图像自相关特征识别的算法改进[J].浙江科技学院学报,2017,29(1):24-30.
7郑亚平.2010—2015年我国糖尿病社区护理研究现状与热点领域的文献分析[J].中国全科医学,2017,20(21):2629-2634. 被引量：39
8李桂,朱小平,陈晓莉.我国延续性护理研究热点的共词聚类分析[J].中国实用护理杂志,2018,34(23):1824-1829. 被引量：9
9智昕,周日贵.基于互信息法的中文音乐情感词典的构建[J].现代计算机,2018,24(14):50-53. 被引量：1
10章细英,孔祥瑞.基于共词分析的国内茶树种质资源研究热点分析[J].茶叶学报,2018,59(2):108-112.

1如何升级MP3播放器固件程序[J].电脑爱好者（普及版）,2009(5):96-96.
2FinWell.Winamp中文歌词DIY[J].大众软件,2003(2):84-85.
3刘齐进.齐夫定律在中文输入法中的应用[J].科技创业月刊,2017,30(7):14-17. 被引量：3
4蒋旻隽.基于歌词的流行音乐情感二值分类研究[J].现代计算机（中旬刊）,2016(12):55-57. 被引量：2
5王志军.玩好Vista Windows Media Center也能显示歌词[J].计算机应用文摘,2007(01S):69-69.
6刘期烈,侯鹏翔.机会网络中激励节点检测策略研究[J].重庆邮电大学学报（自然科学版）,2015,27(2):266-272. 被引量：5
7如何升级HP3播放器固件程序[J].电脑爱好者（普及版）,2010(A02):287-287.
8蚊子（搜集整理）.新酷播报[J].电脑乐园,2009(10):34-34.
9刘文宇,赵媛.中国省际煤炭资源流动的集中程度与位序-规模变化[J].资源科学,2013,35(12):2474-2480. 被引量：9
10王镝,王国仁,陈白尘,吴青泉,王斌,韩冬红.一种可用于生物序列分析的轻量级索引结构[J].华中科技大学学报（自然科学版）,2005,33(z1):209-212. 被引量：1

中文信息学报

2007年第5期

浏览历史

内容加载中请稍等...

中文歌词的统计特征及其检索应用被引量：8

参考文献14

二级参考文献10

共引文献14

同被引文献108

引证文献8

二级引证文献51

相关作者

相关机构

相关主题

浏览历史

中文歌词的统计特征及其检索应用 被引量：8

参考文献14

二级参考文献10

共引文献14

同被引文献108

引证文献8

二级引证文献51

相关作者

相关机构

相关主题

浏览历史

中文歌词的统计特征及其检索应用被引量：8