基于全切分获取网络流行语方法研究被引量：2

Study on popular words and phrases extraction of network based on omni-segmentation

下载PDF

导出

摘要利用统计和规则相结合的算法从互联网的动态信息流中提取网络流行语。在利用全切分算法获取候选词集的基础上,依次对候选词集进行三次过滤:首先基于向量空间模型的权重过滤,运用语言模型进行过滤;然后利用垃圾串过滤规则获取网络流行词语候选词集;最后利用提出的流行词语评分模型进行筛选得到网络流行词语。实验表明,在不影响流行词语准确率的前提下,利用该方法自动获取网络流行词语的速度明显提高。 This paper aimed to extract popular words and phrases of network by specific algorithm. It filtrated the candidate words set three times based on the algorithm of omni-segmentation. The first was the weight filtration based on the vector space model , then used the model of language regulation , and the last through the filtration of rubbish cluster. Finally, it mined the popular words and phrases from the candidate set by the popular words determinant formula. The experimentation indicates that without reducing the correct rate of catchwords, the speed of extacting, the popular words and phrases of network impoves distinctly.

作者吴保珍何婷婷李立张勇陈龙

机构地区华中师范大学计算机科学系华中师范大学国家语言资源监测与研究中心网络媒体分中心

出处《计算机应用研究》 CSCD 北大核心 2009年第4期1260-1262,1285,共4页 Application Research of Computers

基金国家自然科学基金资助项目(60673040) 国家社会科学基金资助项目(06BYY029) 国家教育部科学技术研究重点项目(105117) 湖北省自然科学基金资助项目(2006ABC011) 国家"973"计划重点基础研究发展项目(2007CB310804)

关键词网络流行词语中文信息处理全切分 popular words and phrases of network Chinese information processing omni-segmentation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1何婷婷,朱薏,张勇,任函.基于词语属性的计算机辅助获取流行词语研究[J].中文信息学报,2006,20(6):38-45. 被引量：4
2张普.基于DCC的流行语动态跟踪与辅助发现研究[M]//孙茂松,陈群秀.语言计算与基于内容的文本处理.北京:清华大学出版社,2003:47-53.
3谢学敏,吴志山,史艳岚.流行语动态跟踪研究综述[C]//第二届全国学生计算语言学研讨会论文集.2004.
4李保利,俞士汶.话题识别与跟踪研究[J].计算机工程与应用,2003,39(17):7-10. 被引量：61
5HE Ting-ting, QU Guo-zhong, TU Xin-hui, et al. Semi-automatic hot event detection[ C ]//Proc of ADMA. 2006 : 1008- 1016.
6杨文峰,李星.基于PAT TREE统计语言模型与关键词自动提取[J].计算机工程与应用,2001,37(15):17-19. 被引量：12
7国家语言资源监测与研究中心.中国语言生活状况报告(2006)下篇[R].北京:商务印书馆,2006:166.170.
8张普.关于语感与流通度的思考[J].语言教学与研究,1999(2):83-96. 被引量：60
9史中琦,张普.基于DCC动态流通语料库的流行语类型分析[C]//第三届全国语言文字应用学术研讨会论文集.香港:科技联合出版社,2004.
10隋岩,张普.基于“动态流通语料库”的“有效字符串”提取研究[J].语言文字应用,2005(2):143-143. 被引量：2

二级参考文献22

1张普.关于语感与流通度的思考[J].语言教学与研究,1999(2):83-96. 被引量：60
2夏中华,曹起.汉语流行语产生途径的考察与分析[J].沈阳师范大学学报（社会科学版）,2004,28(5):78-82. 被引量：18
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4郑泽之,张普,杨建国.基于语料库的字母词语自动提取研究[J].中文信息学报,2005,19(2):78-85. 被引量：10
5隋岩,张普.基于“动态流通语料库”的“有效字符串”提取研究[J].语言文字应用,2005(2):143-143. 被引量：2
6俞士汶,朱学锋,王惠,张芸芸.现代汉语语法信息词典规格说明书[J].中文信息学报,1996,10(2):1-22. 被引量：34
7James Allan,Jaime Carbonell,George Doddington et al.Topic Detection and Tracking Pilot Study:Final Report[C].In:Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop,San Francisco ,CA,Morgan Kaufmann Publishers ,Inc, 1998:194-218.
8Yiming Yang,Jaime Carbonell,Ralf Brown et al.Learning Approaches for Detecting and Tracking News Events[J].IEEE Intelligent Systems:.Special Issue on Applications of Intelligent Information Retrieval,1999;14(4) :32-43.
9Wayne C.Multilingual Topic Detection and Tracking:Successful Research Enabled by Corpora and Evaluation[C].In:Language Resources and Evaluation Conference (LREC),2000 : 1487-1494.
10James Allan (ed.).Topic Detection and Tracking : Event-based Information Organization[M].Kluwer Academic Publishers,2002.

共引文献146

1何炯妍.小学语文教学中语感能力的培养策略[J].华夏教师,2019,0(32):37-38. 被引量：1
2齐瑾,房圣贤.多管齐下,培养学生的英语语感[J].科技资讯,2007,5(1):61-62. 被引量：1
3张普.关于网络时代语言规划的思考[J].语文研究,1999(3):1-10. 被引量：20
4王颖慧.浅谈当下流行语“正能量”[J].南昌教育学院学报,2013,28(8):41-42. 被引量：5
5雷亚莉.档案文献主题探测方法探讨[J].黑龙江史志,2015(7):88-89.
6张普.信息处理用语言知识动态更新的总体思考[J].语言文字应用,2000(2):42-49. 被引量：18
7隋岩.动态流通语料库理论的概念和方法[J].语言文字应用,2000(2):50-57. 被引量：4
8邢红兵.基于第三代语料库的信息领域术语动态更新[J].语言文字应用,2000(2):58-62. 被引量：4
9屈哨兵.“由于”句的语义偏向[J].中国语文,2002(1):22-24. 被引量：15
10杨建国.流行语的语言学研究及科学认定[J].语言教学与研究,2004(6):63-70. 被引量：88

同被引文献22

1费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
2黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
3Bian Guo-Wei, Chen Hsin-His. A new hybrid approach for Chinese-English query translation[ C ]//Proceedings of the First Asia Digital Library Workshop. 1998:156-167.
4Wu Z, Tseng G. ACTS: An automatic Chinese text seg- mentation system for full text retrieval [ J ]. Journal of the American Society for Information Sciences and Technology, 1995,46(2) :83-96.
5Wong Kam-Fai, Li Wenjie. Intelligent Chinese information retrieval-Why is it so difficult? [ C]// Proceedings of the First Asia Digital Library Workshop. 1998:47-56.
6Su Keh-Yih, Chiang Tung-Hui, Chang Jing-Shin. An over- view of corpus-based statistics oriented(CBSO) techniques for natural language processing[J]. Computational Linguis- tics and Chinese Language Processing, 1996,1 ( 1 ) : 101- 157.
7Chien Lee-Feng. PAT-tree-based adaptive keyphrase extrac- tion for intelligent Chinese information retrieval [ J ]. Infor- mation Processing and Management, Elsevier Press, 1999, 35 (4) :501-521.
8Chien Lee-Feng. PAT-tree-based keyword extraction for Chi- nese information retrieval [ C ]/! Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1997:50-58.
9Knuth D E. The Art of Computer Programming: Sorting and searching, Vol 3 [ M ]. Addison-Wesley, Mass, 1973.
10Morrison D R. PATRICIA-Pratical algorithm to retrieve in- formation coded in alphanumeric [ J ]. Journal of the Asso-ciation for Computing Machinery, 1968,15 (4) :514-534.

引证文献2

1郭冲.基于新闻标题的网络热词发现算法[J].计算机与现代化,2013(3):58-62.
2钟春琳,司方豪.一种基于网络爬虫解析HTML的网络热词获取方法[J].电脑编程技巧与维护,2014(12):96-97. 被引量：1

二级引证文献1

1邹科文,李达,邓婷敏,陈义明.百度百科景点信息爬取及组织研究[J].电脑与信息技术,2016,24(4):52-55.

1向晓璐.网络用词的六大趋势[J].学园,2013(3):200-200.
2林鹰.2009网络留给我们的语言记忆[J].环球财经,2010(1):114-115.
3空中有朵高科技的云[J].科技创业,2011(10):109-110.
4李莉.说说“晒黑族”[J].语文建设,2007(11):53-53.
5王倩倩,范通让.汉语中新词识别方法研究[J].河北省科学院学报,2014,31(2):35-40.
6聂金慧,苏红旗,时志远.中文新词提取与过滤研究综述[J].中国科技博览,2013(30):209-210. 被引量：1
7杨春花,孙红英,孙吉红.一个改进的书面汉语全切分算法[J].山东轻工业学院学报（自然科学版）,2007,21(1):28-31.
8钟将,耿升华,董高峰.一种新词检测方法研究[J].数字通信,2013,40(2):1-5. 被引量：6
9李国和,刘光胜,吴卫江,孙红军,唐先明,韩宝东.基于最大匹配和歧义检测的中文分词粗分方法[J].北京信息科技大学学报（自然科学版）,2010,25(S2):84-88. 被引量：1
10李国和,刘光胜,秦波波,吴卫江,李洪奇.综合最大匹配和歧义检测的中文分词粗分方法[J].计算机工程与应用,2012,48(14):139-142. 被引量：3

计算机应用研究

2009年第4期

浏览历史

内容加载中请稍等...

基于全切分获取网络流行语方法研究被引量：2

参考文献12

二级参考文献22

共引文献146

同被引文献22

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于全切分获取网络流行语方法研究 被引量：2

参考文献12

二级参考文献22

共引文献146

同被引文献22

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于全切分获取网络流行语方法研究被引量：2