Web科技新闻分类抽取算法被引量：3

Categorization Extraction Algorithm for Scientific-Related News on Websites

下载PDF

导出

摘要为了改善从Web上获取的新闻信息的使用价值,针对Web网站存在大量非科技相关新闻的现状,以互联网上政府新闻网站、凤凰网等新闻为研究背景,选取TF-IDF文本加权方法,设计了科技新闻多层次二分类模型,实现了基于TFIDF的科技新闻文本分类抽取系统,在20万新闻文档和4000多种分类上,实验取得了科技新闻85.3%的识别准确率和非科技新闻82.9%的识别率,为Web科技新闻分类抽取提供有实用价值的参考模型。 There are a lot of non-scientific-related news on Websites. In order to improve the useful value for the news information,a novel multilevel dichotomous model of text automatic categorization extraction system for technology news based on TF-IDF was designed and implemented. The news offered by government news website and Phoenix as the research background in scientific news categorization extraction. Experiments showed a85. 3 percent accuracy for scientific-related news and 82. 9 percent recognition rate for nonscientific-related news respectively in the test containing two hundred thousand documents and more than four thousand news classifications. The results showed that the proposed method offered a useful reference model on website scientific intelligence.

作者朱全银潘禄刘文儒李翔张永军刘金岭

机构地区淮阴工学院计算机与软件工程学院

出处《淮阴工学院学报》 CAS 2015年第5期18-24,共7页 Journal of Huaiyin Institute of Technology

基金国家星火计划(2011GA690190) 江苏省科技支撑计划(2015) 江苏省高校自然科学研究面上项目(15KJB520004) 淮安市科技支撑计划(HAG2014023 HAG2014028) 淮安市"533英才工程"项目

关键词科技新闻文本分类 TF-IDF 抽取算法 scientific-related news text categorization TF-IDF extraction algorithm

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献18

1谢松山,唐雁.基于左归词频向量空间模型的中文文本抄袭检测算法[J].西南大学学报（自然科学版）,2015,37(5):158-161. 被引量：3
2段洁,胡清华,张灵均,钱宇华,李德玉.基于邻域粗糙集的多标记分类特征选择算法[J].计算机研究与发展,2015,52(1):56-65. 被引量：108
3邱云飞,王威,刘大有,邵良杉.一种词频与方差相结合的特征加权方法[J].计算机应用研究,2012,29(6):2132-2134. 被引量：3
4刘金岭,谈芸,李健普,袁娜.基于多因素的中文文本主题自动抽取方法[J].计算机技术与发展,2010,20(7):72-75. 被引量：3
5王红艳,朱全银,严云洋,钱进.商品价格数据的两种WEB挖掘算法比较[J].微电子学与计算机,2011,28(10):168-172. 被引量：3
6Quan - yin Zhu, Su - qun Cao, Pei Zhou, et al. Price Fore- casting for Cell Phone Market Using Adaptive Sliding Window and Adaptive RBF NN[ J]. Journal of Algorithms and Computational Technology, 2013,7 ( 4 ) : 395 - 422.
7朱全银,周培,尹永华,陈浮,刘金岭.基于Web数据挖掘的多因素科技专家信息提取方法[J].淮阴工学院学报,2013,22(5):23-27. 被引量：1
8Quanyin Zhu, Jin Ding, Yonghua Yin, et al. A Hybrid Approach for New Products Discovery of Cell Phone Based on Web Mining [ J 1. Journal of Information and Computational Science,2012,9(16) :5039 -5046.
9Quanyin Zhu, Pei Zhou, Sunqun Cao, et al. A novel RDB -SW approach for commodities price dynamic trend a- nalysis based on Web extracting [ J ]. Journal of Digital Information Management ,2012,10(4 ) :230 - 235.
10Quan - yin Zhu, Yong - hua Yin, Hong - jian Zhu, et al. Effect of Magnitude Differences in the Original Data on Price Forecasting[J]. Journal of Algorithms and Compu- tational Technology,2014,8 (4) :281 - 312.

二级参考文献150

1叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
2张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
3王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
4陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
5罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
6马海兵,刘永丹,王兰成,李荣陆.三种文档语义倾向性识别方法的分析与比较[J].现代图书情报技术,2007(4):43-47. 被引量：15
7初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14
8VladimirN Vapnik著张学工译.统计学习理论的本质[M].北京：清华大学出版社,2000.1-125.
9马海兵.网络舆情及其分析技术[N].光明日报,2007-01-21(6).
10Morris A, Kasper G, Adams D. The effects and limitations of automated text condensing on reading comprehension performance[J]. Information Systems Rescarch, 1992,3 ( 1 ) : 17 - 35.

共引文献167

1陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：16
2何宇虹,黄沛杰,杜泽峰,刘威,朱建恺,章锦川.结合特殊领域实体识别的远监督话语领域分类[J].中文信息学报,2020(5):10-18. 被引量：1
3李敏,章国豪,陈梓樑,郭志勇,胡晓敏.基于差分进化的多目标粒子群特征选择算法[J].计算机应用研究,2020,37(1):76-79. 被引量：8
4朱全银,严云洋,周培,谷天峰.一种线性插补与自适应滑动窗口价格预测模型[J].山东大学学报（工学版）,2012,42(5):53-58. 被引量：3
5朱全银,周培,尹永华,陈浮,刘金岭.基于Web数据挖掘的多因素科技专家信息提取方法[J].淮阴工学院学报,2013,22(5):23-27. 被引量：1
6张伟,简刚.基于不均衡文本数据的集成分类方法设计[J].电信技术研究,2018,0(4):55-64.
7胡龙茂.中文文本分类技术比较研究[J].安庆师范学院学报（自然科学版）,2015,21(2):49-53. 被引量：3
8余鹰.多标记学习研究综述[J].计算机工程与应用,2015,51(17):20-27. 被引量：12
9路永和,彭燕虹,刘文秋.面向科研与教学的文本分类平台构建[J].现代情报,2015,35(9):56-62.
10李兆翠,朱振方,李颖.基于改进SVM的网页过滤系统研究[J].软件导刊,2016,15(2):159-161. 被引量：2

同被引文献13

1郝水龙,吴共庆,胡学钢.基于层次向量空间模型的用户兴趣表示及更新[J].南京大学学报（自然科学版）,2012,48(2):190-197. 被引量：26
2杨绪兵,王一雄,陈斌.马氏度量学习中的几个关键问题研究及几何解释[J].南京大学学报（自然科学版）,2013,49(2):133-141. 被引量：17
3李翔,朱全银.Adaboost算法改进BP神经网络预测研究[J].计算机工程与科学,2013,35(8):96-102. 被引量：29
4李翔,朱全银,王尊.基于可变基函数和GentleAdaBoost的小波神经网络研究[J].山东大学学报（工学版）,2013,43(5):31-38. 被引量：4
5樊小超,张重阳,邓雄伟.基于互信息的文本特征加权方法[J].计算机工程与应用,2015,51(13):145-148. 被引量：4
6罗小玲,薛河儒.基于模糊关联优化的中文语义深度挖掘仿真[J].计算机仿真,2016,33(1):362-364. 被引量：5
7CNNIC发布第37次《中国互联网络发展状况统计报告》[J].国家图书馆学刊,2016,25(2):76-76. 被引量：34
8唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：138
9王宗尧,朱全银,刘金岭,朱红波.基于CRF模型的用户文本检索需求信息划分[J].扬州大学学报（自然科学版）,2016,19(4):47-49. 被引量：1
10何炎祥,孙松涛,牛菲菲,李飞.用于微博情感分析的一种情感语义增强的深度学习模型[J].计算机学报,2017,40(4):773-790. 被引量：127

引证文献3

1严云洋,瞿学新,朱全银,李翔,赵阳.基于离群点检测的分类结果置信度的度量方法[J].南京大学学报（自然科学版）,2019,55(1):102-109. 被引量：4
2瞿学新,朱全银,严云洋,李翔.基于互信息和关联规则的文本特征提取方法[J].淮阴工学院学报,2018,27(3):20-24. 被引量：1
3张柯文,李翔,朱全银,方强强,马甲林,成洁怡,丁行硕.一种基于WSD层级记忆网络建模的文档表示方法[J].淮阴工学院学报,2020,29(3):47-53.

二级引证文献5

1赵国生,张慧,王健.基于Tangle网络的移动群智感知数据安全交付模型[J].电子与信息学报,2020,42(4):965-971. 被引量：16
2张柯文,李翔,严云洋,朱全银,马甲林.基于多特征双向门控神经网络的领域专家实体抽取方法[J].南京师大学报（自然科学版）,2021,44(1):128-135. 被引量：4
3王晓辉,宋学坤,王晓川.基于邻域密度的异构数据局部离群点挖掘算法[J].计算机仿真,2021,38(7):281-285. 被引量：6
4王龙飞,严春满.道路场景语义分割综述[J].激光与光电子学进展,2021,58(12):36-58. 被引量：21
5游新冬,赵颖,刘佳琦,吕学强.多特征融合的专利功效短语抽取[J].计算机工程与设计,2024,45(5):1413-1419.

1徐保鑫,怀丽波,崔荣一.基于MapReduce的朴素贝叶斯算法在新闻分类中的应用[J].延边大学学报（自然科学版）,2017,43(1):55-59. 被引量：4
2牛玉霞,任伟.基于.NET的“企业产品展示与新闻发布系统”设计与实现[J].数字技术与应用,2016,34(12):159-160.
3曹薇,张乃洲.一种基于C4.5决策树的Web页面分类算法[J].计算机系统应用,2010,19(10):195-198. 被引量：5
4彭雨龙.基于VSM和LDA模型相结合的新闻文本分类研究[J].山东工业技术,2016(6):202-203. 被引量：4
5贺志华.基于Struts架构的新闻发布系统开发研究[J].软件导刊,2007,6(9):58-60. 被引量：1
6范宏伟.打造有特色的政府新闻网站[J].网络传播,2005(12):4-4.
7沙志千.基于Java语言的新闻分类系统功能操作模块的实现[J].应用能源技术,2017(2):48-51.
8麦淼,邱舟强.浅析新闻网站安全解决方案[J].广东科技,2004,13(7):55-56. 被引量：1
9沙芸,张国英,孟凡亮.基于关键词提取的娱乐新闻文档去重算法[J].广西师范大学学报（自然科学版）,2007,25(2):30-33. 被引量：3
1012家政府新闻网站享受电信资费优惠[J].现代广告,2001(7):64-65.

淮阴工学院学报

2015年第5期

浏览历史

内容加载中请稍等...

Web科技新闻分类抽取算法被引量：3

参考文献18

二级参考文献150

共引文献167

同被引文献13

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

Web科技新闻分类抽取算法 被引量：3

参考文献18

二级参考文献150

共引文献167

同被引文献13

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

Web科技新闻分类抽取算法被引量：3