-
题名基于Hadoop的固网宽带终端识别技术研究和实现
被引量:2
- 1
-
-
作者
范孟可
王攀
-
机构
南京邮电大学物联网学院
-
出处
《计算机技术与发展》
2017年第11期171-175,共5页
-
基金
2015江苏省产学研前瞻性联合研究项目(BY2015011-02)
-
文摘
随着大数据时代的来临,大数据在各个行业应用越来越广泛。大数据在运营商行业的应用也很普遍,但同时也遇到了很多技术问题,其中家庭画像的塑造是运营商大数据的一个核心问题。如何提取和识别固网宽带下的终端类型是一个有待解决的问题。不像移动网,固网宽带由于没有信令通道,所以不携带任何准确的终端信息,因而对固网下的终端类型识别比较困难。传统方法都是采用解析和匹配HTTP GET报文中的UA字段进行识别。但这种方法由于UA的非标准化,以及终端数量和种类众多的缘故而导致终端类型的识别准确率低下。文中采用Hadoop框架,利用Hive中UDF的方法,结合分布式爬虫获取终端库,可以更加快速准确地识别出用户上网终端信息。实验结果表明,终端识别准确率可以达到92%以上,相比传统方法有了大幅提升。
-
关键词
终端识别
HADOOP
User
Defined
Function(UDF)
分布式爬虫
固网宽带
大数据运营
-
Keywords
terminal identification
Hadoop
User Defined Function ( UDF )
distributed crawler
fixed -line broadband
big data operations
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-