Hadoop发展到今天家族产品已经非常丰富,能够满足不同场景的大数据处理需求。作为目前主流的大数据处理技术,市场上很多公司的大数据业务都是基于Hadoop开展,而且对很多场景已经具有非常成熟的解决方案。
下面的技术路线侧重数据挖掘方向,因为Python开发效率较高所以我们使用Python来进行任务。
Hive是一个数据仓库,所有的数据都是存储在HDFS上的。使用Hiv测试你的前世今生e主要是写Hql,非常类似于Mysql数据库的Sql。其实Hive在执行Hql,底层在执行的时候还是执行的MapRedce程序。
本文由 恒宇国际(www.neivn.cn)整理发布