推背图全集
大数据、数据科学、人工智能......这些词近年来委火,天天听到这些词儿,处处看到这些字儿,无论是企业还是个人,似乎不跟这些词搭上点关系,自己就被这个时代淘汰了一样。海文国际作为全球知名的IT教育机构,我们开设大数据课程,上门咨询大数据课程的人天天络绎不绝,总会碰到一些问到:我很想学大数据,但我不知习了大数据后能干吗?如果您也有同样的疑问,不防花几分钟时间,读完此文详细了解学习大数据,你未来能干什么?
数据科学(Data Science)这一概念自大数据崛起也随之成为数据领域的讨论热点,从2015年开始,“数据科学家”便成为了一个工作职位出现在各种招聘信息上。那么究竟什么是数据科学?大数据和数据科学又是什么关系?大数据在数据科学中起到怎样的作用?本文主要是想起到科普作用,使即将或正在从事数据工作的朋友对数据科学工作有一个全概貌了解,也使有想法进入大数据领域的朋友在真正从事大数据工作之前对行业的情况有所知晓。数据科学是一个混合交叉学科(如下图所示),要完整的成为一个数据科学家,就需要具备较好的数学和计算机知识,以及某一个专业领域的知识。所做的工作都是围绕数据打转转,在数据量爆发之后,大数据被看做是数据科学中的一个分支。
大数据(Big Data)其实已经兴起好些年了,只是随着无处不在的传感器、无处不在的数据埋点,获取数据变得越来越容易、量越来越大、内容越来越多样化,于是原来传统的数据领域不得不思考重新换一个平台可以处理和使用逐渐庞大数据量的新平台。用以下两点进一步阐述:
吴军博士提出的一个观点:现有产业+新技术=新产业,大数据也符合这个原则,只是催生出来的不仅仅是一个新产业,而是一个完整的产业链:原有的数据领域+新的大数据技术=大数据产业链;数据使用的范围,原来的数据应用主要是从现有数据中的数据进行采样,再做数据挖掘和分析,发掘出数据中的潜在规则用以预测或决策,然而采样始终会一部分数据,即会丢失一部分潜在规则和价值,随着数据量和内容的不断累积,企业越来越重视在数据应用时可以使用全量数据,可以尽可能的覆盖所有潜在规则从而发掘出可能想到或从未想到的价值。
在我从事大数据相关工作和学习的10年时间里,我一直认为大数据是一个以数据流向为主的链条或管道,数据从何而来,又去往哪里,不仅是哲学上的一个问题,也可以在做数据工作的时候考虑这个问题。
Data Platform,构建、稳定、安全的大数据平台,按需设计大数据架构,调研选型大数据技术产品、方案,实施部署上线。对于大数据领域涉及到的大多数技术都要有所了解,并精通某一部分,具备分布式系统的知识背景;
Data Warehouse,有点类似于传统的数据仓库工作内容:设计数所仓库层级结构、ETL、进行数据建模,但基于的平台不一样,在大数据时代,数据仓库大多基于大数据技术实现,例如Hive就是基于Hadoop的数据仓库。
Data Processing,完成某些特定需求中的处理或数据清洗,在小团队中是结合在数据仓库中一起做的,以前做ETL或许是利用工具直接配置处理一些过滤项,写代码部分会比较少,如今在大数据平台上做数据处理可以利用更多的代码方式做更多样化的处理,所需技术有Hive、Hadoop、Spark等。随便说下,千万不要小看数据处理,后续的数据分析、数据挖掘等工作都是基于数据处理的质量,可以说数据处理在整个流程中有特别重要的。
Data Mining,是一个比较宽泛的概念,可以直接理解为从大量数据中发现有用的信息。大数据中的数据挖掘,主要是设计并在大数据平台上实现数据挖掘算法:分类算法、聚类算法、关联分析等。
Machine Learning,与数据挖掘经常一起讨论,甚至被认为是同一事物。机器学习是一个计算机与统计学交叉的学科,基本目标是学习一个x-y的函数(映射),来做分类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多数据挖掘的工作是通过机器学习提供的算法工具实现的,例如个性化推荐,是通过机器学习的一些算法分析平台上的各种购买,浏览和收藏日志,得到一个推荐模型,来预测你喜欢的商品。
Deep Learning,是机器学习里面的一个topic(非常火的Topic),从深度学习的内容来看其本身是神经网络算法的衍生,在图像、语音、自然语言等分类和识别上取得了非常好的效果,大部分的工作是在调参。不知道大家有否发现现在的Google翻译比以前的要准确很多,因为Google在去年底将其Google翻译的核心从原来基于统计的方法换成了基于神经网络的方法;
Data Visualization,将分析、挖掘后的高价值数据用比较优美、灵活的方式展现在老板、客户、用户面前,更多的是一些前端的东西,也可能要求有一定的美学知识。结合使用者的喜好,以最恰当的方式呈现数据价值;
Data Application,从以上的每个部分可以衍生出的应用,例如广告精准投放、个性化推荐、用户画像等。
我想进入大数据领域的朋友可以选一个与自己现有技术背景相匹配的方向作为入门,如海文国际的大数据课程,这个课程适合之前做SA、DBA、JAVA开发的有一定IT基础的人,同时也适合那有志于入进大数据领域的零基础的的人员,从知识的广度,让建立一套有章可循、有据可依然的大数据思维;然后再将学习的延伸到其他感兴趣的方向,这是最快进入这个领域的一个方法。当然,我们要知道所列的每一个方向都需要耗费大量的时间、脑力、体力,都是这个智能时代继续发展的过程中不可或缺的一部分,海文国际大数据课程或许是最能帮助你的。
本文由来源于财鼎国际(www.hengpunai.cn)