数据工程师培训在哪学习

旁人伴我生老病死
  • 回答数

    8

  • 浏览数

    11111

首页> 工程师报名> 数据工程师培训在哪学习

8个回答默认排序
  • 默认排序
  • 按时间排序

爱阴湿坦观阴大湿

已采纳

黑马、优就业、千锋都算是市面上比较好的大数据培训机构其中教学质量和教学服务三家都差不多但是教学设施和教学环境优就业就要比其他两家高很多了你可以去这三家都实地看一下再做决定

140评论

别人家的孩子永远比自己强

现在市场的大数据培训公司基本都是以JAVA导入,但实际上大数据与java有一定关系,是在hadoop学习中会用到一部分,其他基本很少吧,但很多机构为了招生,大部分讲java,完全是糊弄小白,所以在学习大数据之前,请先看清你学的是什么。目前市场大数据培训公司有名气的有光环大数据,听反映说不错,你可以去看看

60评论

我只能自作多情

想要都进入大数据行业的第一步,是先搞清楚大数据究竟有哪些就业方向。大数据就业岗位随着大数据技术在企业界如火如荼的实践,企业对组建大数据团队的迫切程度也也来越高,对与大数据相关高端人才的需求也越来越紧迫,但企业对大数据团队的组建和角色分配方面缺一直有不小的困惑,到底大数据团队里应该拥有哪些几类角色,如何设置岗位?同一类别的角色的专业方向又有哪些分化,不同专业的岗位对技能应该有哪些要求?如何管理大数据团队成员的职业发展路径?为此,ChinaHadoop花费了一年时间调研了先进企业内部设立的大数据部门或团队的组织结构和职能划分,在此基础上,首次提出了企业大数据团队的岗位划分,专业分类及定义,以及每个岗位所需的技能及培训,技能考核对应的能力级别,我们将之统称为”企业大数据人才岗位技能认证体系“。通过对企业大数据人才岗位进行专业细分,岗位技能认证等级与企业现有技术专业通道形成对应关系,打通员工的职业发展通道,帮助企业逐步完善大数据团队的组织结构,不断提高团队技能,为各岗位及时储备人才。大数据团队的角色分类企业大数据团队的角色分类主要有三个大类别:大数据开发工程师、大数据运维工程师、大数据架构师。总体而言,我们大数据人才划分为三个大类:一、 大数据开发工程师:围绕大数据系平台系统级的研发人员, 熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用算法,熟练掌握Hadoop整个生态系统的组件如: Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发。通过学习一系列面向开发者的Hadoop、Spark等大数据平台开发技术,掌握设计开发大数据系统或平台的工具和技能,能够从事分布式计算框架如Hadoop、Spark群集环境的部署、开发和管理工作,如性能改进、功能扩展、故障分析等。二、 大数据运维工程师:了解Hadoop、Spark、Storm等主流大数据平台的核心框架,熟悉Hadoop的核心组件:HDFS、MapReduce、Yarn;具备大数据集群环境的资源配置,如网络要求、硬件配置、系统搭建。熟悉各种大数据平台的部署方式,集群搭建,故障诊断、日常维护、性能优化,同时负责平台上的数据采集、数据清洗、数据存储,数据维护及优化。熟练使用Flume、Sqoop等工具将外部数据加载进入大数据平台,通过管理工具分配集群资源实现多用户协同使用集群资源。三、 大数据架构师:这一角色的要求是综合型的,对各种开源和商用的大数据系统平台和产品的特点非常熟悉,能基于Hadoop、Spark、 NoSQL、 Storm流式计算、分布式存储等主流大数据技术进行平台架构设计,负责企业选用软件产品的技术选型,具体项目中的数据库设计及实现工作,协助开发人员完成数据库部分的程序 ,能解决公司软件产品或者项目开发和运维中与数据库相关的问题; 及时解决项目开发或产品研发中的技术难题,对设计系统的最终性能和稳定性负责。岗位能力级别定义:1. 初级:具备基本的大数据技术的基础知识,可以将其视为大数据认证的初学或者入门等级。2. 高级:大数据认证的高级或者熟练等级,表明该人才具备大数据某一专业方向的基本知识和熟练技能。3. 专家:具有业界公认的专业大数据技术知识和丰富工作经验。这里简单介绍几种我认为用的比较多的技术一、Hadoop可以说,hadoop几乎已经是大数据代名词。无论是是否赞成,hadoop已经是大部分企业的大数据标准。得益于Hadoop生态圈,从现在来看,还没有什么技术能够动摇hadoop的地位。这一块可以按照一下内容来学习:1、Hadoop产生背景 2、Hadoop在大数据、云计算中的位置和关系 3、国内外Hadoop应用案例介绍 4、国内Hadoop的就业情况分析及课程大纲介绍 5、分布式系统概述 6、Hadoop生态圈以及各组成部分的简介二、分布式文件系统HDFSHDFS全称 Hadoop Distributed File System ,它是一个高度容错性的系统,适合部署在廉价的机器上,同时能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。为了实现流式读取文件系统数据的目的,HDFS放宽了一部分POSIX约束。1、分布式文件系统HDFS简介 2、HDFS的系统组成介绍 3、HDFS的组成部分详解 4、副本存放策略及路由规则 5、NameNode Federation 6、命令行接口 7、Java接口 8、客户端与HDFS的数据流讲解 9、HDFS的可用性(HA)三、初级MapReduce这是你成为Hadoop开发人员的基础课程。MapReduce提供了以下的主要功能:1)数据划分和计算任务调度:2)数据代码互定位:3)系统优化:4)出错检测和恢复:这种编程模型主要用于大规模数据集(大于1TB)的并行运算。1、如何理解map、reduce计算模型 2、剖析伪分布式下MapReduce作业的执行过程 3、Yarn模型 4、序列化 5、MapReduce的类型与格式 6、MapReduce开发环境搭建 7、MapReduce应用开发 8、熟悉MapReduce算法原理四、高级MapReduce这一块主要是高级Hadoop开发的技能,都是MapReduce为什么我要分开写呢?因为我真的不觉得谁能直接上手就把MapReduce搞得清清楚楚。1、使用压缩分隔减少输入规模 2、利用Combiner减少中间数据 3、编写Partitioner优化负载均衡 4、如何自定义排序规则 5、如何自定义分组规则 6、MapReduce优化五、Hadoop集群与管理这里会涉及到一些比较高级的数据库管理知识,乍看之下都是操作性的内容,但是做成容易,做好非常难。1、Hadoop集群的搭建 2、Hadoop集群的监控 3、Hadoop集群的管理 4、集群下运行MapReduce程序六、ZooKeeper基础知识ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。1、ZooKeeper体现结构 2、ZooKeeper集群的安装 3、操作ZooKeeper七、HBase基础知识HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。与FUJITSU Cliq等商用大数据产品不同,HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用 Chubby作为协同服务,HBase利用Zookeeper作为对应。1、HBase定义 2、HBase与RDBMS的对比 3、数据模型 4、系统架构 5、HBase上的MapReduce 6、表的设计八、HBase集群及其管理1、集群的搭建过程 2、集群的监控 3、集群的管理十、Pig基础知识Pig是进行Hadoop计算的另一种框架,是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。1、Pig概述 2、安装Pig 3、使用Pig完成手机流量统计业务十一、Hivehive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。1、数据仓库基础知识 2、Hive定义 3、Hive体系结构简介 4、Hive集群 5、客户端简介 6、HiveQL定义 7、HiveQL与SQL的比较 8、数据类型 9、表与表分区概念 10、表的操作与CLI客户端 11、数据导入与CLI客户端 12、查询数据与CLI客户端 13、数据的连接与CLI客户端 14、用户自定义函数(UDF)十二、SqoopSqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。1、配置Sqoop 2、使用Sqoop把数据从MySQL导入到HDFS中 3、使用Sqoop把数据从HDFS导出到MySQL中十三、StormStorm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。1、Storm基础知识:包括Storm的基本概念和Storm应用 场景,体系结构与基本原理,Storm和Hadoop的对比 2、Storm集群搭建:详细讲述Storm集群的安装和安装时常见问题 3、Storm组件介绍: spout、bolt、stream groupings等 4、Storm消息可靠性:消息失败的重发 5、Hadoop 和Storm的整合:Storm on YARN 6、Storm编程实战

185评论

你来过却爱上自由你出走我不问理由

这个应该要看机构的师资情况,学习环境,学习氛围,课程设置等因素来考虑,您可以实地考察一下

关于大数据学习:

一、基础部分:JAVA语言 和 LINUX系统

二、数据开发:

1、数据分析与挖掘

一般工作包括数据清洗,执行分析和数据可视化。学习Python、数据库、网络爬虫、数据分析与处理等。

大数据培训一般是指大数据开发培训。

大数据技术庞大复杂,基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。

2、大数据开发

数据工du程师建设和优化系统。学习hadoop、spark、storm、超zhi大集群调优、机器学习、Docker容器引擎、ElasticSearch、并发编程等;

课程学习一共分为六个阶段:

105评论

陷入你眸

以道教育可以去看看

98评论

伤不过自己

如果在成都的话,可以了解下邦飞科技,一家有自己研发团队的专业编程培训机构,研发的部分商业会拿给学生学习。教学团队是由一位有十五年开发经验的大牛带领的教师团队。部分老师还是CSDN的客座讲师和高校的外聘讲师。

2评论

海枯石烂我陪你沧海桑田我爱你

大数据的基础知识,自己去买本书就可以学。现在是大数据时代,有很多介绍的大数据的书。而且大数据的技术,如数据采集,数据存取,模型预测,结果呈现等都比较好学。

46评论

抬头45仰望忧伤低头45俯视幸福

大数据培训机构其实有很多家,哪些比较好还得从各个角度来考察!首先,从规模上看,看它是否规模比较大,最常见的衡量就是是否上市;其次,从师资上看,看它的授课老师是不是有多年实战经验,是不是真正该领域的老师;再次,从课程上看,是不是讲真正大数据课程,而不是所谓的Java大数据或者PHP大数据,其实大数据的课程主要就是Hadoop生态体系,spark生态体系,storm生态体系,这三大块都是大企业必须的大数据技能!然后,从教学模式上看,看是不是实战课程比例,大数据技术其实要非常注重实战能力,企业用人单位也是非常看重这块东西;最后就是就业,就业这块也是重中之重,也是衡量企业实力的元素,一般要看企业与哪些单位有就业合作,IT方面,当时最好是国内BAT为首的互联网公司,中关村软件园区有合作也不错。这样才能保证不贱卖自己的才华!在这窝衷心推荐北京那个光环的大数据培训机构,你可以去考察考察,确实不错!

163评论

相关问答

    向你推荐

      热门问题