回答数
7
浏览数
12462
无力至心死身僵
诚然,任何一门技术都不可能一蹴而就,更不可能一夜成才。这世上,没有什么牛逼的事情是能够速成的,越是专业、越是基层、收益周期越长的技能越是这样,数据分析师也不例外。但这并不代表,我们不能通过一些有效的方法,把学习的过程变得高效而有趣,让自己的数据分析师学成之旅起到事半功倍的作用。倘若真的想一口吃成一个胖子,到时去面试去工作,你会被自己的好不扎实的专业基底伤害得遍体鳞伤。学习数据分析师之前,你必须清楚自己想要达成什么目标。也就是说,你想通过这门技术来解决哪些问题或实现什么计划。有了这个目标,你才能清晰地开展自己的学习规划,并且明确它的知识体系。只有明确的目标导向,学习必备也是最有用的那部分,才能避免无效信息降低学习效率。1、明确知识框架和学习路径数据分析这件事,如果你要成为数据分析师,那么你可以去招聘网站看看,对应的职位的需求是什么,一般来说你就会对应该掌握的知识架构有初步的了解。你可以去看看数据分析师职位,企业对技能需求可总结如下:SQL数据库的基本操作,会基本的数据管理;会用ExcelSQL做基本的数据提取、分析和展示;会用脚本语言进行数据分析,Python or R;有获取外部数据的能力加分,如爬虫或熟悉公开数据集;会基本的数据可视化技能,能撰写数据报告;熟悉常用的数据挖掘算法:回归分析、决策树、分类、聚类方法;高效的学习路径是什么?就是数据分析的流程。一般大致可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实现一个数据分析师的学成之旅。按这样的顺序循序渐进,你会知道每个部分需要完成的目标是什么,需要学习哪些知识点,哪些知识是暂时不必要的。然后每学习一个部分,你就能够有一些实际的成果输出,有正向的反馈和成就感,你才会愿意花更多的时间投入进去。以解决问题为目标,效率自然不会低。按照上面的流程,我们分需要获取外部数据和不需要获取外部数据两类分析师,总结学习路径如下:1.需要获取外部数据分析师:python基础知识python爬虫SQL语言python科学计算包:pandas、numpy、scipy、scikit-learn统计学基础回归分析方法数据挖掘基本算法:分类、聚类模型优化:特征提取数据可视化:seaborn、matplotlib2.不需要获取外部数据分析师:SQL语言python基础知识python科学计算包:pandas、numpy、scipy、scikit-learn统计学基础回归分析方法数据挖掘基本算法:分类、聚类模型优化:特征提取数据可视化:seaborn、matplotlib接下来我们分别从每一个部分讲讲具体应该学什么、怎么学。数据获取:公开数据、Python爬虫如果接触的只是企业数据库里的数据,不需要要获取外部数据的,这个部分可以忽略。外部数据的获取方式主要有以下两种。第一种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。另一种获取外部数据费的方式就是爬虫。比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。在爬虫之前你需要先了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数(链接的菜鸟教程非常好)……以及如何用成熟的 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。如果是初学,建议从 urllib 和 BeautifulSoup 开始。(PS:后续的数据分析也需要 Python 的知识,以后遇到的问题也可以在这个教程查看)网上的爬虫教程不要太多,爬虫上手推荐豆瓣的网页爬取,一方面是网页结构比较简单,二是豆瓣对爬虫相对比较友好。掌握基础的爬虫之后,你还需要一些高级技巧,比如正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie信息等等,来应对不同网站的反爬虫限制。除此之外,常用的的电商网站、问答网站、点评网站、二手交易网站、婚恋网站、招聘网站的数据,都是很好的练手方式。这些网站可以获得很有分析意义的数据,最关键的是,有很多成熟的代码,可以参考。数据存取:SQL语言你可能有一个疑惑,为什么没有讲到Excel。在应对万以内的数据的时候,Excel对于一般的分析没有问题,一旦数据量大,就会力不从心,数据库就能够很好地解决这个问题。而且大多数的企业,都会以SQL的形式来存储数据,如果你是一个分析师,也需要懂得SQL的操作,能够查询、提取数据。SQL作为最经典的数据库工具,为海量数据的存储与管理提供可能,并且使数据的提取的效率大大提升。你需要掌握以下技能:提取特定情况下的数据:企业数据库里的数据一定是大而繁复的,你需要提取你需要的那一部分。比如你可以根据你的需要提取2018年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……,SQL可以通过简单的命令帮你完成这些工作。数据库的增、删、查、改:这些是数据库最基本的操作,但只要用简单的命令就能够实现,所以你只需要记住命令就好。数据的分组聚合、如何建立多个表之间的联系:这个部分是SQL的进阶操作,多个表之间的关联,在你处理多维度、多个数据集的时候非常有用,这也让你可以去处理更复杂的数据。数据预处理:Python(pandas)很多时候我们拿到的数据是不干净的,数据的重复、缺失、异常值等等,这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。比如空气质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。比如用户行为数据,有很多无效的操作对分析没有意义,就需要进行删除。那么我们需要用相应的方法去处理,比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。对于数据预处理,学会 pandas 的用法,应对一般的数据清洗就完全没问题了。需要掌握的知识点如下:选择:数据访问(标签、特定值、布尔索引等)缺失值处理:对缺失数据行进行删除或填充重复值处理:重复值的判断与删除空格和异常值处理:清楚不必要的空格和极端、异常数据相关操作:描述性统计、Apply、直方图等合并:符合各种逻辑关系的合并操作分组:数据划分、分别执行函数、数据重组Reshaping:快速生成数据透视表概率论及统计学知识数据整体分布是怎样的?什么是总体和样本?中位数、众数、均值、方差等基本的统计量如何应用?如果有时间维度的话随着时间的变化是怎样的?如何在不同的场景中做假设检验?数据分析方法大多源于统计学的概念,所以统计学的知识也是必不可少的。需要掌握的知识点如下:基本统计量:均值、中位数、众数、百分位数、极值等其他描述性统计量:偏度、方差、标准差、显著性等其他统计知识:总体和样本、参数和统计量、ErrorBar概率分布与假设检验:各种分布、假设检验流程其他概率论知识:条件概率、贝叶斯等有了统计学的基本知识,你就可以用这些统计量做基本的分析了。通过可视化的方式来描述数据的指标,其实可以得出很多结论了,比如排名前100的是哪些,平均水平是怎样的,近几年的变化趋势如何……你可以使用python的包 Seaborn(python包)在做这些可视化的分析,你会轻松地画出各种可视化图形,并得出具有指导意义的结果。了解假设检验之后,可以对样本指标与假设的总体指标之间是否存在差别作出判断,已验证结果是否在可接受的范围。python数据分析如果你有一些了解的话,就知道目前市面上其实有很多 Python 数据分析的书籍,但每一本都很厚,学习阻力非常大。但其实真正最有用的那部分信息,只是这些书里很少的一部分。比如用 Python 实现不同案例的假设检验,其实你就可以对数据进行很好的验证。比如掌握回归分析的方法,通过线性回归和逻辑回归,其实你就可以对大多数的数据进行回归分析,并得出相对精确地结论。比如DataCastle的训练竞赛“房价预测”和“职位预测”,都可以通过回归分析实现。这部分需要掌握的知识点如下:回归分析:线性回归、逻辑回归基本的分类算法:决策树、随机森林……基本的聚类算法:k-means……特征工程基础:如何用特征选择优化模型调参方法:如何调节参数优化模型Python 数据分析包:scipy、numpy、scikit-learn等在数据分析的这个阶段,重点了解回归分析的方法,大多数的问题可以得以解决,利用描述性的统计分析和回归分析,你完全可以得到一个不错的分析结论。当然,随着你实践量的增多,可能会遇到一些复杂的问题,你就可能需要去了解一些更高级的算法:分类、聚类,然后你会知道面对不同类型的问题的时候更适合用哪种算法模型,对于模型的优化,你需要去学习如何通过特征提取、参数调节来提升预测的精度。这就有点数据挖掘和机器学习的味道了,其实一个好的数据分析师,应该算是一个初级的数据挖掘工程师了。系统实战这个时候,你就已经具备了数据分析的基本能力了。但是还要根据不同的案例、不同的业务场景进行实战。能够独立完成分析任务,那么你就已经打败市面上大部分的数据分析师了。如何进行实战呢?上面提到的公开数据集,可以找一些自己感兴趣的方向的数据,尝试从不同的角度来分析,看看能够得到哪些有价值的结论。另一个角度是,你可以从生活、工作中去发现一些可用于分析的问题,比如上面说到的电商、招聘、社交等平台等方向都有着很多可以挖掘的问题。开始的时候,你可能考虑的问题不是很周全,但随着你经验的积累,慢慢就会找到分析的方向,有哪些一般分析的维度,比如top榜单、平均水平、区域分布、年龄分布、相关性分析、未来趋势预测等等。随着经验的增加,你会有一些自己对于数据的感觉,这就是我们通常说的数据思维了。你也可以看看行业的分析报告,看看优秀的分析师看待问题的角度和分析问题的维度,其实这并不是一件困难的事情。在掌握了初级的分析方法之后,也可以尝试做一些数据分析的竞赛,比如 DataCastle 为数据分析师专门定制的三个竞赛,提交答案即可获取评分和排名:员工离职预测训练赛美国King County房价预测训练赛北京PM2.5浓度分析训练赛种一棵树最好的时间是十年前,其次是现在。现在就去,找一个数据集开始吧!!
360无死角美男
CPDA数据分析师师兄告诉你,数据分析师需要掌握的知识,可以划分如下1.初级分析师初级分析师是数据人员架构的基础组成部分,承担了数据工作中大多数最基础的工作,通常初级分析师的人员比例不应超过20%。初级分析师的定位是数据整理、数据统计和基本数据输出工作,服务的对象包括中、高级分析师和业务方等,对其素质的要求侧重于基本数据技能和业务常识。•数据工具要求。基本的Excel操作能力和SQL取数能力、与工作相关工具的使用技能,顺利完成数据抽取和整理等工作;基本数据输出能力,包括PPT、邮件、Word等使用能力。•数据知识要求。理解日常数据体系内涉及的维度、指标、模型,辅助中、高级分析师进行专项工作并承担其中的部分工作。•业务知识要求。理解基本业务知识,能把业务场景和业务需求分别用数据转换和表达出来。2.中级分析师中级分析师是数据人员架构中的主干。中级分析师承担着公司的专项数据分析工作,如各业务节点的项目类分析、专题报告等。通常中级分析师的人员比例在40%~60%之间。中级分析师的定位是数据价值挖掘、提炼和数据沟通落地,服务的对象主要是业务方,除此之外还可能参与高级分析师的大型项目并独立承担其中的某个环节。因此要求中级分析师对专项数据技能、业务理解及推动能力的要求较高。•数据工具要求。熟练使用数据挖掘工具、网站分析工具。•数据知识要求。了解不同算法和模型的差异点及最佳实践场景,根据工作需求应用最佳的实践方案。•业务知识要求。深度理解业务知识,具有较强的数据解读和应用推动能力。3.高级分析师高级分析师职位通常是数据职能架构中的火车头,承担了企业数据方向的领导职能。高级分析师的人员比例在20%~40%之间。高级分析师的定位是企业数据工作方向规则体系建设、流程建设、制度建设等,服务对象通常是业务及企业领导层。因此要求其除了要具备中级分析师的基本能力外,还需要具备宏观规划、时间把控、风险管理、效果管理、成本管理等项目管理能力。•高级分析师需要能搭建企业数据体系,并根据企业发展阶段提出适合当前需求的数据职能和技术架构方案。 •高级分析师需要规划出所负责领域内数据工作方向、内容、排期、投入、产出等,并根据实际工作进行投入与产出分析,同时做好数据风险管理。•高级分析师需要实时跟进项目的进度,监督数据项目落地执行,并通过会议、汇报、总结、阶段性目标、KPI等形式做好过程控制和结果控制。低、中、高级不同职位层次数据分析师的能力要求如图所示。注意,图像越向外代表对其相应能力的要求越高,反之则要求越低。
只限于他
我们先从报考人数来看,由于数据统计比较难找,我们通过往年的通过率和通过人数来倒推报考人数,具体数据往下看,以四川为例,2020报考人数39642人,通过人数是5431,那么通过率是13.7%,按照13.7左右的通过率为基准来看其他省份的报考人数:安徽通过人数3439,那么报考人数在25102人左右,福建通过人数5548,报考人数在40496人左右,山东通过人数11778,报考人数在85970人左右,河北通过人数4698,报考人数34291人左右……以上是2020年的数据。再来看2019年的数据,安徽通过人数3314,那么报考人数在24189人左右,福建通过人数4914,报考人数在35868人左右,山东通过人数15229,报考人数在111160人左右,河北通过人数4095,报考人数29890人左右……这是2019年的数据。2021年的数据更难整理,从以上数据可以看出,除了山东报考人数数据下降外,从整体可以看出报考中级经济师的趋势还是逐年上升的,13.7左右的通过率确实也不算高,这说明了中级经济师还是具备一定难度的,所以就会有同学问哪个专业好过就不足为奇了。简单分析一下,报考最热门的两个专业应该是人力专业和工商管理专业了。其实每个专业都有自己的特点和知识体系结构,无所谓难易,你备考充足了,就不会觉得有难度了。比如上述两个专业适合零基础的同学,因为算力要求不是很高,金融专业要求算力比较高,但是不知道大家注意了没,知识产权是新增的专业,之所以新增专业说明该专业符合了当前的趋势所需,所以前几年考试设置的难度应该也不会很高。财政税收、保险、金融、运输还是具备一定难度的,但是最重要的是选择哪个专业一定要结合自己的工作需求和所学专业来定。
我很坚强i你别逞强
哪个专业好考是次要的,重要的是哪个专业能受聘或者您想在哪个专业发展。首先要考虑工作需求,有的单位评职称、加薪等要求指定专业,考别的专业,单位不承认,所以选择专业首要考虑的就是单位需求,另外,多数学员选择考试的专业都会多少和自己的工作领域相关联的,或者和今后工作发展方向相关,这一选择对于大家备考来说,也是比较有利的。其次深入的了解各专业考试内容及特点,看看自己所选专业的内容是否能理解和掌握,考试难度是否适合自己,你又是否具备一定的专业基础。
原谅我面无表情却爱你好深原谅我面无表情却爱你好深
如果你打算成为一名数据分析师,你需要同时具备统计学、数据库、经济学三个领域的基础知识;英语四级或以上、熟悉指标英文名称;具备互联网产品设计知识。
温暖不了你受创的殇
1. Excel提到Excel大家都不陌生,很多小白非常喜欢用Excel来进行数据分析。即使是专业的分析人员,他们也会使用Excel处理聚合数据。2. SQL语言SQL(结构化查询语言)是一种用于处理和检索关系数据库中存储的数据的计算机语言,是关系数据库管理系统的标准语言。3. 可视化工具将数据可视化可以让人更加理解数据。人类都是视觉动物,图形往往比密密麻麻的文字更易于理解。4. PythonTableau、FineBI这一类的可视化工具,的确可以自动生成报告。但是,如果想要进行更深入的探索,你需要学习Python来进行数据挖掘。Python是一种面向对象的高级编程语言,主要用于Web以及应用程序的开发。Python拥有图形和可视化工具、以及扩展的分析工具包,能够更好地帮助我们进行数据分析。5. SASSAS(统计分析软件)是一套模块化的大型集成应用软件系统。它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。因此,SAS能够对数据进行深层次的挖掘和分析。
优质职业资格问答知识库