AAA教育论坛

 找回密码
 立即注册
查看: 2556|回复: 0
打印 上一主题 下一主题

大数据分析必须用到python吗

[复制链接]

95

主题

95

帖子

143

积分

超级版主

Rank: 8Rank: 8

积分
143
跳转到指定楼层
楼主
发表于 2021-12-30 14:59:17 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  我们知道,大数据的方向主要有两个,一个是开发,一个是分析,如果是大数据分析岗就必然会用到Python,这是每个在岗位上从业多年人士的心得总结,这足以说明python的重要性位置。那么,到底python在大数据分析中主要应用于哪些方面?下面就跟大家具体介绍一下吧。



  从笼统的角度出发去理解,开发主要用到的是java,该岗位以开发作为主要依托,分析岗则是以SQL和python为主,sql则是应用于hive,需要写自定义的计算逻辑,在写逻辑的时候就会用到Python,另外哪怕是纯数据分析也是以python为主,因为python本身对应的科学计算生态非常强大,如果能将它学好、用好的话,在大数据分析岗位上会有更加顺畅简单的从业体验和感觉。
  具体来说,在数据爬虫的时候很多人都会用到Python,要知道,网络爬虫一直以来都是Python的主要应用优势领域,主要流行的爬虫有什么呢?Scrapy、HTTP工具包urlib2等等,这些都是能独当一面的类库,但是网络爬虫跟很多新人所想象的“只要打开网页进行解析就可以了”完全不同,真正厉害的爬虫指的是能支持大量灵活的并发操作,能同时就几千乃至上万个的网页进行有效抓取,想要达到这样的效果就需要用到python。可以这么理解,如果不会python的话那么在分析手段上就会受到很大限制。
  另外在数据分析的时候还是得用到python,在网络渠道上爬取了大量数据之后,还要进行预先的处理,将无效、重复的数据剔除掉,剩下有用数据保留下来才能进入到进一步的分析阶段中。而在分析的阶段,python也是很多企业的首选,它跟r语言一样、都在数据分析中得到挺高认可度,而r语言则相对来说会更受数据科学家的推崇,企业不会选择它,企业选择的是python,python数据处理的类库非常的多,比如说NumPy和SciPy等等,它的高级算法应用得十分好,所以能让画图变得像Matlab一样简单。
  就是因为在大数据分析的初期——数据获取阶段,后期——分析阶段都要用到python这一工具,所以它的重要性是不言而喻的,现在很多培训机构在就新人进行专业化培训的时候,第1个环节就是python等软件工具的教学,为的是帮助大家打好基础,如果缺乏python、 Java以及linux系统spark、storm等软件工具的操作技能作为支撑,想要做好大数据分析岗不大现实。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|  

©2019|www.aaa-cg.com.cn 北京漫动者教育科技有限公司|备案号:京ICP备12034770号|监督电话:400-0100-444

快速回复 返回顶部 返回列表