Python: 作为一名数据科学家Python需要掌握到什么程度?
May 29, 2015
之前一直用R,最近正在学python,因为没有什么工作经验,也只能谈谈自己的感悟。
数据科学家算是统计师和程序员的结合体,来源也主要是这两个专业的毕业生。不过这两个群体的思维方式还真的是不一样。可以认为,统计的人更加偏爱R,程序员更偏爱python。
其实python有了pandas才能使数据分析变的像R那样简单。数据科学家能把python用的像R一样我觉得就好了。不过如果除了数据分析,公司要求代码的重用性,或者直接嵌入到产品中(比如网站推荐系统),那么对编程的要求就更高了。
其实数据科学家在做数据分析的时候,起码80%的时间是在做数据整理和清洗,同意 @唐学伟说的熟练使用pandas就好,这意味着能熟练的清理掉不必要数据,读取主要的数据格式文件,数据的合并汇总归类和切片等等。数据整理好比学编程要最起码能控制if-else和for循环,命令简单但是实用。
数据整理好了,对于各种算法包里的函数,其实就是input output的问题了。
另外一个常用的就是数据可视化也就是绘图了(目前主要是matplotlib)。这个步骤对于input的数据就是数据探索化的过程,查看数据是否有不合理性,数据的分布等等,对于output的数据就是结果呈现的过程,这样更有助于分析。
总而言之,数据科学家熟悉python的基本语法,熟练pandas(基于numpy),能利用python熟练的获取数据,整理数据,并会使用matplotlib展现数据是一个基本的要求。对于要做科学计算或者机器学习来说,数据整理好了,编程不是问题,数学才是。
说到这里看工作需求了,如果你所在的部门/实验室都用R/SAS/java/c++之类的,会用py进行预处理基本就可以了;如果主要用py来进行挖掘,需要掌握的就多一些,比如:numpy/scipy/mattplotlib/ipython/scikit-learn等。
DS需要统计+计算机。数据科学家这么高端的名词,不是只拿工具做上层的应用
业务分析做的好,这样只能说是好的分析师,程序编的溜,才可以说是好的工程师。
(来源:知乎问答)
美国对冲基金交易员传授股指期货(第二期)
继四月底成功举办第一期后,应未报上名的朋友们的要求,现安排第二期课程,请朋友们抓紧时间报名,前十名优惠1000元。
培养出来的学员在期货和外汇市场屡屡实现三个月翻十倍、四个月翻六倍、三周翻两倍的惊人交易绩效。并被华尔街交易学院及盈道金融研究院聘为指导老师和技术顾问。
(点击阅读原文查看详情)
0 Comments