NO.35《数据科学家访谈录》

最近在寻找大数据方面的知识,网上的资料丰富到让人眼花缭乱,但这本书立刻吸引了我,并且优先读完。学习一门新知识,首先要找到学习的方法,最直接的方式就是与行内的人交流,这本书做到了。

谈话对像都是行业内最顶尖的人物,没有生涩的术语和概念,用最直白的语言传达核心思想。而作者提出的问题也是精心准备,时而深刻,时而帖近工作和生活。

不过对话是一种即兴和快速应答方式,难免缺少体系和主线,我这里把全书比较精彩的内容,也整理成问答方式,帮助大家了解“数据科学”这个新兴名词。

 

1、什么是数据科学?

最早提出这名词的是 DJ Patil,他2015年被任命为美国历史上第一位首席数据科学家,这是美国总统发布于白宫的一项新职位,为奥巴马和国家提供数据咨询服务。

这是一个跨学科的领域,结合了数学、统计学、计算机等相关知识的集合。主要对数据进行处理,以获得有价值的信息。

书中的 Jonh Foreman 提出,“数据科学”有些荒唐,数据和科学本就是两个含糊不清的语汇,不过叫什么不重要,可能若干年后“数据科学”成为一个过气的“网红”,但这门技术会深深影响着商业界的许多工作。

 

2、数据科学的主要工作内容是什么?

工作分为三部分:统计(偏统计学)、代码(偏计算机)、展示(偏商务与沟通),我们可以选择一个方向做为重点,但不能只选一个方向,因为这三者的关系是不可分割的。

 

3、成为数据科学家需要具有哪些能力?

涉及的知识丰常多,计算机编程、数学(偏离散数学)、统计学(重点)、团队合作、抽象逻辑思维、商务与沟通技巧。

书中突略了一个很重要的能力,就是【英语】,因为很多新知识、数据集、程序语言都是英文,英语好能让事半功倍。

 

4、数据科学和数据分析师有什么区别?

  • 数据分析师更善长使用数学工具
  • 不需要考虑问题是什么和数据集的收集
  • 输出的正确的结论,无需对商业行为负责
  • 对SQL要求不高

我的理解是数据分析师考虑“如何做事”,而数据科学家考虑的更多是“要做什么事?”

 

5、数据科学对计算机能力有什么具体要求?

  • 数据库工具【40%】
  • Hadoop【30%】
  • 统计、分析、绘图语言【15%】,推荐 R语言和 D3 / ggplot / matplotlib(收费)
  • 编程语言【10%】,推荐 Java、C++、.NET
  • 脚本语言【5%】,推荐 Python / Perl

 

6、数据科学对基础学科有什么具体要求?

  • 统计学(非常重要,占85%)
  • 离散数学,主要是图论和数理逻辑

 

7、网上有什么学习资源?

  • Quora、 Zipfian
  • 可汗学院、Cousera、Andrew Ng
  • 开源数据集 (书中给的网址失效了)
  • O’Reilly 丛书

 

8、给想成为数据科学家的人们一些建议:

  • 现在是数据科学的黄金时期,有太多机会可以让人们在这个领域建功立业。
  • 一位出色的数据科学家应该像瑞士军刀一样多才多艺,能在诸多领域有所作为,并在某些领域有着真知灼见。
  • 别抱想着尽快看完几本书,就有足够能力才能成为数据科学家。我们应沉浸在某个应用型的问题中,翻书找答案、看文章、找资源,那时会更好的理解这些技术和方法。
  • 没有足够强大的编程能力,自己的想法会受到很多限制。
  • 其实80%时间都用于爬数据、清理数据、编写代码分析。但不代表基础知识不重要,这会帮你有更好的直觉、更高的视野。

最后我很喜欢 Diane Wu 的观点和态度。“依我之见,学会这些技术并不需要很长时间。如果每天下班都坚持学一点东西,我觉得你完全来的及赶上现在如火如荼的数据科学浪潮