数据科学家同样是一个很好的职业。举例来说,这是一个能够给组织带来战略性优势的新角色(同时,不是很多人都会接受相应的训练)。根据Indeed.com的数据,对于具有相同工作年限的求职者,数据科学家所能获得的薪水相当丰厚,在一般情况下都好于其他的IT职业。此外,数据科学家还有机会发展自己各方面的技能,使自己成为一个多面手,能够有机会与行业或是科技界的各种各样的人打交道。尤其在金融风暴时期,技术专才求职会变得特别困难,而经受过数据科学的训练就凸显出其价值了。
数据科学家同样是一个很好的职业。举例来说,这是一个能够给组织带来战略性优势的新角色(同时,不是很多人都会接受相应的训练)。根据Indeed.com的数据,对于具有相同工作年限的求职者,数据科学家所能获得的薪水相当丰厚,在一般情况下都好于其他的IT职业。此外,数据科学家还有机会发展自己各方面的技能,使自己成为一个多面手,能够有机会与行业或是科技界的各种各样的人打交道。尤其在金融风暴时期,技术专才求职会变得特别困难,而经受过数据科学的训练就凸显出其价值了。
那数据科学与大数据之间又有何关系呢?
我们今天面临着诸多来自大数据和其他数据分析带来的困难,而数据科学正是对这些挑战的回应。这里我们简要剖析了一下大数据,但那仅仅是“冰山的一角”。事实上,围绕着大数据,能说的太多了,单凭本文仍无法得其全貌。但是,你能够通过本文认识到大数据在今时今日的重要性。更重要的是,能让你拨开大数据的迷雾(过去几年里日益弥散的炒作),让你明白数据科学的重要性。
大数据是当今商业的基础资产。大数据以及大数据相关的技术能够得到这么广泛地利用绝不是巧合,现今的诸多行业要么正用着大数据,要么准备要去用大数据。尽管关于大数据的各种炒作甚嚣尘上,但大数据并不是昙花一现。对这些资源善加利用会带来诸多优势,而目前这种资源的日益丰富也是值得关注的信号,不仅要用,而且要快!也许在某些行业里,大数据还不能带来价值,因为这些行业的数据非常混乱,甚至不存在数据。而那些拥有数据并对数据善加利用的人,会在当今竞争激烈的经济环境下占得先机并立于不败之地。
大数据含有与我们身边的业务难题息息相关的丰富信息。举例来说,如果你是一个电商公司的经理,你就可以在你公司网站上收集到关于你客户和访客的丰富信息,若能对此善加利用,你就能够增加公司的销售额、提升网站设计并改善客户服务,它还能为你提供市场策略和提升公司的整体策略的建议。这些都是由居住在你的服务器中的0和1实现的。你只需要从你的资源中分出一小部分,并从这些数据中间提炼出信息。这当然不是一桩赔本买卖,我们稍后会再回到这个例子。尽管有些网络数据披着大数据的外衣,但并不是每一种数据融合都可以叫做大数据。这主要是因为大数据的4个V特性。
图1 大数据的4个V特性
如我们之前所看到的,它们有如下几个特性。
在过去的几年里,半结构化数据和结构化数据成为了大数据的主体数据类型。
在我们最开始的案例中,一个你会面临的典型数据集可能会有以下性质。
数据量会非常大,并伴随着更快的增长趋势,特别是如果你的网站在监控访问者的各方面行为时。这些数据会很轻易地在一年之内达到几个TB。
由于访问者来来去去以及不断有新的访问者加入,数据会持续流动。这会变成在你服务器上连续的网络活动,也就是从网站中涌入你的服务器日志的数据流。
这些从访问者身上收集来的数据会有很大的不同,从简单的网站统计数据(例如在每一页上所花费的时间、访问总时间、访问了哪些页面,等等)到在网站中输入的文字(假设你有一些评论系统,例如大多电商网站)以及其他类型的数据(例如,消费者对各类商品的评分以及交易记录, 等等)
很自然地,并不是你在服务器上所观察到的一切都是值得信任的。有一些访问可能来自于黑客的机器人或者是来自于一些用户的不良目的,而有部分访问者可能是你的竞争者,正在暗中观察你!一些访问者会在他们的评论中写错别字,或是因为一些原因留下一些随意的或是无用的信息。即使你有一些过滤系统,你的网站上不时地收到一些无效数据也是不可避免的。
基于以上所有的观察,你还认为你在公司处理着大数据吗?为什么?如果你理解了上面说的这些概念,你应该自信并正面回答这些问题。每一个描述这个公司的数据情形的要点都与这几个V中的某一个有关。
很自然地,并不是所有的行业都会被大数据运动施以相同的影响。基于这些公司在多大程度上依赖他们的数据以及数据会给予他们多大程度上的回报,他们可能视大数据为一座金矿,或者一项可有可无的投资。根据最近的统计,下面一些行业已经从中受益,或资产中的大部分即将受益于大数据。
注意,收益并不总是直接与盈损有关,但绝对具有不可忽略的商业价值。例如,通过在健康护理行业部署大数据技术,医生可以调取过往资料以更好地了解病人的情况,从而做出更好的诊断,并提供更好的护理服务。这最终可以产生更有效率的医疗体系,并通过智慧地使用由数据导出的有价值的信息来降低医疗成本。
另一个案例来自于客户关怀,在这里大数据可以帮助改善糟糕的用户体验。通过有效地利用大数据技术,公司可以接近实时地得到用户喜好以更好地了解客户。这可以帮助调整从业者对待这些客户的策略,并给予他们一个提升未来服务的更佳的视角。
注意,仍有大量的行业具有从大数据中获得价值的潜力,但是基于他们现在的状态,这也许并不是一个值得他们投资的选项。例如说,艺术产业是一个难以在大数据中做大的行业,这源于他们所具有的数据只限于艺术品描述以及一些艺术品的数字化形式。但是,这也很可能在未来会改变,这取决于艺术家们如何采取下一步行动。举例来说,如果某一个画廊开始使用传感器来观察某一件画作前的人数,并且与其他的数据合并在一起(例如,有多少人也买了同样展出这件作品的其他展览的票),他们可以慢慢地建立起一个大数据库,包含传感器信息、票务销售信息,甚至是顾客们对画廊博客中对各种画作的评论。
所有这些都是隐晦地告诉人们哪些艺术品更有人气,从而产生了许多有用的信息。同样这些信息,对于画廊来说,也可以提供最合适的画展的票价。这些都很棒,但哪些会真正对你产生价值呢?你看,更高的利润空间以及更显著的生产力提高并不会自己发生。那种认为安装一个大数据包然后再分配一些任务给员工(即使是受过训练的员工)就可以获得显著收益的想法是很幼稚的。为了利用大数据,公司需要雇用那些可以成功地把表面上看起来混乱的数据变成有效(可操作)信息的员工。所有的数据科学家都会被要求去解决这样的问题,同时,这也是推动数据科学领域发展的众多驱动力中的一个。
数据科学领域起源于揭示大数据中潜在的价值,以及克服之前提及的4个V的挑战。这在过去是可以通过组合先进的现代计算设备达到的。特别地,并行计算、复杂数据分析流程(主要是通过机器学习)以及低成本的强劲计算能力使这种需求变成可能。此外,在不远的将来,不断加快的IT基础架构以及技术进步将使我们可以产生、收集以及处理更多的数据。通过这些,数据科学可以凭借智能化应用以及发展和使用这些技术的创新能力在技术层面上处理大数据难题。这也就是说,大数据在一定程度上是可以被管理并至少能够提供一些有价值的信息,而这则是大数据是值得花时间精力投入进去的原因。
认识到数据科学并不是一种时尚是很重要的,而是在未来会得到迅速发展的领域。如果你曾是互联网时代的一个IT专家,你可能会觉得大数据仅仅是一个风潮或是一个奢侈品,但那些真正发现大数据的真实和潜在价值的人是可以从中发现其盈利的可能的。
想象一下成为第一批学习HTML、CSS和JavaScript的人,或者是第一个制作数字图像用于网站设计的人。这就像拿着一张得奖的彩券,尤其是如果你对自己的工作非常在行的话。这就是今天的数据科学。如果没有那么多人分享大数据的收益,它现在也不会这么出名。当然,大多数从业者和众多学生并没有注意到数据科学到底意味着什么。
如果你理解了前文所述及的大数据的各种事实,你就应该能理解数据科学是用来应对日趋严峻的问题的解法。如我早前所说的那样,这个问题反映了大数据的4个V属性,使传统方法陷入困境的属性。由于技术发展,在未来10年,数据科学也必然会变得更加健壮完善、更加多样。已有一些研究项目在全球出现,也同时有许多业内知名的研究者发表关于数据科学主题的论文。这并不是巧合,它表明了基础架构知识以及如何操作的发展趋势,而这些也会滋养这个领域的发展。至于数据科学的诞生时间已经不可考了(有一些人在这个领域的研究已经超过好几十年了),但第一次在正式会议中吸引关注是1996年在IFCS发表的《数据科学、分类以及相关方法》(Data Science,Classification and Related Methods)。直到2005年,“数据科学家”这个名称才第一次出现在文章中。特别是,在文章发表的那年,数据科学家被定义为“信息和数据科学家、数据库及软件工程师以及程序员、学科专家、博物馆馆长和专业注解者、图书馆管理员、档案管理员以及其他一些对成功管理数字化数据集的关键人物”。在2009年6月,数据科学家这一职务的重要性变得更加明显,正如Nathan Yau在FlowingData发表的文章《数据科学家的崛起》(Rise of the Data Scientist)一文中说的那样。自此,在数据科学方面的文章和引用得以快速增长。看看现在有多少会议是以这个名义组织的,这不只发生在学术界,同样也发生在工业界。不仅如此,由于许多在各自领域处于领导者的大公司(如亚马逊)都在各自的工作流程中使用了数据科学,这个趋势很可能会持续下去。同样,由于数据科学家这个职位适合于千变万化的数据世界需求,它也正变得包含许多新特征(如前沿数据分析技术的应用),而不再是一些原始需求了。
————————————————————————————————————————————
以上内容节选自《数据科学家修炼之道》。
作者:Zacharias Voulgaris 博士在希腊出生并长大。在读完了克里特理工大学5 年的工程学位后,他攻读了伦敦城市大学的信息系统与技术的硕士学位。之后,在伦敦大学伯贝克学院的 G.Magoulas 教授与B.Mirkin 教授的联合指导下,他获得了博士学位。此后,他受聘于乔治亚理工大学并成为研究员,一直从事数据科学家的相关工作。