写给程序员的数据挖掘实践指南

这些年来,朋友见面老问我的一句话就是:王斌,你又翻译什么书了?确实,从 2008年翻译第一本书《信息检索导论》开始,我有点一发不可收拾,先后独自或合作翻译了《大数据:互联网大规模数据挖掘与分布式处理》(包括第一版和第二版)、《机器学习实战》、《Mahout实战》、《驯服文本》(待出版)5本书6个版本。“翻译”已经成为我的标签之一。应该说,翻译带来的最大乐趣来自和大家共享好书的喜悦,这种喜悦会传递到我的工作上生活中,带来满满的正能量。我选择翻译的书的内容都不会超出信息检索、数据挖掘、机器学习、自然语言处理这些范围,这也是我相对比较了解的研究领域。在选择书籍时我并不限定到底是学术著作还是实用手册,只要能对很多读者有较大帮助就行。

《写给程序员的数据挖掘实践指南》(A Programmer's Guide to Data Mining )这本书的宗旨是为程序员提供快速的数据挖掘入门指南。整本书通过真实数据和实例来阐述数据挖掘中的基本技术。书中实例的Python代码和相应数据都可以从网站免费下载获得,读者可以利用这些代码和数据进行实际操作,从而快速掌握数据挖掘的基本概念和技术。书中的实例都特别贴近读者的生活,包括音乐推荐、运动员分类、糖尿病判定等例子都和我们的生活息息相关。值得一提的是,本书实例中用到的运动员都是真名实姓,好多运动员的大名都如雷贯耳,其中也不乏中国运动员。即使有些运动员我之前并不熟悉,但是网上搜索之后都可以看到一段段运动明星的介绍。对于特别喜欢体育运动的我来说,见到这些名字,看到这一段段介绍,都让我兴奋不已。与这些体育明星相关的实例是我最喜欢翻译的内容之一。和其他很多技术类书籍不同的是,本书引入了很多生动活泼的插图和文字。这些插图中的人物或欢喜、或悲伤、或激动、或愤怒、或思考、或俏皮、或悠闲、或忙碌,这些插图在体现人生百态的同时,也大大缩短了技术和读者之间的距离。本书的另一个特点是十分简洁,作为入门指南,简洁确实是生命线。

本书作者Ron Zacharski的经历颇具传奇色彩:他初学音乐,做了十年的音乐理疗师。后获得计算机科学博士学位,专攻自然语言处理。现在是一名软件开发工程师,同时也是一名禅宗信奉者。这也是作者一开始就引入日本禅宗大师铃木俊隆(Shunryu Suzuki)的名作《禅者的初心》的原因。对于禅宗我并不了解,查阅一番之后也是懵懵懂懂,只知道禅宗对大名鼎鼎的苹果公司CEO乔布斯产生过巨大的影响。或许禅宗的思想体现在整本书的写作当中,等待有心的读者去发现、去领略。

感谢出版社和编辑部的辛勤工作,感谢译者所在的中国科学院信息工程研究所第二研究室的领导、同事以及译者家人对翻译本书的大力支持。

因本人各方面水平有限,现有译文中肯定存在许多不足。希望读者能够和我进行联系,以便能够不断改进。来信请联系wbxjj2008   AT   gmail.com。

 

王 斌