【异周话题 第 9 期】聊聊网络爬虫那些事儿(已结束)

【异周话题 第 9 期】聊聊网络爬虫那些事儿

话题背景


互联网包含了迄今为止最有用的数据集,并且大部分可以免费公开访问。但是,这些数据难以复用。它们被嵌入在网站的结构和样式当中,需要抽取出来才能使用。从网页中抽取数据的过程又被称为网络爬虫。随着越来越多的信息被发布到网络上,网络爬虫也变得越来越有用。

而从今年开始,爬虫行业竞争越发激烈。一些公司开发出“骨骼清奇”的爬虫产品,开始抢夺市场。比如在现金贷行业中的“同业爬虫”产品,可以直接将其他现金贷平台的放款额和风控数据爬出来。

本周的【异周话题】我们就聊聊 网络爬虫 那些事儿。

话题内容

大家可以围绕以下一个或多个问题展开讨论:
1. 你是否写过网络爬虫?如果写过的话用的是那种语言?
2. 你认为哪种语言最适合用来写爬虫?请给出理由。
3. 你认为网络爬虫是否符合道德规范与法律要求?
4. 你用网络爬虫做过哪些有意思的事?
5. 你见过哪些脑洞大开的反击爬虫的措施?

欢迎各位同学积极在文章的底部发表评论,参与话题!

话题时间

2017年11月13日-11月19日

话题奖励

话题结束后,我们将选取 3 位讨论精彩的同学,每人赠送 1 本吧《用Python写网络爬虫》

图像说明文字

《用Python写网络爬虫》

图书作者【澳】Richard Lawson(理查德 劳森),Richard Lawson来自澳大利亚,毕业于墨尔本大学计算机科学专业。毕业后,他创办了一家专注于网络爬虫的公司,为超过50个国家的业务提供远程工作。他精通于世界语,可以使用汉语和韩语对话,并且积极投身于开源软件。他目前在牛津大学攻读研究生学位,并利用业余时间研发自主无人机。

图书简介:本书讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态页面中的内容,与表单进行交互,处理页面中的验证码问题,以及使用Scarpy和Portia来进行数据抓取,并在最后使用本书介绍的数据抓取技术对几个真实的网站进行了抓取,旨在帮助读者活学活用书中介绍的技术。本书适合有一定Python编程经验,而且对爬虫技术感兴趣的读者阅读。


【异周话题 第 9 期】获奖名单

图像说明文字

恭喜以上 3 位获奖的同学,请 3 位同学私信小编,并提供收件人姓名收件地址邮编联系电话,小编会尽快将《用Python写网络爬虫》寄到各位同学的手中!