论一只爬虫的自我修养 – 零基础入门学习Python053

论一只爬虫的自我修养

 

让编程改变世界

Change the world by program


 

什么是网络爬虫呢?网络爬虫,又称为网页蜘蛛(WebSpider),非常形象的一个名字。如果你把整个互联网想象成类似于蜘蛛网一样的构造,那么我们这只爬虫,就是要在上边爬来爬去,顺便获得我们需要的资源。

 

那做过网站的朋友一定很熟悉了,我们之所以能够通过百度或谷歌这样的搜索引擎检索到你的网页,靠的就是他们大量的爬虫每天在互联网上爬来爬去,对网页中的每个关键词进行索引,建立索引数据库。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

 

当然,编写一个搜索引擎,是一件非常苦难的事情……但千里之行,始于足下!我们先从编写一个小爬虫代码开始,然后不断地来改进它。

 

使用Python编写爬虫代码,我们要解决的第一个问题是:Python如何访问互联网?

好现实的一个问题……好在Python为此准备好了“电池“:urllib模块

 

…… 此处省略N多内容,具体请看视频讲解 ……


为您推荐

报歉!评论已关闭.