论一只爬虫的自我修养3:隐藏 – 零基础入门学习Python055

论一只爬虫的自我修养3:隐藏

 

让编程改变世界

Change the world by program


 

上节课我们说过,有一些网站不喜欢被程序访问,所以它们会检查链接的来源,如果来源不是正常的途径,就给你掐掉。所以为了让我们的程序可以持续干活,那么我们需要对代码进行一些隐藏,让它看起来更像是普通人通过浏览器的正常点击。

 

…… 此处省略N多内容,具体请看视频讲解 ……

 

修改 headers

 

  • 通过 Request 的 headers 参数修改
  • 通过 Request.add_header() 方法修改

 

使用代理的步骤

 

1. 参数是一个字典 {‘类型’:‘代理ip:端口号’}

proxy_support = urllib.request.ProxyHandler({})

 

2. 定制、创建一个 opener

opener = urllib.request.build_opener(proxy_support)

 

3a. 安装 opener
urllib.request.install_opener(opener)

3b. 调用 opener

opener.open(url)

 

…… 此处省略N多内容,具体请看视频讲解 ……


为您推荐

报歉!评论已关闭.