欢迎来我Python萌新的小站

Python实例:一个简单的图片小爬虫

看了网易云课堂的视频之后写了一个简单的小爬虫demo,爬取百度贴吧中 https://tieba.baidu.com/p/5124919640 页面的图片。

视频中使用的是Python2的代码,而我现在使用的是Python3.6.1版本,所以在自己写的时候多多少少还是踩了几个小坑。

  1. 在Python2中urllib里可以直接使用 urllib.urlopen() 方法,现在这个方法在 urllib.request.urlopen() 了。所以一开始 import 的时候就要引入 urllib.request 模块。
  2. 在廖雪峰老师的博客中提到,使用 urllib.request.urlopen() 之后返回的是一个二进制数据(b’text’)需要用 decode() 解码。
  3. re正则中似乎没有遇到太多问题,不过鉴于百度贴吧的图片相对来说格式还是比较简单容易抓取的,我作为一个新手,就老老实实的先爬一爬吧。
  4. 通过 urllib.request.urlretrieve() 可以将图片保存到本地,这边也一样要注意Python2与Python3环境下的用法差异。

喜欢 (1)分享 (0)
(1)个小伙伴在吐槽
  1. reg=r'src=\"(.+?.jpg)\" size='是什么鬼??
    Q_U_E2018-06-12 19:59 回复
发表我的评论
取消评论
友情提示:插入代码时请使用:  <pre>要插入的代码</pre>   以达到最佳效果!

表情     8 + 3 = ? (必填)

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址