欢迎来我Python萌新的小站

Python实例:JS爬虫,抓取今日头条“街拍”图库

今日头条上搜索“街拍”(http://www.toutiao.com/search/?keyword=街拍)页面后,会出现一系列街拍的图片。

而这些数据如果用之前的爬取静态页面的爬虫是抓取不到数据的。因为今日头条用的是js代码把数据传到前端。那么要如何分析和抓取数据呢?

首先我们用开发者工具查看一下。

发现网页数据是通过Request URL这个地址通过GET方法获取到的,而在 'http://www.toutiao.com/search_content/?' 之后的字符串是由下面这个字典的数据组成的。

于是我们就可以先写出如下代码:

这边的 offset 表示获取的数量,而 keyword 表示的是关键词。如果返回的 status_code 为200,则执行 requests.get 获取网页信息,而此时返回的信息是一组json数据。

然后我们通过 json.loads() 将json数据转化为字典用于我们后续的操作。

获取到每个页面的url地址之后,再通过遍历这个地址,获取这个url页面下相应的图片的路径,方法与上面一致。

以下是所有的代码。执行后将图库存储在本地文件夹中。

执行结果:

喜欢 (0)分享 (0)
发表我的评论
取消评论
友情提示:插入代码时请使用:  <pre>要插入的代码</pre>   以达到最佳效果!

表情     8 + 5 = ? (必填)

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址