欢迎来我Python萌新的小站

Python实例:JS爬虫之爬取淘宝淘女郎图库

看到网上很多教程教大家爬取淘宝的淘女郎图库。看来美女对程序猿们的吸引力不可谓不大啊。于是乎,根据昨晚学习的经历(详见《Python实例:JS爬虫,抓取今日头条“街拍”图库》),自己也写一个爬取淘宝淘女郎图库的代码。

大概看了下网上的教程,很多教程都是通过PhantomJS来爬取 https://mm.taobao.com/json/request_top_list.htm?page=1 这个页面来获取的数据信息。然而我脑袋不好使,看了许久都不知道他们是如何得到到这个html页面的。在很多情况下,如果不知道如何获取到页面数据,那就无从下手了啊哭。

试试看能不能直接用昨晚的办法来获取数据吧。

主要步骤如下:

我们通过PhantomJS来模拟网页登陆从而获取网页的html信息,获取完数据记得要用 quit() 方法退出PhantomJS。

然后分析JS返回的数据,通过zip函数将其整理成字典中待调用。

再将字典中的url再次分析,获取图片路径,然后下载到本地

所有的代码如下(增加了部分提示性语句的输出):

执行结果:

喜欢 (2)分享 (0)
发表我的评论
取消评论
友情提示:插入代码时请使用:  <pre>要插入的代码</pre>   以达到最佳效果!

表情     1 + 1 = ? (必填)

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址