欢迎来我Python萌新的小站

Python实例:爬取电子课本封面

因为工作的需要,我需要下载现有学校各个版本的电子课本的封面拿来给到我们的UI设计师做参考设计。但是那么多出版社那么多个版本的电子课本,一张一张图片下载耗时不说,也实在是让人闹心。

前几天写了一个图片下载的爬虫《Python实例:一个简单的图片小爬虫》,想着修改一下用来下载电子课本封面图片也是不错。

说来就来,找到了一个电子课本聚合的网站:http://www.dzkbw.com/ (电子课本网)。查看源代码分析了一下它的网页结构:

发现以 data-original 标签包裹的Cover.jpg 文件就是封面图片,而相应 alt 指向的是图片的描述。于是,果断将 alt 指向的文字内容作为图片的文件名。

还需要注意的是需要将编码方式修改一下 r.encoding = r.apparent_encoding ,不然显示中文会变成乱码的。

执行后将则将图片保存在与py文件同级目录下了。然后通过修改url来实现不同出版社的封面图片下载。


嗯,这样好像有点不太方便呢,我还得把图片移动到不同出版社的文件夹下面,还得不停的复制相应的url路径。

干脆把文件夹名称与相应url做一个字典,然后存储到指定文件路径去吧!

OK,既然要存储到指定路径就需要新建相应文件夹了,这就需要引入  os 模块了,之前好像没用过的说。没事,我有百度大法!

输出结果——


嘛,貌似还可以利用正则去匹配导航栏生成字典,这样连字典部分都可以省略了的样子。嗯,这个问题等后面有空了再继续改吧,先挖个坑。

2017.05.26 填坑

主要更新:使用BeautifulSoup库获取首页导航栏中子页名称和url路径,并生成字典。

 

果然是:Python大法好啊!


人生苦短,我用Python

喜欢 (3)分享 (0)
发表我的评论
取消评论
友情提示:插入代码时请使用:  <pre>要插入的代码</pre>   以达到最佳效果!

表情     8 + 4 = ? (必填)

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址