欢迎来我Python萌新的小站

Python实例:爬取暴走漫画文字频道热门数据

之前做过爬取百度贴吧指定帖子下的所有图片:《Python实例:一个简单的图片小爬虫》。

今天想着爬取一下文字方面的内容以巩固爬虫基础。

想着那就爬取一下暴走漫画文字频道的数据吧。首先,打开暴走漫画文字频道页面:http://baozoumanhua.com/text/。

分析它的页面结构:

发现所有的段子是包裹在 <a href="/articles/****" target="_blank">段子内容</a> 下的。因此很容易就写出了它的正则表达式 '<a href=\"/articles/.+?>(.+?)</a>'

接下来就是简单的通过re库和requests库进行完善逻辑了。

输出结果:

 

喜欢 (0)分享 (0)
发表我的评论
取消评论
友情提示:插入代码时请使用:  <pre>要插入的代码</pre>   以达到最佳效果!

表情     2 + 0 = ? (必填)

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址