欢迎来我Python萌新的小站

Python实例:分析豆瓣影片评论Ver 1.0版本

呼,好久没来写博客了、差点真的变成从入门到放弃了呢。不过讲真,这段时间真是荒废了好一阵呢。嘛,月初看了《战狼》,爽爽的。然后看到网上好多做战狼评论分析的文章。忍不住自己也弄了个。

好吧。Talk is cheap, show me the code…

首先当然是要导入request和re库。

我们先定义一个专门解析网页内容的函数。为了便于分析,我还将网页代码存储到本地source.html(被我注释了):

然后我们收集网友评论的文字信息:

数据清洗,把评论中的标点符号都给去掉:

然后通过进行分词生成词云的操作。首先当然要引入模块:

然后再定义词云的函数:

最后用定义主函数:

代码是写完了。不过这个代码有个问题。就是豆瓣有反爬虫的机制。如果频繁测试或者爬的页数太多,就会触发豆瓣反爬虫机制。那就会返回403错误了。过几天加上模拟登陆再优化一下好了。

喜欢 (2)分享 (0)
(1)个小伙伴在吐槽
发表我的评论
取消评论
友情提示:插入代码时请使用:  <pre>要插入的代码</pre>   以达到最佳效果!

表情     3 + 8 = ? (必填)

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址