欢迎来我Python萌新的小站

Python实例:中英翻译爬虫

心血来潮,来折腾一个利用有道翻译页面爬取返回翻译结果的代码。首先使用自带的urllib库实现:

输出结果:

感觉有点奇怪,就是因为有道词典除了返回有道的翻译,还有其他来源的翻译(如最后三行的内容),导致显示重复。而如果用正则表达式匹配 <ul> 返回的 re.findall() 列表居然为空。继续研究ing…

OK,网上查到了针对于多行匹配需要在方法中加一个参数:re.findall(正则表达式, 目标字符串, re.M),于是乎,我就把它变成了两次匹配。先匹配 <ul> ,然后在从相应的 <ul> 中去匹配 <li> ,代码如下:

输出结果:

 

喜欢 (0)分享 (0)
发表我的评论
取消评论
友情提示:插入代码时请使用:  <pre>要插入的代码</pre>   以达到最佳效果!

表情     3 + 3 = ? (必填)

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址