漫威粉丝,恰恰最近在学习python爬虫,于是就照着参考书目做了一个可以爬取豆瓣短评的爬虫,结果输出到txt文档,之后便可以进行词云分析,搞一些好玩的东西啦,话不多说,上代码。

import requests
from bs4 import BeautifulSoup              

首先是两个需要用到的包,一个requests用于请求网页,一个beautiful soup用于解析网页,获取我们想要的内容。

def get_comments(url_comments):                                  #定义评论爬取函数

    headers ={("User-Agent":'Mozilla/5.0(Windows
;U;Windows NT 6.1;Win64;x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'),
     'Host':'movie.douban.com'
    }                                             #定义爬虫请求头
    comments_list=[]                                 #定义存储评论的列表
    for i in range(0,10):link=url_comments+str(i*20)   #换页
        r=requests.get(link,headers= headers,timeout=20)print (str(1),"页响应状态码:",r.status_code)soup=BeautifulSoup(r.text,"lxml")                   #利用beautifulsoup进行页面解析
        div_list =soup.find_all('div',class_='comment')       #获取类型为comment标签为div后的文本
        for  each in div_list:comment=each.p.text.strip()comments_list.append(comment)return comments_list

然后就是定义了一个获取评论的函数,参数为需要获取短评的网页的链接(入门级代码,后续会完善到输入电影名称)

接下来就是调用了。

host_l=input('please paste the urls and ended at \'start=\'')      #输入短评链接
comments=get_comments(host_l)
with open('avengers_comments.txt',"a+",encoding='utf-8')  as f:              #输出到txt# 对txt及进行重新编码f.write(str(comments))f.close()
print("文件已写入")

注释都在文中,截至至2018年5月23日,这个代码都是没有问题的。

供和我一样初出茅庐的人学习参考。

以上便是复联3豆瓣短评爬下来的部分内容了。

完整代码如下:

import requests
from bs4 import BeautifulSoup
def get_comments(url_comments):                                  #定义评论爬取函数

    headers ={"User-Agent":'Mozilla/5.0(Windows;U;Windows NT 6.1;Win64;x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
     'Host':'movie.douban.com'
    }                                             #定义爬虫请求头
    comments_list=[]                                 #定义存储评论的列表
    for i in range(0,10):link=url_comments+str(i*20)   #换页
        r=requests.get(link,headers= headers,timeout=20)print (str(1),"页响应状态码:",r.status_code)soup=BeautifulSoup(r.text,"lxml")                   #利用beautifulsoup进行页面解析
        div_list =soup.find_all('div',class_='comment')       #获取类型为comment标签为div后的文本
        for  each in div_list:comment=each.p.text.strip()comments_list.append(comment)return comments_listhost_l=input('please paste the urls and ended at \'start=\'')      #输入短评链接
comments=get_comments(host_l)
with open('avengers_comments.txt',"a+",encoding='utf-8')  as f:              #输出到txt
    # 对txt及进行重新编码
    f.write(str(comments))f.close()
print("文件已写入")

感谢参考,欢迎交流学习。

利用python爬取复仇者联盟3无限战争豆瓣短评相关推荐

  1. 利用Python爬取《囧妈》豆瓣短评数据,并进行snownlp情感分析

    利用Python爬取<囧妈>豆瓣短评数据,并进行snownlp情感分析 一.电影评论爬取 今年的贺岁片<囧妈>上映前后,在豆瓣评论上就有不少网友发表了自己的观点,到底是好评的声 ...

  2. Python爬取唐人街探案3豆瓣短评并生成词云

    爬取唐人街探案3短评过程 要爬取的URL: https://movie.douban.com/subject/27619748/comments?start=20&limit=20&s ...

  3. Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图

    词云图: 爬取过程: 你好,李焕英 短评的URL: https://movie.douban.com/subject/34841067/comments?start=20&limit=20&a ...

  4. Python爬取你好李焕英豆瓣短评生成词云

    爬取过程: 你好,李焕英 短评的URL: https://movie.douban.com/subject/34841067/comments?start=20&limit=20&st ...

  5. python 怎么爬桌软件数据_如何利用Python爬取并分析红岭创投的数据?

    第一步:爬取数据 通过 selenium + Firefox 的无头模式将需要的数据爬取出来,代码实现不在赘述,详细步骤可查看我的上一篇图文(如何利用Python爬取网易新闻), 由于 seleniu ...

  6. python 翻译库本地库_利用python爬取并翻译GEO数据库

    原标题:利用python爬取并翻译GEO数据库 GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这 ...

  7. 利用python爬取东方财富网股吧评论并进行情感分析(一)

    利用python爬取东方财富网股吧评论(一) python-东方财富网贴吧文本数据爬取 分享一下写论文时爬数据用到的代码,有什么问题或者改善的建议的话小伙伴们一起评论区讨论.涉及内容在前人的研究基础之 ...

  8. python爬取股票信息_利用Python爬取网易上证所有股票数据(代码

    利用Python爬取网易上证所有股票数据(代码 发布时间:2018-04-14 17:30, 浏览次数:1261 , 标签: Python import urllib.request import r ...

  9. 利用python爬取豆瓣电影top250

    利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析 进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...

最新文章

  1. 【机器视觉】Qt集成Halcon开发环境详解(一)
  2. 用until编写一段shell程序,计算1~10的平方
  3. html5新增标签与删除标签,HTML5新增/删除标签
  4. springmvc 全局编码_SpringMVC请求参数和响应结果全局加密和解密
  5. poj 1260 动态规划
  6. visual studio可以开发app吗_做好APP定制开发的计划,可以让你的应用开发事半功倍...
  7. Flex中如何通过设置GridLines对象的horizontalAlternateFill样式交错显示LineSeries图表背景颜色的例子...
  8. 使用ComponentOne C1WebGrid控件
  9. ADX趋势线突破交易系统
  10. Mysql常用技巧总结
  11. 计算机网络ip地址划分范围,ip地址分类及范围划分有哪些
  12. (3种解决思路)OSError: [Errno 22] Invalid argument:解决python爬虫中报错
  13. 优雅地实现一个高效、异步数据实时刷新的列表
  14. 【JVM · 字节码】指令集 解析说明
  15. WORD 使用公式对齐和标注的小技巧
  16. java 方法互斥_java – 互斥方法
  17. 解决:Short read of DER length
  18. Geoserver操作手册
  19. 关于小间距QFN封装PCB设计的串扰抑制分析
  20. web网页设计期末课程大作业:美食餐饮文化主题网站设计——美食汇5页HTML+CSS+JavaScript

热门文章

  1. php168,phpcms,dedecms 使用感受
  2. 惋惜 | 北京这所211大学清退59名博士生!
  3. Linux实战教学笔记35:企业级监控Nagios实践(下)
  4. 红米手机4X怎么刷入开发版启用ROOT权限
  5. 智能家居创意DIY之智能插座(Homekit可用)
  6. 计算机毕业设计之微信小程序的商城 购物系统 app论文
  7. 陈菜根谈“为什么子弹短信会火?”
  8. 10#Windows注册表的那些事儿
  9. 开启redmine显示正常未报错但是访问网页错误
  10. 索尼65X91J 评测