前面爬完网站信息图片之后,今天的又有了个小目标,最近的电影哪吒很火,去豆瓣上看了一下 影评,决定了今天主要是实现Python第三个项目:爬取豆瓣《哪吒之魔童降世》 短评,然后下载在excel表格里面查看。

在网上找了一个开源的小例子,但是豆瓣的网页结构以及有所调整,爬到的时间和评论都是空的,对代码进行了一些修改,可以爬取豆瓣最新的网页里面某部电影的短评,如果需要其他电影短评,直接改一下参数链接即可。

#_*_coding:utf-8_*_

import requests

import re

import csv

import time

from lxml import etree

def get_one_page(url):

try:

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'}

response = requests.get(url,headers=headers,timeout=10)

if response.status_code == 200:

# print(response.text)

return response

return None

except EOFError as e:

print(e)

return None

def parse_one_page(res,info):

info = []

res = etree.HTML(res.content.decode())

nodes_list = res.xpath('//div[@class="comment-item"]')

for node in nodes_list:

comic = {}

comic['User'] = node.xpath('.//span[@class="comment-info"]/a/text()')[0].strip()

comic['Time'] = node.xpath('.//span[@class="comment-info"]/span[3]/text()')[0].strip()

comic['Comment'] = node.xpath('.//span[@class="short"]/text()')[0].strip()

print(comic)

info.append(comic)

return info

def write_to_file(info):

with open('《哪吒之魔童降世》短评.csv','a',newline='') as f:

fieldnames = ['User','Time','Comment']

writer = csv.DictWriter(f,fieldnames=fieldnames)

writer.writeheader()

try:

writer.writerows(info)

except:

pass

def main(start):

info = {}

url = 'https://movie.douban.com/subject/26794435/comments?start=' + str(start) + '&limit=20&sort=new_score&status=P&percent_type='

html = get_one_page(url)

data = parse_one_page(html,info)

write_to_file(data)

if __name__ == '__main__':

for i in range(10):

main(i*20)

print('第{}本页采集完毕。'.format(str(i))) # 采集完一页后的标识

time.sleep(1) # 采集完一页休息一秒

运行之后

自动生成了一个excel的表格

下载表格,打开查看,按照顺序把网页上的短评都抓取下来啦。

原文作者:祈澈姑娘 技术博客:https://www.jianshu.com/u/05f416aefbe1

90后前端妹子,爱编程,爱运营,文艺与代码齐飞,魅力与智慧共存的程序媛一枚,欢迎关注【编程微刊】公众号,回复【领取资源】,500G编程学习资源干货免费送。

python项目开发案例集锦 豆瓣-Python第三个项目:爬取豆瓣《哪吒之魔童降世》 短评...相关推荐

  1. python爬虫小案例_从豆瓣爬取《哪吒之魔童降世》的剧照

    一.在豆瓣电影网爬取以下剧照保存到本地: 本次案例只爬取前 5 页的剧照,先获取前五页的链接: for i in range(5):url = 'https://movie.douban.com/su ...

  2. 初学 爬取豆瓣哪吒之魔童降世短评

    一.分析网址网页 首先用浏览器进入豆瓣网站,查看几页评论网址间的联系 https://movie.douban.com/subject/26794435/comments?status=P https ...

  3. python画哪吒_Python第三个项目:爬取豆瓣《哪吒之魔童降世》 短评

    前面爬完网站信息图片之后,今天的又有了个小目标,最近的电影哪吒很火,去豆瓣上看了一下 影评,决定了今天主要是实现Python第三个项目:爬取豆瓣<哪吒之魔童降世> 短评,然后下载在exce ...

  4. Python爬取豆瓣《哪吒之魔童降世》影评

    这几天朋友圈,微博都被<哪吒之魔童降世>这部电影刷屏了,有人说它是"国漫之光",上映4天,票房已经突破9亿了.口碑上,影片自点映开分以来,口碑连续十天稳居所有在映影片榜 ...

  5. 《哪吒之魔童降世》席卷全球!用Python数据分析告诉你为什么这么火

    最近,朋友圈和微博被动画<哪吒之魔童降世>刷屏了. 对哪吒的记忆还停留在小时候看的动画片,是他,是他,就是他,我们的小朋友小哪吒. 穿个红色肚兜,扎两个小辫子,让小时候的我一度怀疑这是男是 ...

  6. 【python爬虫专项(9)】哪吒之魔童降世影片的海报爬取

    以哪吒之魔童降世影片的海报为例进行图片爬取 参考网址:哪吒之魔童降世官方海报 爬虫逻辑:[分页网页url采集]-[数据采集]-[保存图片] 经过前两篇文章的实践,可以发现两种爬虫逻辑各有优缺点,逻辑( ...

  7. 哪吒之魔童降世视听语言影评_豆瓣评分8.7,这个“新哪吒”不一般|《哪吒之魔童降世》影评...

    <哪吒之魔童降世>的喜剧表达和暴力美学,不影响主题的深度思索,创造了国漫不断摸高的纪录. 国产动画<哪吒之魔童降世>将道家的阴阳哲学铺展得淋漓尽致,色彩饱满.角色热血沸腾.精神 ...

  8. 哪吒之魔童降世——豆瓣电影评论爬虫

    @TOC哪吒之魔童降世--豆瓣电影评论爬虫 学校里的一个小作业,写个影评分析,网上搜了下资料,总结了一下,顺便修改了修改代码,亲自实测了下,因为需要登录才能爬取,所以设定了些模拟登陆,但是即使登录之后 ...

  9. python项目开发案例集锦 豆瓣-Python 的练手项目有哪些值得推荐?

    我也在学Python,下面是小笨聪的一些案例: 下面为简单介绍: 1.爬取豆瓣上<流浪地球>的影评,并数据分析 (当然啦,还可以爬取豆瓣上任意一部电影的影评并分析,比如复联) 爬取豆瓣50 ...

最新文章

  1. FtpCopy数据定时自动备份软件(FTP定时备份)
  2. linux temp文件夹在哪_Win10系统下使用linux命令的方法
  3. 衡阳之后,重估自动驾驶落地
  4. VC6生成随机浮点数、C++11的random头文件以及Dev C++支持C++11
  5. CDN边缘JavaScript敏捷交付实践
  6. android百度网盘倍速,百度网盘在线倍数播放-全网最强,已做群组视频适配,不用保存文件也可倍速,无vip限制(附加安卓倍速版)...
  7. Linux下的crontab定时执行任务命令详解
  8. 面试ASP.NET程序员的笔试题和机试题(转,有点意思,答案不是很标准)
  9. 星星排序python_python中怎么实现星星排列
  10. 技术能变现,才是硬道理
  11. Javascript 的函数式对象(三)利用闭包模拟类的静态变量和方法
  12. AngularJS之页面跳转Route
  13. Oracle 11g Rac搭建
  14. 自媒体采集平台免费,免费的自媒体采集平台
  15. android开发界面转换,ios界面最省时最简单的办法转换成Android界面 – 学ui网
  16. http协议学习(转载,侵删)
  17. Django之restframework中路由Routers
  18. 仿微信的网络聊天室项目开发【完整源码讲解】
  19. 萌卡错误记录1--Mcnp source subroutine linking trouble
  20. mybais-plus出现Invalid bound statement (not found)的解决方案

热门文章

  1. mongodb模糊查询 php7_详解php7如何实现MongoDB模糊查询
  2. javascript 高级程序设计_JavaScript 经典「红宝书」,几代前端人的入门选择
  3. python入门之控制结构-循环结构_(一)Python入门-4控制语句:05while循环结构-死循环处理...
  4. mac brew 安装
  5. 格伦布编码——rice编码无非是golomb编码M为2^x的特例
  6. 重新定义数据库历史的时刻——时间序列数据库Schwartz认为InfluxDB最有前途,Elasticsearch也不错...
  7. MongoDB Wiredtiger存储引擎实现原理——Copy on write的方式管理修改操作,Btree cache...
  8. python3 签名 sha md5
  9. 人参中第一次膜你退货
  10. 程序员 - 爱的表白