python爬虫豆瓣电影短评_Python爬虫:豆瓣短评
上一篇高德地图爬虫的可能对于一开始入门而言,复杂了点,那这次来个简单的(简单=程序短 我明白)
废话不说,走心(程序)
载入包、获取url及xpath获取指定内容
说明一下:xpath的内容是根据网页具体的内容copy的,操作如下:
1.打开《恶意》短评
2.F12进入开发者模式,F5刷新
3.“Ctrl+shift+C”进行元素检查,选取任意短评框,效果如下图所示:
元素检查
Elements中高亮的行即为所选短评对应的代码,点击箭头开展,选中评语内容,右击“copy xpath":
copy xpath
这样我们就获取到了我们需要的短评对应的xpath“//*[@id="comments"]/ul[1]/li[2]/div[2]/p/span/text()”,取两个短评比照其xpath发现li[?]决定该页上的短评序号,所以在程序中我们将其用“li[*]”替代,这样得到的就是该页所有短评
这里其实有点小遗憾,我本来是想爬取指定页数的所有短评的,很简单,更改url就可。可以发现
第一页的url:https://book.douban.com/subject/10554309/comments/
第二页的url:https://book.douban.com/subject/10554309/comments/hot?p=2
p决定了该书短评的页数
那么只需在requests的时候加上一个param就好了,如我要获取1~5页,那么修改程序如下:
读取多页短评
(这里就还是用到了merge_dicts函数,这个函数在高德地图提到过,就是一一初始化param的函数)
乍一看没问题,的确没问题,读者可以试一下。读取的数据是随着p改变而改变的。
问题出在保存,to_excel保存会覆盖掉源文件的内容,可我又不想每一页评语用一个excel存。
网上大神有很多方法,貌似有的可以实现在同一个xlsx文件的同一张表下依次排列,我没细看。不过用保存不同表明的方法来分开保存每页数据这个方法是没用的。上图程序用的就是这个方法,结果就是每页数据还是覆盖之前的数据,只是保存的时候表的名字变了而已。这里就期待大家一起努力实现这个功能啦。
这是个简单的爬虫应用,把2个重要的爬虫概念应用到了(当然只是最基础的应用,用到什么再学什么,一次记那么多功能应用,怎样可能上手快?):
requests(包、模块)、xpath(地址、资源)
我们没能力发现知识,我们只是知识的寄生虫
python爬虫豆瓣电影短评_Python爬虫:豆瓣短评相关推荐
- python爬取豆瓣电影信息_Python爬虫入门 | 爬取豆瓣电影信息
这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...
- python爬虫豆瓣电影评价_Python 爬虫实战(1):分析豆瓣中最新电影的影评
目标总览 主要做了三件事: 抓取网页数据 清理数据 用词云进行展示 使用的python版本是3.6 一.抓取网页数据 第一步要对网页进行访问,python中使用的是urllib库.代码如下: from ...
- Python实现爬取豆瓣电影|python豆瓣全栈爬虫:电影系列全爬虫系统1.0:(信息,短评,影评,海报)|你想爬的都有
写在前面: 此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 豆瓣电影全系列爬虫系统 免责声明 情况说明 效果展示 主菜单 ...
- 从抓取豆瓣电影聊高性能爬虫思路(纯干货)
从抓取豆瓣电影聊高性能爬虫思路 本篇文章将以抓取豆瓣电影信息为例来一步步介绍开发一个高性能爬虫的常见思路. 寻找数据地址 爬虫的第一步,首先我们要找到获取数据的地址.可以先到豆瓣电影 首页 去看看. ...
- 如何用python完成评分功能呢_Python:豆瓣电影评分
一.功能需求: 作为一个经常看电影的人,需要对豆瓣电影资源进行分类,豆瓣上有一个交互不友好的地方,每个网页中存在的信息太多,没有办法一次性浏览完,而且部分相应的功能必须点击进入电影界面才能看到,因此个 ...
- Python实现输入电影名字自动生成豆瓣评论词云图(带GUI界面)小程序
Python实现输入电影名字自动生成豆瓣评论词云图(带GUI界面)小程序 一.项目背景 电影逐渐成为人们生活的不可或缺的一部分,而了解一部电影的可以通过电影评分与大众推荐度,但以上的方式都太过于片面, ...
- python爬虫电影信息_Python爬虫入门 | 爬取豆瓣电影信息
这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...
- python爬虫豆瓣电影按电影类型_python爬虫之豆瓣电影评分
想知道一部电影好不好看,豆瓣的评分还是比较靠谱的,于是,搞了搞,写了一个小爬虫: 好像csdn出现bug了,还是游览器的问题,图片插入不进去: 说明文档: 1.直接讲代码保存成.py文件 2.输入你喜 ...
- python怎么爬取电影海报_Python 爬虫“王者”:豆瓣海报爬取
我这里就以女神王祖贤的海报来作为例子. 翻页分析 在豆瓣电影中搜索"王祖贤",进入王祖贤主页后,点击全部影人图片,进入到影人图片页面. 在该页面点击下一页,可以看到浏览器的 URL ...
- python 豆瓣评论数据分析_Python爬虫实战案例:豆瓣影评大数据分析报告之网页分析...
个人希望,通过这个完整的爬虫案例(预计总共4篇短文),能够让爬虫小白学会怎么做爬虫的开发,所以在高手们看来,会有很多浅显的废话,如果觉得啰嗦,可以跳过一些内容~ 上一篇文章给大家简单介绍了Python ...
最新文章
- 如何“取消恢复”恢复的Git提交?
- ds28e01完全数据手册_如何借助《活动管理手册》搭建营销体系?(内含课件PPT)...
- 76 从OpenCV学习C++ 高级语言特性
- 赛锐信息:SAP系统业务审计介绍
- 2021-2025年中国充气救生衣行业市场供需与战略研究报告
- windows和linux 修改 hosts的路径
- 初识NodeJS,一个基于GoogleV8引擎的Javascript运行环境
- Linux爆本地提权漏洞 请立即更新udev程序
- SQL Server MDF 文件打开和相关问题图解
- vmplayer linux kernel headers
- matlab 自定义直方图匹配_[转载]Matlab 直方图均衡化和直方图匹配
- 恶意代码分析相关工具漏洞挖掘相关工具
- 微型计算机设计总结报告,微机课程设计心得体会范文
- Oracle数据库启动与关闭
- android开发 鱼动画,自定义Drawable实现灵动的红鲤鱼动画(上篇)
- redis expire key 过期不删除
- 浅谈Xen和半虚拟化技术
- OPC DA调研报告
- Chrome 的哪些功能改变了我们浏览网页的方式?
- ogr2ogr转坐标
热门文章
- 【企业信息化】第7集 免费开源ERP: Odoo 16 Maintenance设备与维护保养管理
- C语言程序设计第3版黄维通,C语言程序设计(第3版)课件-黄维通
- 修改服务器内存大小工具,修改服务器内存大小
- arcmap中使用python_在Arcmap中使用Python.docx
- 计算机网络考前复习知识点(基础)
- 关于错误TypeError: get_biff_record() missing 1 required positional argument: ‘self‘的解决
- docker + swarm 集群
- 深圳五险一金缴纳比例
- S2a S2b S2c接口
- matlab的sub,matlab中的通用置换指令subs()用法