一、已知评论页数,自动翻页爬取

import requests
from bs4 import BeautifulSouppage = int(input('请输入评论总页数:'))+1 #整型
for i in range(1,page):url = 'https://wordpress-edu-3autumn.localprod.oc.forchange.cn/all-about-the-future_04/comment-page-'+str(i)+'/#comments'print('第%d页评论:'%(i))res = requests.get(url)soup = BeautifulSoup(res.text,'html.parser')comments = soup.find_all('div',class_='comment-content')for comment in comments:print(comment.text)

二、爬豆瓣Top的相关信息

把豆瓣TOP250里面的 序号/电影名/评分/推荐语/链接 都爬取下来,然后打印出来。
代码如下:

import requests
from bs4 import BeautifulSoupfor x in range(25):url = 'https://movie.douban.com/top250?start=' + str(x*25) + '&filter='headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}res = requests.get(url,headers=headers)  #注意headers=headers#print(res.status_code) #检查requests请求返回状态码soup = BeautifulSoup(res.text, 'html.parser')bs = soup.find('ol', class_="grid_view")items = bs.find_all('div',class_='item')for item in items:num = item.find('em',class_="").text#查找序号title = item.find('span', class_="title").text#查找电影名tes = item.find('span',class_="inq").text#查找推荐语comment = item.find('span',class_="rating_num").text#查找评分url_movie = item.find('a')['href']print(num + '.' + title + '——' + comment + '\n' + '推荐语:' + tes +'\n' + url_movie+'\n')

Python自动翻页爬取网页名称、评论等信息实例相关推荐

  1. Selenium自动翻页爬取证券公司公告信息——以中国平安为例

    预期效果 该公司有198页公告,每一页有若干公告,通过代码爬取每一个公告标题日期等信息并根据关键字判断是否为所需要的信息,对所需要的公告位置作标记. 代码实现 from selenium import ...

  2. selenium 翻页_利用selenium实现自动翻页爬取某鱼数据

    基本思路: 首先用开发者工具找到需要提取数据的标签列表: 利用xpath定位需要提取数据的列表 然后再逐个提取相应的数据: 保存数据到csv: 利用开发者工具找到下一页按钮所在标签: 利用xpath提 ...

  3. ajax将数据显示在class为content的标签中_利用selenium实现自动翻页爬取某鱼数据

    基本思路: 首先用开发者工具找到需要提取数据的标签列表: 利用xpath定位需要提取数据的列表 然后再逐个提取相应的数据: 保存数据到csv: 利用开发者工具找到下一页按钮所在标签: 利用xpath提 ...

  4. python滚动条翻页爬取数据_Python网络爬虫之Selenium 处理滚动条【第十四节】

    Selenium 处理滚动条selenium并不是万能的,有时候页面上操作无法实现的,这时候就需要借助JS来完成了 当页面上的元素超过一屏后,想操作屏幕下方的元素,是不能直接定位到,会报元素不可见的. ...

  5. [Python Scrapy爬虫] 二.翻页爬取农产品信息并保存本地

    前面 "Python爬虫之Selenium+Phantomjs+CasperJS" 介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分 ...

  6. selenium切换iframe框架案例——翻页爬取网易云音乐歌单作者和名称

    翻页爬取网易云音乐歌单作者和标题 案例目的: 通过翻页selenium操作网易云音乐,介绍如何切换iframe框架以及如何使用selenium定位数据所在的节点. 代码功能: 输入下载的数据页数,自动 ...

  7. python翻页爬取电影天堂网电影的磁力链接

    python翻页爬取电影天堂网电影的磁力链接 案例目的: 介绍如何通过首页的url提取详情页的url以及如何通过xpath语法提取详情页的数据. 代码功能: 输入要爬取的页数,自动保存电影的名称以及对 ...

  8. python翻页爬取京东商品评价

    python翻页爬取京东商品评价 以小米手机评论为案例 1.找到目标的url 2.检查响应结果 3.解析json数据,发现相应数据无法成功解析 注意:json数据一般都是以大括号或中括号开头或者结尾的 ...

  9. python从入门到放弃篇26(lxml.etree库,urllib.request库,构造xpath路径,构造url)实现翻页爬取豆瓣书简介并保存数据

    今天,我研究了构造url和xpath路径的方法实现翻页爬取数据.觉得还可以,不过还是存在一些问题,没有我想的那么理想,因为,目前只实现了爬取每一页的第一本书及其书评.我等有时间会再去研究. 第一步,我 ...

最新文章

  1. OpenCV下三对点计算仿射变换实现图像的水平镜像(翻转)的详细说明和源程序
  2. HIVE元数据表/数据字典
  3. 第3章 Python 数字图像处理(DIP) - 灰度变换与空间滤波10 - 直方图处理 - 局部直方图处理
  4. 栈和队列的区别,栈和堆的区别
  5. python安装tensorflow报错_Anaconda安装tensorflow报错问题解决方法
  6. 计算2的幂(信息学奥赛一本通-T1037)
  7. android drawable 比例,Android中的Drawable基础与自定义Drawable
  8. VS2005、VS2010等VS系列IDE在MFC开发过程中,Resource View标签打不开,问题为“opened in other editor”
  9. Spring MVC之基于java config无xml配置的web应用构建
  10. Cucumber常用关键字
  11. dell服务器错误代码
  12. MFC学习笔记(一)MFC基本知识介绍、建立MFC应用程序
  13. Hbase-day03_java操作hbase_hbase_各种过滤器使用
  14. cad2004教程_天正2014软件安装教程及下载地址
  15. QT打造图片直播服务器
  16. JAVA长连接与短连接
  17. c语言单位换算转换程序,c语言时间换算(c语言时间换算过n秒)
  18. 标准成本还是实际成本 成本核算标准选择
  19. 唯芸星童鞋的第一个博客。
  20. 用马克思主义看待现社会拜金主义价值观

热门文章

  1. 黑客利用数百万路由器的新身份验证绕过漏洞
  2. Unity 数字跳动增长,金币收集路径动画
  3. 什么是云服务举例说明_云服务器有什么用?最好举例说明。
  4. 7家公司拿了6个Offer,无非就是问数据库、多线程、源码、分布式、微服务这些
  5. mysql有文件形式编辑吗_mysql
  6. 网和aoe网的区别_阳泉锌铝石笼网信赖推荐
  7. ftp软件工具android,安卓ftp传输工具,安卓ftp传输工具,软件详情
  8. 李立军副总裁:后疫情时代服务机器人产业的发展机会
  9. 华为手机主页面显示一半_华为手机有47个状态显示图标,网友吐槽:60%类似其他国产厂商...
  10. C语言根据父母身高计算儿子女儿身高