主要思路:

利用Chrome的selenium登录url,使用鼠标滚动,明确显示回复内容中的图片显示出来。抓取图片地址。

import requests
from lxml import etree
from selenium import webdriver
import timeclass Spider(object):def __init__(self):self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36"}self.driver = webdriver.Chrome()# 下载保存图片def request_pic(self, name, url):response = requests.get(url, headers=self.headers)with open('{}.jpg'.format(name), 'wb') as f:f.write(response.content)# 登录url获取图片地址def run(self, url):self.driver.get(url)time.sleep(3)# 根据xpath路径得到所有图片标签figure_list = self.driver.find_elements_by_xpath(r"//span[@class='RichText ztext CopyrightRichText-richText']")# 设置滚动指定高度初始值js_num = 2000for i in range(1, 500):# 设置js语句(向下滚动2000高度)js = "var q=document.documentElement.scrollTop={}".format(js_num)self.driver.execute_script(js)# 获取标签内src值=图片地址pic_url = figure_list[0].find_element_by_xpath(r"./figure[{}]/img".format(i)).get_attribute("src")time.sleep(3)print(pic_url)# 下次滚动高度js_num += 2000self.request_pic(i, pic_url)url = "https://www.zhihu.com/question/373960489/answer/1032475670"
myspider = Spider()
myspider.run(url)

Python爬取知乎回复中的图片(跳过登录)相关推荐

  1. python爬取知乎热榜了解时事

    python爬取知乎热榜了解时事 需求 ​ 知乎热榜是我们了解时事的一个重要途径,但是如果我们每天没有那么多时间来刷知乎,但是还是想要了解知乎热榜的话,我们该怎么办呢?在这里,我想到了通过知乎爬虫的手 ...

  2. python爬取知乎回答并进行舆情分析:爬取数据部分

    python爬取知乎回答并进行舆情分析:爬取数据部分 背景 Ajax原理介绍 Request URL分析 json报文结构分析 代码 参考链接 背景 近期导师让我从社交媒体平台(包括微博.知乎.贴吧等 ...

  3. 如何用python爬取数据_如何使用python爬取知乎数据并做简单分析

    原标题:如何使用python爬取知乎数据并做简单分析 一.使用的技术栈: 爬虫:python27 +requests+json+bs4+time 分析工具: ELK套件 开发工具:pycharm 数据 ...

  4. python爬取知乎回答并进行舆情分析:舆情分析部分

    python爬取知乎回答并进行舆情分析:舆情分析部分 背景 生成词云 文本预处理(使用停用词.自定义分词) 统计词频 生成词云 折线图 统计每日回答数 生成折线图 展望 背景 在上一节中,利用爬虫爬取 ...

  5. Python爬取知乎指定问题

    Python爬取知乎指定问题回答 记得上周写了个帖子,里面有想对知乎指定问题进行爬取,但知乎的反爬措施还是做得比较好的,想通过正常网页解析的手段去拿到数据是实现不了了,因为人家压根就不给你数据,最后呢 ...

  6. Python爬取豆瓣Top250电影中2000年后上映的影片信息

    Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

  7. Python爬取了《雪中悍刀行》数据,数据可视化分析

    Python爬取了<雪中悍刀行>数据,数据可视化分析 如何查找视频id 项目结构 制作词云图 制作最近评论数条形图与折线图 制作每小时评论条形图与折线图 制作最近评论数饼图 制作每小时评论 ...

  8. 使用Python爬取知网信息

    使用Python爬取知网信息 import requests from urllib import request from lxml import etree import re import cs ...

  9. Python爬取不羞涩网小姐姐图片——BeautifulSoup应用

    引言 今年提倡原地过年,相信很多朋友都没有回家过年,像我就被迫留在深圳过年了,无聊之余只能去看看电影爬爬山.今天给大家带来一个打发无聊时光的案例,用Python爬取不羞涩网小姐姐图片,并保存到本地,老 ...

最新文章

  1. ncl 添加点shp文件_气象编程 | NCL高效快速精准提取不规则区域内的格点数据
  2. java读取Resources下文件
  3. selinux对ftp的影响
  4. PTA c语言 选择法排序过程
  5. 直播预告丨 Oracle 12C~19C统计信息的最佳实践
  6. 解决json日期格式问题的3种方法
  7. python调用curl_Python3模拟curl发送post请求操作示例
  8. 12 自定义标签/JSTL标签库/web国际化/java web之设计模式和案例
  9. 微信小游戏(打飞机1)
  10. 独家 | 利用滴滴出行数据透视中国城市空间发展(附视频PPT)
  11. 《创业维艰》:如何完成比难更难的事
  12. 【Python笔记】Pandas时区处理
  13. 用Qt开发Symbian应用程序总结
  14. 博客备份工具(博主网)开发略谈
  15. ​微信公众平台用户信息相关接口调整通知2021-09-27​
  16. 安装JDK8时错误1335的解决
  17. 吴军老师《给中学生/大学生的书单》----Yohao整理
  18. caret包处理流程
  19. CAD有关建筑、室内设计等方面的基础步骤流程
  20. C/C++制作炫酷烟雾特效

热门文章

  1. Java项目:在线甜品商城系统(java+SSM+JSP+JavaScript+Mysql)
  2. win10安装计算机器,win10安装器怎么用_win10安装器使用方法
  3. 私域运营_技巧全套攻略(共207份)
  4. 设置 edge 浏览器跨域
  5. mysql文件头标记_PHP根据文件头检测文件类型
  6. PY-pandas | 数据重塑
  7. 程序员全职应该如何接单?
  8. SkeyeWebPlayer免费网页RTSP/RTMP/FLV/HLS/H265/M3U8直播点播播放器-页面动态多播放器添加代码示例
  9. 全局变量、局部变量和静态变量
  10. 定量分析流程和方法论