Python爬取知乎回复中的图片(跳过登录)
主要思路:
利用Chrome的selenium登录url,使用鼠标滚动,明确显示回复内容中的图片显示出来。抓取图片地址。
import requests
from lxml import etree
from selenium import webdriver
import timeclass Spider(object):def __init__(self):self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36"}self.driver = webdriver.Chrome()# 下载保存图片def request_pic(self, name, url):response = requests.get(url, headers=self.headers)with open('{}.jpg'.format(name), 'wb') as f:f.write(response.content)# 登录url获取图片地址def run(self, url):self.driver.get(url)time.sleep(3)# 根据xpath路径得到所有图片标签figure_list = self.driver.find_elements_by_xpath(r"//span[@class='RichText ztext CopyrightRichText-richText']")# 设置滚动指定高度初始值js_num = 2000for i in range(1, 500):# 设置js语句(向下滚动2000高度)js = "var q=document.documentElement.scrollTop={}".format(js_num)self.driver.execute_script(js)# 获取标签内src值=图片地址pic_url = figure_list[0].find_element_by_xpath(r"./figure[{}]/img".format(i)).get_attribute("src")time.sleep(3)print(pic_url)# 下次滚动高度js_num += 2000self.request_pic(i, pic_url)url = "https://www.zhihu.com/question/373960489/answer/1032475670"
myspider = Spider()
myspider.run(url)
Python爬取知乎回复中的图片(跳过登录)相关推荐
- python爬取知乎热榜了解时事
python爬取知乎热榜了解时事 需求 知乎热榜是我们了解时事的一个重要途径,但是如果我们每天没有那么多时间来刷知乎,但是还是想要了解知乎热榜的话,我们该怎么办呢?在这里,我想到了通过知乎爬虫的手 ...
- python爬取知乎回答并进行舆情分析:爬取数据部分
python爬取知乎回答并进行舆情分析:爬取数据部分 背景 Ajax原理介绍 Request URL分析 json报文结构分析 代码 参考链接 背景 近期导师让我从社交媒体平台(包括微博.知乎.贴吧等 ...
- 如何用python爬取数据_如何使用python爬取知乎数据并做简单分析
原标题:如何使用python爬取知乎数据并做简单分析 一.使用的技术栈: 爬虫:python27 +requests+json+bs4+time 分析工具: ELK套件 开发工具:pycharm 数据 ...
- python爬取知乎回答并进行舆情分析:舆情分析部分
python爬取知乎回答并进行舆情分析:舆情分析部分 背景 生成词云 文本预处理(使用停用词.自定义分词) 统计词频 生成词云 折线图 统计每日回答数 生成折线图 展望 背景 在上一节中,利用爬虫爬取 ...
- Python爬取知乎指定问题
Python爬取知乎指定问题回答 记得上周写了个帖子,里面有想对知乎指定问题进行爬取,但知乎的反爬措施还是做得比较好的,想通过正常网页解析的手段去拿到数据是实现不了了,因为人家压根就不给你数据,最后呢 ...
- Python爬取豆瓣Top250电影中2000年后上映的影片信息
Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...
- Python爬取了《雪中悍刀行》数据,数据可视化分析
Python爬取了<雪中悍刀行>数据,数据可视化分析 如何查找视频id 项目结构 制作词云图 制作最近评论数条形图与折线图 制作每小时评论条形图与折线图 制作最近评论数饼图 制作每小时评论 ...
- 使用Python爬取知网信息
使用Python爬取知网信息 import requests from urllib import request from lxml import etree import re import cs ...
- Python爬取不羞涩网小姐姐图片——BeautifulSoup应用
引言 今年提倡原地过年,相信很多朋友都没有回家过年,像我就被迫留在深圳过年了,无聊之余只能去看看电影爬爬山.今天给大家带来一个打发无聊时光的案例,用Python爬取不羞涩网小姐姐图片,并保存到本地,老 ...
最新文章
- ncl 添加点shp文件_气象编程 | NCL高效快速精准提取不规则区域内的格点数据
- java读取Resources下文件
- selinux对ftp的影响
- PTA c语言 选择法排序过程
- 直播预告丨 Oracle 12C~19C统计信息的最佳实践
- 解决json日期格式问题的3种方法
- python调用curl_Python3模拟curl发送post请求操作示例
- 12 自定义标签/JSTL标签库/web国际化/java web之设计模式和案例
- 微信小游戏(打飞机1)
- 独家 | 利用滴滴出行数据透视中国城市空间发展(附视频PPT)
- 《创业维艰》:如何完成比难更难的事
- 【Python笔记】Pandas时区处理
- 用Qt开发Symbian应用程序总结
- 博客备份工具(博主网)开发略谈
- ​微信公众平台用户信息相关接口调整通知2021-09-27​
- 安装JDK8时错误1335的解决
- 吴军老师《给中学生/大学生的书单》----Yohao整理
- caret包处理流程
- CAD有关建筑、室内设计等方面的基础步骤流程
- C/C++制作炫酷烟雾特效
热门文章
- Java项目:在线甜品商城系统(java+SSM+JSP+JavaScript+Mysql)
- win10安装计算机器,win10安装器怎么用_win10安装器使用方法
- 私域运营_技巧全套攻略(共207份)
- 设置 edge 浏览器跨域
- mysql文件头标记_PHP根据文件头检测文件类型
- PY-pandas | 数据重塑
- 程序员全职应该如何接单?
- SkeyeWebPlayer免费网页RTSP/RTMP/FLV/HLS/H265/M3U8直播点播播放器-页面动态多播放器添加代码示例
- 全局变量、局部变量和静态变量
- 定量分析流程和方法论