知乎发现页面抓取(只改User-Agent爬虫)
代码
解释:
1. 这里设置的User-Agent其实是一个macbook上使用的版本。
2. 这里被注释掉的语句是我在书上看到的。捕捉到的内容不一样而已~(大家也可以看看)
import requests
import reheaders = {'User-Agent': 'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.6'
}r = requests.get('https://www.zhihu.com/explore', headers=headers)
# pattern = re.compile('explore-feed.*?question_link.*?>(.*?)</a>', re.S)
pattern = re.compile('collection.*?blank.*?>(.*?)</a>', re.S)
titles = re.findall(pattern, r.text)
print(titles)
输出
解释:
这里,你的输出很有可能会跟我的不一样。不过不用担心,因为知乎更新了这个页面而已~
['愿中国青年都摆脱冷气,只是向上走', '破千赞控', '谎言和幻觉', '寒冬鸡汤', '让世界变清晰的知识集']
知乎发现页面抓取(只改User-Agent爬虫)相关推荐
- 你需要知道的 N 种抓取 dump 的工具
原总结注册表debug调试dump转储文件windbgprocdump 前言 今天,向大家介绍几种可以抓取应用程序转储文件的工具及基本使用方法.更详细的用法,请参考每个工具对应的帮助文档.如果你还不清 ...
- java抓取网页标题内容_[Java教程]java 网页页面抓取标题和正文
[Java教程]java 网页页面抓取标题和正文 0 2014-07-10 09:01:30 import java.io.BufferedReader;import java.io.IOExcept ...
- php爬虫教程(一) 简单的页面抓取
欢迎加入,新群号码:99640845 最近朋友抓取点数据,写了几个抓取数据的脚本. 主要功能是,分别抓起x了么,美x,x度外卖的餐厅和菜品数据 ,后期我把代码分享出来. 今天就先说说简单的页面抓取 - ...
- 新浪新闻页面抓取(JAVA-Jsoup)
1.使用gradle建立工程: 工程格式如下: include ':spider-demo'rootProject.name = 'my-spider-demo' settings def void ...
- 从抓取豆瓣电影聊高性能爬虫思路(纯干货)
从抓取豆瓣电影聊高性能爬虫思路 本篇文章将以抓取豆瓣电影信息为例来一步步介绍开发一个高性能爬虫的常见思路. 寻找数据地址 爬虫的第一步,首先我们要找到获取数据的地址.可以先到豆瓣电影 首页 去看看. ...
- python抓取京东联盟优惠券_[爬虫]使用python抓取京东全站数据(商品,店铺,分类,评论)...
网上抓取京东数据的文章,现在要么无法抓取数据,要么只能抓取部分数据,本文将介绍如何抓取京东全站数据,包括商品信息.店铺信息,评论信息,分类信息等. -------------------------- ...
- 知乎访问mysql_百万级别知乎用户数据抓取与分析之PHP开发
这次抓取了110万的用户数据,数据分析结果如下: 开发前的准备 安装Linux系统(Ubuntu14.04),在VMWare虚拟机下安装一个Ubuntu: 安装PHP5.6或以上版本: 安装curl. ...
- Python3网络爬虫实战-38、动态渲染页面抓取:Splash的使用
Splash 是一个 JavaScript 渲染服务,是一个带有 HTTP API 的轻量级浏览器,同时它对接了 Python 中的 Twisted和 QT 库,利用它我们同样可以实现动态渲染页面的抓 ...
- matlab弹幕抓取,知乎直播弹幕抓取与解析
背景 因为想拿到一些知乎弹幕的数据 以及做一个直播播报机器人,所以最近在研究知乎直播的弹幕 分析 抓取比较简单,不多说了...都是正常的操作 但是 拿到的数据却很奇怪 为了演示方便,我们以 rest ...
最新文章
- 【Jupyter Notebook】启动命令行(写进.sh文件直接调用shell)
- ubuntu安装完后需进行必要的软件更新
- 避免jquery的click多次绑定方法
- 游戏AI——行为树理论及实现
- LeetCode Algorithm 70. 爬楼梯
- 2017-2018-2 20165329 实验五 网络编程与安全
- html中右边框出不来,html,为什么右边框会被挡住?
- 抗锯齿_像素画技巧AA手工抗锯齿教程
- 程序设计导引【总述】
- 社工库源码mysql_体验盒子:社工库源码大全(持续更新)
- vue js日期时间格式化
- UESTC-1633 去年春恨却来时,落花人独立,微雨燕双飞(取模最短路)
- 虾皮运营-shopee台湾站实战教程
- LeetCode 热题 HOT — 字母异位词分组
- oracle中update,insert,delete的高级用法
- 微信隐藏功能系列:微信怎么深度清理内存?4个步骤让微信“瘦”下来
- CentOS7.6安装图形界面失败,startx执行失败
- 实验十三:PCF8591模数传感器-数模转换实验
- Python——内置库函数
- 一个32岁程序员的倔强