网络爬虫-获取网页中的数据加伪装头，伪装成浏览器多次访问，避免单次访问导致ip被封

User-Agent：用户代理。是一种向访问网站提供你所使用的浏览器类型、操作系统及版本、CPU 类型、浏览器渲染引擎、浏览器语言、浏览器插件等信息的标识。UA字符串在每次浏览器 HTTP 请求时发送到服务器

Referer：HTTP Referer是header的一部分，当浏览器向web服务器发送请求的时候，一般会带上Referer，告诉服务器我是从哪个页面链接过来的，服务器籍此可以获得一些信息用于处理

 public static String getHtmls(String url) throws IOException {RequestConfig globalConfig = RequestConfig.custom().setCookieSpec(CookieSpecs.IGNORE_COOKIES).build();String html = "";CloseableHttpClient httpClient = HttpClients.custom().setDefaultRequestConfig(globalConfig).build();HttpGet httpget = new HttpGet(url);//浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息httpget.setHeader("User-Agent","Mozilla/5.0 (Linux; U; Android 2.3.6; zh-cn; GT-S5660 Build/GINGERBREAD) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1 MicroMessenger/4.5.255");// 伪装头httpget.setHeader("Referer", "https://mp.weixin.qq.com");try {HttpResponse responce = httpClient.execute(httpget);//int resStatu = responce.getStatusLine().getStatusCode();if (resStatu == HttpStatus.SC_OK) {HttpEntity entity = responce.getEntity();if (entity != null) {html = EntityUtils.toString(entity);// 获得html源代码}}} catch (Exception e) {System.out.println("访问 " + url + " 出现异常!");e.printStackTrace();} finally {// 释放连接httpClient.close();}return html;}

网络爬虫-获取网页中的数据加伪装头，伪装成浏览器多次访问，避免单次访问导致ip被封相关推荐

【网络爬虫】python中的数据解析工具(re,bs4,xpath,pyquery)
1.基础知识 1.1 正则(re) Regular Expression, 正则表达式, ⼀种使⽤表达式的⽅式对字符进⾏匹配的语法规则. ⽹⻚源代码本质上就是⼀个超⻓的字符串, 想从⾥⾯提取内容.⽤正 ...
python requests 动态加载_Python获取网页中动态加载的数据
Python获取网页中动态加载的数据 0.XHR 是什么? XHR是 XMLHttpRequest 对象.既Ajax功能实现所依赖的对象,在JQuery中的Ajax是对 XHR的封装. 1.查看异步加 ...
C#获取动态网页中的数据
删除线格式 # C#获取动态网页中的数据在实际工作需求中,编辑的文档需要获取历史地震的信息,所以利用计算机语言获取是一个简化人工操作的必要过程,本文分享一下自己第一次获取交互信息的爬虫经历! 操作流 ...
Python学习——（2）通过网络爬虫获取数据
通过网络爬虫获取数据 1. 和爬虫有关的HTTP HTTP是网络数据通信的基础.在本节中会围绕Python网络爬虫讲述常用HTTP知识点. 1.1 基于HTTP的请求处理流程当用户在浏览器的 ...
python Chrome + selenium自动化测试与python爬虫获取网页数据
一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...
Java爬虫获取网页表格数据
//Java爬虫获取网页表格数据 public class Pachong implements Runnable { public void run() { String Rpt_date = nu ...
小猿圈分享利用python网络爬虫获取网易云歌词
今天小猿圈给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌曲ID: 调用网易云歌曲API,获取歌词: 将歌词写入文件,并存入本 ...
Java爬虫获取豆瓣的短评数据
Java爬虫获取豆瓣的短评数据打开豆瓣的选电影页面的链接,可以看到该网页的下面分为热门,最新,经典等栏目分类,网页每次显示20部电影,通过几部电影的查看,可以发现电影的短评页https://movi ...
手把手教你使用Python网络爬虫获取B站视频选集内容（附源码）
点击上方"Python爬虫与数据挖掘",进行关注回复"书籍"即可获赠Python从入门到进阶共10本电子书今日鸡汤位卑未敢忘忧国,事定犹须待阖棺. ...

网络爬虫-获取网页中的数据加伪装头，伪装成浏览器多次访问，避免单次访问导致ip被封

网络爬虫-获取网页中的数据加伪装头，伪装成浏览器多次访问，避免单次访问导致ip被封相关推荐

最新文章

热门文章