User-Agent:用户代理。是一种向访问网站提供你所使用的浏览器类型、操作系统及版本、CPU 类型、浏览器渲染引擎、浏览器语言、浏览器插件等信息的标识。UA字符串在每次浏览器 HTTP 请求时发送到服务器

Referer:HTTP Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的,服务器籍此可以获得一些信息用于处理

 public static String getHtmls(String url) throws IOException {RequestConfig globalConfig = RequestConfig.custom().setCookieSpec(CookieSpecs.IGNORE_COOKIES).build();String html = "";CloseableHttpClient httpClient = HttpClients.custom().setDefaultRequestConfig(globalConfig).build();HttpGet httpget = new HttpGet(url);//浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息httpget.setHeader("User-Agent","Mozilla/5.0 (Linux; U; Android 2.3.6; zh-cn; GT-S5660 Build/GINGERBREAD) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1 MicroMessenger/4.5.255");// 伪装头httpget.setHeader("Referer", "https://mp.weixin.qq.com");try {HttpResponse responce = httpClient.execute(httpget);//int resStatu = responce.getStatusLine().getStatusCode();if (resStatu == HttpStatus.SC_OK) {HttpEntity entity = responce.getEntity();if (entity != null) {html = EntityUtils.toString(entity);// 获得html源代码}}} catch (Exception e) {System.out.println("访问 " + url + " 出现异常!");e.printStackTrace();} finally {// 释放连接httpClient.close();}return html;}

网络爬虫-获取网页中的数据加伪装头,伪装成浏览器多次访问,避免单次访问导致ip被封相关推荐

  1. 【网络爬虫】python中的数据解析工具(re,bs4,xpath,pyquery)

    1.基础知识 1.1 正则(re) Regular Expression, 正则表达式, ⼀种使⽤表达式的⽅式对字符进⾏匹配的语法规则. ⽹⻚源代码本质上就是⼀个超⻓的字符串, 想从⾥⾯提取内容.⽤正 ...

  2. python requests 动态加载_Python获取网页中动态加载的数据

    Python获取网页中动态加载的数据 0.XHR 是什么? XHR是 XMLHttpRequest 对象.既Ajax功能实现所依赖的对象,在JQuery中的Ajax是对 XHR的封装. 1.查看异步加 ...

  3. C#获取动态网页中的数据

    删除线格式 # C#获取动态网页中的数据 在实际工作需求中,编辑的文档需要获取历史地震的信息,所以利用计算机语言获取是一个简化人工操作的必要过程,本文分享一下自己第一次获取交互信息的爬虫经历! 操作流 ...

  4. Python学习——(2)通过网络爬虫获取数据

    通过网络爬虫获取数据 1. 和爬虫有关的HTTP ​ HTTP是网络数据通信的基础.在本节中会围绕Python网络爬虫讲述常用HTTP知识点. 1.1 基于HTTP的请求处理流程 ​ 当用户在浏览器的 ...

  5. python Chrome + selenium自动化测试与python爬虫获取网页数据

    一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...

  6. Java爬虫获取网页表格数据

    //Java爬虫获取网页表格数据 public class Pachong implements Runnable { public void run() { String Rpt_date = nu ...

  7. 小猿圈分享利用python网络爬虫获取网易云歌词

    今天小猿圈给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌曲ID: 调用网易云歌曲API,获取歌词: 将歌词写入文件,并存入本 ...

  8. Java爬虫获取豆瓣的短评数据

    Java爬虫获取豆瓣的短评数据 打开豆瓣的选电影页面的链接,可以看到该网页的下面分为热门,最新,经典等栏目分类,网页每次显示20部电影,通过几部电影的查看,可以发现电影的短评页https://movi ...

  9. 手把手教你使用Python网络爬虫获取B站视频选集内容(附源码)

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 位卑未敢忘忧国,事定犹须待阖棺. ...

最新文章

  1. 阿里、腾讯美国员工基本年薪曝光,资深算法工程师24万美元,高级研究员26万美元
  2. sharepoint 2007 网站操作 显示菜单不全
  3. Mysql Case when 语句
  4. 两个整数百分百C语言,2011年9月份计算机二级C语言上机题库(百分百准确),,,[1]
  5. 数据分析:度量数据散布的四分位数
  6. 小白带你入坑xamarin系列之环境搭建和准备
  7. hypot函数_hypot()函数与C ++中的示例
  8. mysql遍历 xml文件路径_解决Mapper接口和mapper.xml的文件位置问题
  9. 【LaTeX 教程】03. LaTeX 字体字号设置
  10. 暴力破解网站后台burpsuite
  11. 歪歪在去往宝石的路上,步履蹒跚中-1
  12. 计算机云开头的词语,云开头的四字词语介绍
  13. [YNOI2017]由乃的商场之旅 莫队
  14. 史上最全最新微信小程序自动化教程
  15. Shell脚本怎么写?这个基础教程你一定要看
  16. 基金的估值原来这么简单,一文看懂
  17. 什么是冯诺依曼结构、哈佛结构、改进型哈佛结构?
  18. linux kernel社区探索
  19. 数中有术:看大数据如何让“时光倒流”
  20. 吾心,吾思,吾语,吾记

热门文章

  1. docker 挂载目录_Docker容器数据管理
  2. 红包指定分配金额php,php仿微信红包分配算法的实现方法_PHP
  3. erp系统原理和实施第五版pdf_【图片】生产制造企业ERP系统选型及实施“避坑”指南!【企业管理软件吧】...
  4. bisect git 使用_Git使用过程中的一些常见场景问题总结
  5. python中content的用法_学python吗,教你5个python现学现用的有趣用法
  6. ecplice中class.forname一直报错_A6v5.1升级A6v7.0报错:调用Java代码
  7. c语言文件读写r 的作用,C语言 读写二进制文件
  8. linux nginx 状态,Nginx开启运行状态(status)功能 | IT运维网
  9. 超级计算机游戏电脑,Salad邀请PC玩家参与全球最大分布式超级计算机的构建
  10. jsp是在html里面嵌入哪种代码?_奶茶店铺用哪种制冰机才合适?