java url获取 html body,java模拟浏览器请求抓取页面,无法抓取body里的内容
试了一下结果是一样的,而且看了一下请求,并不是js动态生成的,就是一个请求返回的
Request URL: https://ceac.state.gov/GenNIV/default.aspx
Request Method: GET
Status Code: 200 OK
Remote Address: 169.253.175.193:443
Referrer Policy: no-referrer-when-downgrade
Cache-Control: no-store, must-revalidate, no-cache, max-age=0
Content-Length: 15449
Content-Type: text/html
P3P: CP="{}"
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding: gzip, deflate, br
Accept-Language: zh-CN,zh;q=0.9
Connection: keep-alive
Cookie: TSd0564521_75=TSd0564521_rc=1&TSd0564521_id=5&TSd0564521_cr=08ed00b128ab2800b54a2a267c40d93f2d4e3d051afd2652dab02956aa5412e761b21bce8ac2e047eac1e2662a8bf845:08da01e2ec04a00048e67135689dcb5c02b08ed91560c6b5247d620163e6dd5b325dfd10ff55aa7c346119ca071911bd95a4aa9036107e13475cc7006c3c7a4730c254f1be004e343e623d9f1085b242b31c941e70230d09a164c0a7a1ce1daee41c930c0f3c3e816b566decd3341803129dec2c292e383e15b43456a1d85b0b2041445ebb288c108620103108da546e4b03c438216a3ab6d61ffdfc34f25e00268143aabe1f8157&TSd0564521_ef=&TSd0564521_pg=0&TSd0564521_ct=0&TSd0564521_rf=0; _ga=GA1.3.302002379.1540949792; __utmz=27961390.1549086362.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); ASP.NET_SessionId=4fnkfa3rwtskw4nvedzfdvbh; isDirty=0; _gid=GA1.3.1223886846.1555403122; __utmc=27961390; TS0158a9a1=0146a68475bb72ad5afdad2ff24d73781a930f2ceb7b5203286f7231a180203beafc7c886e36157398ded42617318fa128e7315a25; __utma=27961390.302002379.1540949792.1555465108.1555468272.16; ExpiredSession=False; PageRefresh=True; TSPD_101=08ed00b128ab2800b54a2a267c40d93f2d4e3d051afd2652dab02956aa5412e761b21bce8ac2e047eac1e2662a8bf845:
Host: ceac.state.gov
Referer: https://ceac.state.gov/GenNIV/default.aspx
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36
下边是response
(function(){
var securemsg;
var dosl7_common;
window["bobcmn"] = "111010101010102000000042000000052000000002d0564521200000096300000000300000000300000006/TSPD/300000008TSPD_101300000005https200000000200000000";
window.jyz=!!window.jyz;try{(function(){try{var jj,Jj,Lj=1,zj=1,Sj=1,ij=1,Ij=1;for(var zJ=0;zJ
var Ll=window.attachEvent||/mobi/i.test(window["\x6e\x61vi\x67a\x74\x6f\x72"]["\x75\x73e\x72A\x67\x65\x6et"]),Sl=+new Date+6E5,il,JL,lL,LL=setTimeout,zL=Ll?3E4:6E3;function ZL(){if(!document.querySelector)return!0;var J=+new Date,O=J>Sl;if(O)return jl(!1);O=JL&&!lL&&il+zL
document.addEventListener&&document.addEventListener("visibilitychange",function(J){document.visibilityState&&("hidden"===document.visibilityState&&J.isTrusted?lL=!0:"visible"===document.visibilityState&&(il=+new Date,lL=!1,ZL()))});var _L=[17795081,27611931586,1558153217];function iL(J){J="string"===typeof J?J:J.toString(36);var O=window[J];if(!O.toString)return;var Z=""+O;window[J]=function(J,Z){JL=!1;return O(J,Z)};window[J].toString=function(){return Z}}for(var jo=0;jo<_l.length>
jl(!1!==window.jyz);(function(){3%ZL()&&eval(function(J){J=J.split("l");var O="";for(var Z=0;Z
var Jo=35;window.OL={ZL:"08aab78bee027800150bf6f0861a415678d9e2757fb9f63efe7fbdbf8274b197d113239ba2346dc09a49fecca6727cbd9100307aa06db151bd0272c43138c71b3bfd036f46c50fd203a511e0dc48a6dd8904a6f2130a771f6427fc21840790fbe0d836f00e05940f783e27d34efa781401c68cbab15c72e6bd48ad03692cf03b"};function l(J){return 515>J}function L(J){var O=arguments.length,Z=[];for(var S=1;S>b>>0};
})();
Please enable JavaScript to view the page content.
This question is for testing whether you are a human visitor and to prevent automated spam submission.
What code is in the image?
submit
java url获取 html body,java模拟浏览器请求抓取页面,无法抓取body里的内容相关推荐
- Java爬虫(二)-- httpClient模拟Http请求+jsoup页面解析
博客 学院 下载 GitChat TinyMind 论坛 APP 问答 商城 VIP会员 活动 招聘 ITeye 写博客 发Chat 传资源 登录注册 原 Java爬虫(二)-- httpClient ...
- UrlUtils工具类,Java URL工具类,Java URL链接工具类
UrlUtils工具类,Java URL工具类,Java URL链接工具类 >>>>>>>>>>>>>>>&g ...
- python模拟浏览器请求
模拟浏览器请求 本人亲测 1:首先要有操作网站的账户密码 2:分析浏览器header标头 用代码代替浏览器访问 import urllib.request import json from urlli ...
- Python学习笔记:通过Headers字段模拟浏览器访问亚马逊界面爬取
学习笔记:哔哩哔哩 Python 爬虫视频教程全集(62P)| 6 小时从入门到精通 0. 学习视频地址 https://www.bilibili.com/video/BV1pt41137qK?p=1 ...
- java模拟浏览器请求HttpUtils,可秒杀京东优惠券
2019独角兽企业重金招聘Python工程师标准>>> package com.boot.utils;import java.io.BufferedReader; import ja ...
- 【java】 获取计算机信息及Java信息
获取计算机名称,操作系统信息,java信息 1 package com.agen.test1; 2 3 import java.io.BufferedReader; 4 import java.io. ...
- java spring获取bean_普通Java类获取Spring的Bean的方法
普通Java类获取Spring的Bean的方法 在SSH集成的前提下.某些情况我们需要在Action以外的类中来获得Spring所管理的Service对象. 之前我在网上找了好几好久都没有找到合适的方 ...
- htmlunit实现模拟浏览器请求报错sslcontext没有的解决思路
最近在升级springmvc项目到springboot项目,原来用htmlunit写的模拟百度浏览器查询关键字功能,一直报错,异常信息也比较少:java.lang.NoSuchFieldExcepti ...
- Python爬虫模拟浏览器的headers、cookie,爬取淘宝网商品信息
一. 淘宝商品信息定向爬虫 二. 爬虫基础:正则表达式 三. 淘宝页面查看与分析 四. 爬虫源码 一. 淘宝商品信息定向爬虫 注意淘宝的robots.txt不允许任何爬虫爬取,我们只在技术层面探讨这一 ...
最新文章
- 说说Nginx的核心技术和场景的使用方式!
- 墨迹天气接口html,moji_weather_spider.py
- 病毒入侵计算机的危害,那些年电脑中过的病毒,中病毒的危害又有哪些
- python画散点图程序-Python散点图与折线图绘制过程解析
- java同步异步调用_详解java 三种调用机制(同步、回调、异步)
- Ubuntu 10.10配置JRE、JDK、Eclipse和Tomcat7.0.5
- tensorlfow.saved_model的使用
- [算法系列之二十六]字符串匹配之KMP算法
- 学习Spring Boot:(十三)配置 Shiro 权限认证
- php pg connect 扩展,php安装gnupg扩展
- 数据库删除表中多列语法总结
- 两行代码开启 Ubuntu ftp服务
- 感受MapXtreme2004之二
- Unity3d-模型描边和混色Shader
- FPGA可以转行数字IC验证吗?
- 4K显示器和防蓝光眼镜膜
- 【秃头系列】-【本科生毕设论文格式Word】自动生成目录并调整目录
- DOM实现元素拖拽,滚轮事件和特效动画缓冲运动处理
- 登录功能的测试用例设计
- CeisumLabApkServe--为CeisumLab工具下载地图,影像数据的.pak文件架设地图服务
热门文章
- seg显示时间——51程序
- 华大 MCU 之六 SEGGER Embedded Studio 及 Ozone 使用 Jlink 调试
- 设计模式的理解:桥模式 Bridge
- python range函数for_Python的range函数与for循环语句
- C++11 std::function
- java死循环_java小白关于while死循环时处理办法的一发求助帖
- Vivado simulation使用简介
- java监理的职责_承担监理业务和监理责任的一方及其合法继承人被称为()。...
- thymeleaf取model值_史上最详 Thymeleaf 使用教程
- android添加动画文件,Android开发之图形图像与动画(五)LayoutAnimationController详解