php 模拟登陆(不带验证码)采集数据
这里模拟表单登陆窗口
提交代码部分
1,生成session_id保存到 cookie
$login_url = 'http://www.96net.com.cn/Login.php';
$cookie_file = dirname(__FILE__)."/pic.cookie";
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $login_url);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);
curl_exec($ch);
curl_close($ch);
2,处理提交的登陆的数据
if($_POST['acti']=='tj'){
$userid=$_POST['userid']; $password=$_POST['password']; $_post_url = 'http://www.96net.com.cn/login.php?action=Login'; //登录表单提交地址 $post = "userid=$userid&password=$password"; $ch12 = curl_init(); curl_setopt($ch12, CURLOPT_URL, $_post_url); curl_setopt($ch12, CURLOPT_HEADER, false); curl_setopt($ch12, CURLOPT_RETURNTRANSFER,1); curl_setopt($ch12, CURLOPT_POSTFIELDS, $post); //提交方式为post curl_setopt($ch12, CURLOPT_COOKIEFILE, $cookie_file); curl_exec($ch12); curl_close($ch12); //以上表示登陆成功 //以下开始采集数据
$data_url19 = "http://www.96net.com.cn/xxxxxxx.php?id=10"; //数据所在地址 $ch19 = curl_init(); curl_setopt($ch19, CURLOPT_URL, $data_url19); curl_setopt($ch19, CURLOPT_HEADER, false); curl_setopt($ch19, CURLOPT_HEADER, 0); curl_setopt($ch19, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch19, CURLOPT_COOKIEFILE, $cookie_file); $content12 = curl_exec($ch19); file_put_contents("./content0/31-35/net" . $k . ".txt", $content12); //文件存放的位置
}
转载于:https://www.cnblogs.com/96net/p/8047384.html
php 模拟登陆(不带验证码)采集数据相关推荐
- C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)
[转]C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子) 第一次接触HtmlAgilityPack是在5年前,一些意外,让我从技术部门临时调到销售部门,负责建立一些流 ...
- 分享:Python使用cookielib和urllib2模拟登陆新浪微博并抓取数据
Python使用cookielib和urllib2模拟登陆新浪微博并抓取数据 http://my.oschina.net/leopardsaga/blog/94774
- python爬虫爬网站数据登录_使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)...
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
- 使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
- Python + Requests 模拟登陆(含验证码)
其实模拟登陆非常简单,只要在打开网站的同时提交数据就可以了. 下面通过登陆超星网来举例说明如何一步步实现模拟登陆. 1.获取需要提交的数据 使用chrome的Network或者fiddler可以很轻易 ...
- java使用Selenium模拟登陆58(验证码登陆密码登陆)若快平台识别文字点击验证码
文章目录 写在前面 配置环境 Selenium入门 使用Selenium登陆58 若快平台识别文字点击验证码 附: By对象中的 xpath & cssSelector获取方式** 不打开浏览 ...
- 以豆瓣网为例,模拟登陆爬虫以及验证码处理
在利用scrapy框架爬各种网站时,一定会碰到某些网站是需要登录才能获取信息. 最近在学天善智能课堂韦玮老师的课程,python数据挖掘与分析实战 ,通过自己部分的代码和借鉴老师的项目,多次试验改进调 ...
- pythonurllib微博登录怎么删_Python使用cookielib和urllib2模拟登陆新浪微博并抓取数据...
我们都知道HTTP是无连接的状态协议,但是客户端和服务器端需要保持一些相互信息,比如cookie,有了cookie,服务器才能知道刚才是这个用户登录了网站,才会给予客户端访问一些页面的权限. 用浏览器 ...
- selenium模拟登陆时截取验证码
模拟登陆时,经常会遇到有验证码的问题,那么就需要把验证码给截取下来. 如下为截取验证码程序,该程序的原始地址为:http://www.cnblogs.com/donaldlee2008/p/53045 ...
- 自媒体平台数据统计分析爬虫之【趣头条】模拟登陆分析详解及数据统计接口详解
声明:本文仅用于学习研究,实现对自己账号的数据统计和分析 目录 1.登录流程 1.1 登录字段DES加密算法 1.2 模拟登陆,获取token 2.视频内容数据 2.1 全部 2.2 待审核 2.3 ...
最新文章
- 富文本框让最大四百像素_TinyMCE 富文本编辑器 ━━ 基本配置
- 一起谈.NET技术,页面片段缓存(二)
- TCP和UDP套接字编程
- Boost.Signals 的文档/查看示例
- 具有Rx-Java的Couchbase Java SDK
- 邮件服务器之POP3协议分析
- java遍历子目录_Java遍历文件夹及子目录代码实例
- [zz]linux修改密码出现Authentication token manipulation error的解决办法
- 尝试实现手势控制计算机(持续跟进)
- promise 为什么出现
- SQL 游标使用实例
- LabVIEW状态机小灯按顺序点亮条件结构+自定义枚举
- mysql查询所有男生中姓王的_数据库6.22
- GPIO接口-引脚对照
- 5.15 按照排序图标对目标拓展客户数进行排序 [原创Excel教程]
- Xposed模块初体验——第一篇
- 数据库里这是怎么回事啊?
- Mac OS无法进入系统/数据备份/重装系统方法步骤
- C/C++ 延时函数 (标准库)
- 天刀一代宗师服务器维护,3月13日服务器例行维护公告(已完成)