有时候需要登入网站,然后去抓取一些有用的信息,人工做的话,太累了。有的人可以很快的做到登入,但是需要在登入后再去访问其他页面始终都访问不了,因为他们没有带Cookie进去而被当做是两次会话。下面看看代码

<?php  //test.php
function getWebContent($host,$page="/",$paramstr="",$cookies='',$medth="POST",$port=80){
    $fp = fsockopen($host,$port);
    if(!$fp){
        return false;
    }
    $medth = strtoupper($medth);
    $medth = $medth=="POST" ? "POST":"GET";
    $length = strlen($paramstr);
    if($medth == "GET" && $paramstr){
        $page .= "?".$paramstr;
    }
    $out = "$medth $page  HTTP/1.1\r\n";
    $out .= "Accept: */*\r\n"; 
    $out .= "Host: www.exaple.com\r\n"; 
    $out .= "Content-Length: ".$length."\r\n";
    $out .= "Content-Type: application/x-www-form-urlencoded\r\n";
    if($cookies){
        $out .= "Cookie: ".$cookies." \r\n";
    }
    $out .= "Connection: Keep-Alive\r\n\r\n";
    if($medth=='POST' && $paramstr){
        $out .= $paramstr."\r\n";
    }
    fwrite($fp, $out);
    $cookie = "";
    $content = "";
    while (!feof($fp)) {
        $str = fgets($fp);
        if(preg_match("/Set-Cookie:([^\n]*)/",$str,$matchs)){
            if($cookie){
                $cookie .= ";".$matchs[1];
            }else{
                $cookie = $matchs[1];
            }
        }
        $content .= $str;
        echo $str;
    }
    fclose($fp);
    return array('content'=>$content,'cookie'=>$cookie);
}

$params = "name=admin&pwd=admin";
$rs = getWebContent("127.0.0.1","/test/login.php",$params,"","POST",8080);
echo $rs['content'];
$rs = getWebContent("127.0.0.1","/test/index.php","",$rs['cookie'],"POST",8080);
//这里传入上次cookie是关键,否则会被当成两次会话
echo $rs['content'];
?>

<?php //login.php
    $name = $_REQUEST['name'];
    $pwd = $_REQUEST['pwd'];
    if($name == "admin" && $pwd == "admin"){
        setcookie("cname",$name);
        echo "success";
    }else{
        echo "failed";   
    }
?>

<?php //index.php
if(isset($_COOKIE['cname']) && $_COOKIE['cname']){
    echo "<ul><li>1</li><li>2</li><li>3</li><li>4</li><li>5</li><li>6</li></ul>";
}else{
    echo "please login first!";
}
?>

将上面三个文件分别保存,login.php和index.php放在root目录下的test目录下。然后test.php放在任意目录,然后去命令行运行php test.php,结果就能出来。

还有一种更简单的方式,就是用curl,代码如下,可以用下面的代码替换test.php
<?php
$post_data = array (
    "name" => "admin",
    "pwd" => "admin",
);
$cookie_jar = tempnam('./', 'cookie');//新建cookie文件
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, "http://localhost:8080/test/login.php");
//设定返回的数据是否自动显示
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
// 我们在POST数据哦!
curl_setopt($ch, CURLOPT_POST, 1);
// 把post的变量加上
curl_setopt($ch, CURLOPT_POSTFIELDS, $post_data);
//把返回来的cookie信息保存在$cookie_jar文件中
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_jar);
echo curl_exec($ch);
curl_close($ch);

$ch2 = curl_init();
curl_setopt($ch2, CURLOPT_URL, "http://localhost:8080/test/index.php");
curl_setopt($ch2, CURLOPT_HEADER, false);
curl_setopt($ch2, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch2, CURLOPT_COOKIEFILE, $cookie_jar);
echo curl_exec($ch2);
unlink($cookie_jar);
curl_close($ch2);
?>

原文:https://www.cnblogs.com/grimm/p/5048993.html

PHP登入网站抓取并且抓取数据相关推荐

  1. c# webrequest 自动登入网站

    这两天用c# 写了一个自动登入网页的小工具.使用的是发送webrequest的方式. 首先,使用抓包工具fiddler抓取登入页面时发送的request. 通过抓包工具,能够获取登入页面时发送的请求, ...

  2. php网站 qq登陆,PHP QQ一键登入网站实现过程

    qq一键登入功能对于大多数小中型网站来说是十分必要的,因为他给你的用户带来了极大的方便,但是想要集成网站的qq一键登入功能,你必须要一些编程基础,使网站和qq登入的应用之间进行一些必要的交互,下面我简 ...

  3. javaweb应用网站实现第三方QQ登入过程

    腾讯开发文档入口 今天实现了web应用第三方QQ登入,由于我当时只看了开发文档中实现登入的流程,没有看SDK中的demo,所以SDK中的工具我没有用到.其实只要知道流程,完全可以不借助它的SDK也能实 ...

  4. 【转】扫描二维码登入安全吗?

    转载自 https://abcdabcd987.com/qrcode-login/ 昨天在知乎上看到了一个问题微信淘宝设计扫码登录的理由是什么,牺牲人性化来加强安全性?,本以为这是一个送分题,可是点开 ...

  5. 浅析阻碍网站内容被蜘蛛抓取的原因有哪些?

    众所周知,在搜索引擎中存在的蜘蛛其实就是一段代码,这段代码通过在各个网站爬取,以便于网站内容能够被搜索引擎收录.不过一般蜘蛛爬取是按照一定规则进行的,如果网站中出现了一些爬取障碍,那么蜘蛛爬取就会被打 ...

  6. 网站爬取工具_浅析阻碍网站内容被蜘蛛抓取的原因有哪些?

    众所周知,在搜索引擎中存在的蜘蛛其实就是一段代码,这段代码通过在各个网站爬取,以便于网站内容能够被搜索引擎收录.不过一般蜘蛛爬取是按照一定规则进行的,如果网站中出现了一些爬取障碍,那么蜘蛛爬取就会被打 ...

  7. 让你的网站快速被蜘蛛抓取收录的方法

    据真实调查数据显示,90%的网民会利用搜索引擎服务查找需要的信息,而这之中有近70%的搜索者会直接在搜索结果的自然排名的第一页查找自己所需要的信息.由此可见,目前来讲SEO对于企业和产品,有着难以替代 ...

  8. SEO网站视频链接批量抓取

    网站视频SEO也包含在我们的网站优化当中,这是因为视频越来越具有吸引力,可以帮助用户在我们的网站上停留更长时间,不需要过多的思考就可以获得直观的感受,如何获取热门的短视频是我们视频SEO的关键. 通过 ...

  9. 服务器处理蜘蛛抓取网页的过程,让你网站快速被蜘蛛抓取的十三个方法

    据调查显示,有87%的网民会利用搜索引擎服务查找需要的信息,而这之中有近70%的搜索者会直接在搜索结果的自然排名的第一页查找自己所需要的信息.由此可见,目前来讲SEO对于企业和产品,有着难以替代的重要 ...

最新文章

  1. 提高PHP编程效率的53个要点
  2. LeetCode Peeking Iterator
  3. 详细程序注解学OpenCL一 环境配置和入门程序
  4. android browser 书签 路径,Android Browser学习七 书签历史模块: 书签UI的实现(2)
  5. 2020年9月25日-01-项目启动(团队分工)+带宽,网络速度的计算
  6. PTA-7-2 统计字符出现次数 (20分)
  7. oracle package 函数,Oracle 存储过程procedure,函数function用法,以及package用法
  8. GAN 生成对抗网络论文阅读路线图
  9. springboot中的ApplicationRunner 接口
  10. [Usaco2015 dec]Breed Counting
  11. 设计模式(6)——抽象工厂模式(Abstract Factory Pattern,创建型)
  12. window10设置文件夹备注
  13. 开课吧课堂:C++开发语言的应用方向有哪些?
  14. centOs安装 ruby环境
  15. h2o java_java – 在h2o中加载大于内存大小的数据
  16. IDEA一直在indexing的解决方案
  17. ios视频直播没有音频问题
  18. 爬虫基础_urllib
  19. deepin wine 卸载软件
  20. Dataset之IRIS:莺尾(Iris)数据集的简介、下载、使用方法之详细攻略

热门文章

  1. 北大最强扫地僧“韦东奕”爆红全网
  2. -XX:MaxDirectMemorySize直接内存无效问题
  3. matlab gain 可以是负数吗,GAMS不报错,但是得负数,怎么办?
  4. 阿里90后运营的工作总结,细致而深刻!
  5. SSMS错误代码大全
  6. 使用第三方应用打开pdf文件
  7. 人脸识别 人脸实名认证
  8. Linux 进程信号
  9. ukf实测信号的预测 matlab,无迹卡尔曼滤波(UKF)在参数估计应用中迭代停滞问题
  10. 阿里mysql待遇_到了2020年,年薪80w的阿里P7+,需要掌握什么样的技术水平?