Niushop3.0电商系统,性价比之王!开牛店的第一选择!

在用wget抓取数据的时候,有的时候需要用户登录才能进行。这种情况下就需要时用cookie.
先看下面的代码:
 
wget --load-cookies cookies.txt --save-cookies cookies.txt --keep-session-cookies -O output/login.html --post-data "username=NNNNNNNNNNN&password=MMMMMMMMMMM" http://www.xxxxxxxxxxxxxx.org/login
  
  wget --load-cookies cookies.txt --save-cookies cookies.txt --keep-session-cookies -O output/directory-list.html "http://www.xxxxxxxxxxxxxxx.org/list?category=resturants&page=1"
  
第一个操作,就是先获得一个cookie,用来登陆并保存此session,然后在后面的抓数据的过程中使用此session和cookie.
注意:
http://www.xxxxxxxxxxxxxx.org/login要换成对应的登陆页面的url
--post-data "username=NNNNNNNNNNN&password=MMMMMMMMMMM"  post数据里面的参数要根据登陆页面里面对应的参数设定。

第二个操作,就是用上面的cookie去验证用户,并取得一个有效的连接,进而去取得数据。
--load-cookies 就是载入你上一个操作所取得的cookie.

在抓取数据的时候,我自己用了一个脚本,如下,以供参考:

get --load-cookies cookies.txt --save-cookies cookies.txt --keep-session-cookies -O login.html --post-data "username=xxxxxxxxxx&password=11111111111111111" http://www.mmmmmmmmmmmmmmmmmm.mmmmmmmmm/login
  
  
  
  for i in {1..89}
  do
      for j in {1..20}
      do
          echo i=$i -- j=$j
  
  echo "wget --load-cookies cookies.txt --save-cookies cookies.txt --keep-session-cookies  -O $i-$j.html 'http://www.ccccccccccccccc.ccccccccccc/directory/resturant/list?keyword=&class=$i&page=$j'"
  
  wget --no-dns-cache --no-cache --load-cookies cookies.txt --save-cookies cookies.txt --keep-session-cookies  -O $i-$j.html "http://www.qqqqqqqqq.xxxxxxxxx/directory/bar/list?keyword=&class=$i&page=$j"
  
      done

Niushop3.0电商系统,性价比之王!开牛店的第一选择!

转载于:https://www.cnblogs.com/niuniuniuniu/p/10650950.html

wget抓取数据,需要用户登录验证相关推荐

  1. python登录新浪微博抓取微博内容_python机器登陆新浪微博抓取数据

    使用python机器登陆新浪微博抓取数据 1.[代码][Python]代码 # import 这边需要注意的是只有一个rsa这个模块是需要install的,其他的都是内置 import re , ur ...

  2. pythonurllib新浪微博_python模拟登录新浪微博抓取数据(cookielib和urllib2).doc

    HYPERLINK "/article/python/22972.html" /article/python/22972.html python模拟登录新浪微博抓取数据(cooki ...

  3. python3爬虫系列23之selenium+腾讯OCR识别验证码登录微博且抓取数据

    python3爬虫系列23之selenium+腾讯OCR识别验证码登录微博且抓取数据 1.前言 上一篇是一个 python3爬虫系列22之selenium模拟登录需要验证码的微博且抓取数据, 我们是首 ...

  4. 抖音短视频数据抓取实战系列(三)——Fiddler抓取抖音用户详细信息数据

    抖音短视频数据抓取实战系列(三)--Fiddler抓取抖音用户详细信息数据 项目目录 1.抖音短视频数据抓取实战系列(〇)--前言 2.抖音短视频数据抓取实战系列(一)--模拟器的选择与设置 3.抖音 ...

  5. 模拟web访问有登录且有验证码的登录后抓取数据

    模拟web访问有登录且有验证码的登录后抓取数据 1 取验证码 1 在窗体上放一个picturebox (imgValidate)存放获取的验证码图片, 2 用浏览器的开发者工具firefox (f12 ...

  6. Java模拟登录并抓取数据

    问题: 最近做一个抓取数据的项目,发现网上很多资料不完备,或者按照代码执行不能真实爬取数据,自己特别根据自己的网站进行登录并进行数据爬取. 未登录 登录后,正常抓取数据截图(预期目标数据) 解决办法: ...

  7. 测试开发Python培训:抓取新浪微博抓取数据-技术篇

    测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的sele ...

  8. python爬虫抓取数据的步骤-Python爬虫抓取手机APP的传输数据

    大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1.抓取APP数据包 得到超级课程表登录的地址:http://120.55 ...

  9. python 定时自动爬取_python实现scrapy爬虫每天定时抓取数据的示例代码

    1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...

最新文章

  1. Linux 操作系统原理 — 内存 — 物理存储器与虚拟存储器
  2. 软件工程 团队作业 #9
  3. 干货集锦:200+生信范文、30+款软件、12类图片素材PPT,今年的SCI稳了!(附下载)...
  4. 汇编语言---计算有符号数算式的值
  5. 密文恢复出明文的过程称为_整流二极管的反向恢复过程图解
  6. 详解MySQL双活同步复制四种解决方案
  7. 如何解决海量数据的处理问题
  8. PDF文件编辑并去除水印
  9. awk从atq检索第一个字段报告 [英]awk to retrieve the first field report from atq
  10. [Android]通讯录字段
  11. Teams App 资源中心种草指南
  12. python向自己qq邮件发信息_python实现自动向QQ邮箱发送天气预报邮件
  13. 笔记本的标压和低压的区别
  14. 最全的静态网站生成器(开源项目)
  15. linux 实验感悟_linux实训心得_linux实习心得体会范文
  16. 使用DISM维护Windows系统
  17. python创业公司做什么最赚钱农村_最适合农村的创业项目,成本不超过500块,做好就能快速发家致富...
  18. 带MPPT的同步降压电路的设计-开题报告
  19. 数字-模拟信号混合传输收发机(E 题)--2021 年全国大学生电子设计竞赛
  20. 怎么把文件同步到服务器,把文件同步到服务器上

热门文章

  1. 设计模式-装饰模式(08)
  2. 【干货分享】流程DEMO-人员调动流程
  3. 学会感恩会使你回报的更多!
  4. Windows Azure AppFabric概述
  5. rsync同步和备份文件到本地
  6. 【字符串】manacher算法
  7. 以太坊又一次大拥堵何去何从?深度对话美图以太坊DPoS算法实现团队
  8. ruby require的使用
  9. POJ 3342 Party at Hali-Bula ——(树型DP)
  10. 反射应用--取得类的结构