我是题主,针对其他答主的回答我继续补充一下题目,我的知乎没法在回答里评论了,我家浏览器应该坏了。

普通python爬虫只需要引用一个http的分析包就行了。如果一个爬虫需要获取ajax信息,那就需要程序引用一个支持js的环境了。而按键精灵可以看做是引用的dwm,没有通过内核接口与浏览器产生信息交互,而通过浏览器程序的GUI接口与之产生交互。原则上两者是相通的,GUI只是充当了中间件,无论内核接口多么复杂或简易,都统一转变为鼠标点击、按键响应与显存遍历,无非就是数学中常见的直角坐标转化为球面座标而已,得到的结果必然是相同的,不同的就是有些方程在直角坐标系下无法求解而球面座标下易解,也就是说有些东西你没有做到爬虫大师级你就求不出来,但转化为按键精灵之后,菜鸟级也可以做出来大师能做出来的东西了。举个例子,大师需要仿造浏览器标签,充分将自己程序伪装成浏览器,什么head,什么agent,听都听不懂的东西,大师都要熟悉,都得亲自测试好用了。菜鸟就用按键精灵就行了,首先网站是给人而不是给robot用的,网站再怎么反爬虫,也不能把人给反了,只要人能用鼠标键盘做的,按键精灵都可以模拟出来。这样的爬虫,可能初期会有反爬虫策略应付一下,但到了后期,按键精灵爬虫将充分利用自己跟人类的操作完全一样的优势,甚至让爬虫搭上深度学习顺风车,开发AI精灵爬虫, 教给他页面排版下哪里的数据有用,自己学着从网页中获取数据,而且所有数据都通过OCR获取,那将是反爬虫的末日。

回到按键精灵上来,对于服务器布置问题,这就需要有一定的操作系统知识了。按键精灵可以通过与虚拟机+浏览器+按键精灵软件封装在一起的方式实现多线程处理。无非就是多消耗一些内存,128G的内存空间,也没i7 6代CPU贵。安装一系列win7阉割版的虚拟机就可以了。这么大的空间能跑60个线程的按键精灵爬虫,按理说够用了。自己用nodejs建一个服务器,让自己的爬虫在任务完成以后前来领取新任务【都是自己人就不用设置反爬虫门槛了,这样做很爽,不要忘记设置自己的域名为不通过代理的白名单】,让爬虫将自己的任务都提交给服务器,服务器可以用python连数据库进行内容组合,生成雇主需要的材料。同时python可以通过分析新的数据生成新的爬虫任务,通过nodejs后台分发,而与此同时,按键精灵则没有任务的时候就等着10秒刷一次任务【刷自己的网站就不需要浏览器参与了,直接用vbs内置网络访问接口就行】,领取到了任务就做任务。轻量级的爬虫任务就不用搭服务器了。专业爬虫制作者自己搭爬虫任务分发系统就好了。

有关浏览器崩了的问题,如果崩溃,按键精灵就无法识别,然后自动进入状态重置程序,比如执行cmd文件,这个cmd写好了如何重置系统,多次重置无法解决问题则重启,多次重启无果则报警,以便节约宝贵的人力。

当然了,都到这个程度了,按键精灵应该已经使用付费版了,也就是你的爬虫目前正在以.exe形式开机自动运行着,这将带来很大便利。

另外,为什么我说的是按键精灵,而不是其他的工具,就是因为按键精灵已经做好了我想要的任何功能,价钱也不贵,没有必要从底层重新造轮子了,自己写鼠标操作、找图操作等驱动也可以,但这是要转行做C++的节奏?AHK不知是否可行,没用过。如果你的爬虫价值足够高,那你自己花钱找人外包一个底层驱动C++模块也可以啊,爬虫就可以扩充到任意语言环境下了,甚至linux、mac都可以用。

其他:

我发现有人爬虫里写了个这个东西完成页面交互

post_url ='http://www.zhihu.com/login/phone_num'

postdata = {

'_xsrf': get_xsrf(),

'password': secret,

'remember_me': 'true',

'phone_num': account,

}

其中secret是密码变量

但实际上,很多网站并不是直接传输密码的,而是传输加密后的密码,而加密算法却都用js混淆加密技术让你无法分析,这种情况下还是只能采用激活页面内js的方法,比如模拟js环境设置value并模拟click事件,或者识图找到输入框,输入文字,然后单击提交按钮

python网页抓取与按键精灵原理一样吗_按键精灵等以GUI接口为基础的程序在爬虫界的地位是怎样的?...相关推荐

  1. 最好用的Python网页抓取工具包!

    众所周知,Python是最流行的编程语言之一,因为它简单.强大,也使它越来越流行,大家可以免费构建软件.开发Web服务.执行数据分析和可视化等等,那么在Python语言中常用的工具有哪些呢?以下是详细 ...

  2. Python网页抓取和Excel操作实战-基金筛选器

    项目背景: 最近在研究基金,想找一些基金能和自己看中的股票能够匹配起来,发现工作量不小,需要去看每只股票的基金持仓情况,然后再去比较筛选,很花时间.于是想是否能利用Python来爬取股票的基金数据,然 ...

  3. Python网页抓取、模拟登录

    From: http://www.cnblogs.com/bboy/archive/2010/10/29/1864537.html 用python抓取网页是非常简单的事,简单的几行代码就可以解决... ...

  4. Python网页抓取

    #coding:utf-8import urllib #导入模块 print dir(urllib) #查看urllib方法 print help(urllib.urlopen) #查看帮助文档 ur ...

  5. 玩转Java网页抓取

    - 使用Java进行网页抓取 - 用于网页抓取的流行语言有Python.JavaScript和Node.js.PHP.Java.C#等.因为有很多选择,想要确定哪种语言最合适并不容易.每种语言都有其优 ...

  6. Python 多线程抓取网页 牛人 use raw socket implement http request great

    Python 多线程抓取网页 - 糖拌咸鱼 - 博客园 Python 多线程抓取网页 最近,一直在做网络爬虫相关的东西. 看了一下开源C++写的larbin爬虫,仔细阅读了里面的设计思想和一些关键技术 ...

  7. python爬虫怎么爬同一个网站的多页数据-如何用Python爬数据?(一)网页抓取

    如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...

  8. Python 多线程抓取网页

    Python 多线程抓取网页 - 糖拌咸鱼 - 博客园 Python 多线程抓取网页 最近,一直在做网络爬虫相关的东西. 看了一下开源C++写的larbin爬虫,仔细阅读了里面的设计思想和一些关键技术 ...

  9. python爬网站数据实例-如何用Python爬数据?(一)网页抓取

    如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...

  10. vs用Python爬数据?(一)网页抓取

    你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. (由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开.如有需要,请 ...

最新文章

  1. BA-Alerton系统简介
  2. [YTU]_2433( C++习题 对象数组求最大值)
  3. 迷失在小镇上的日记(16)
  4. .NET4.0 之 Dynamic VS Refle“.NET研究”ction 效率
  5. mysql数据库唯一性_在MySQL数据库中添加唯一性约束,范围可能吗?
  6. 数据结构分类概述【转载】
  7. 关于OpenGL ES中的纹理压缩
  8. Date跟String类型之间的转换!
  9. css003 选择器:明确设置哪些样式
  10. android查看经纬度,安卓获取经纬度位置
  11. CMUX协议学习总结
  12. 全基因组SNP分型(Whole Genome SNP Genotyping)分析简介
  13. 【企业高管】CIO vs CEO:主要区别是什么?
  14. Redis源码阅读笔记(二)list双向链表结构
  15. 4G模块发送短信流程
  16. mac M1+python+appium环境搭建
  17. 百度AI战疫五十天:三场战役与一次胜利
  18. PLSQL 14.0.6 下载使用教程
  19. iphone11夜景模式怎么开
  20. 机器学习中级教程 7.数据泄漏

热门文章

  1. 解决win10可以上网但出现小地球的情况
  2. Java基础案例教程pdf,圆我大厂梦!
  3. c语言的数学题目及答案,C语言练习题
  4. 都2021年了,不会还有人连深度学习都不了解吧(七)- 评估指标篇
  5. Matlab7.0安装教程
  6. mysql主从复制周期_Mysql主从复制
  7. python必背100源代码-python 100例 (持续更新)
  8. Python Lex Yacc手册
  9. 三个有用的SQL辅助工具
  10. python代码求和_python求和代码