百度指数抓取思路

浏览器截图+OCR识别,因为百度指数的数值是采用html格式+加密二进制传输,怎么都是需要OCR的。

浏览器截图:截取百度指数位置的子图片,截整个页面的图比较容易,要获取指数所在的span的位置,直接调用html的元素的getSize和getLocation返回都是0,简单粗暴地用硬编码了。

OCR的时候,调用tesseract,识别数字,不需要安装额外的识别数据,直接调用tesseract test.png test.txt -l eng -psm 7 digits就可以把识别结果输出到文本文件。用ocr把数字识别出来

用GooSeeker把图、css参数等等抓取下来,根据css的定位,把数字小图切下来,合一起交给ocr。

百度指数在显示每个点的指数的时候,会发送请求,这个请求相关的参数需要根据前面页面的返回结果来查找,请求的结果也是HTML+加密图像数据,要识别还是需要OCR的。

1、首先得模拟登陆百度账号(用selenium+PhantomJS模拟登陆百度,获取cookie)

2、由于有该死的验证码,因此我们要绕过验证码,保存cookie模拟登陆(绕过万恶的验证码)

3、然后模拟登陆以后,程序截取屏幕保存到本地图片。(屏幕截屏)

4、读取本地图片。(读取图片)

5、找到搜索指数所在区域,裁剪图片。(裁剪图片)

6、下面就是进行图像识别,或者说验证码识别了。(去灰度化,二值化,图像识别)

把生成的折线图表整图截图,然后进行图表识别。

爬虫抓取百度指数思路总结相关推荐

  1. python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...

    原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号 不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...

  2. python爬虫抓取百度图片_Python爬虫抓取百度的高清摄影图片

    成果预览: 源代码: import requests import re url = 'https://image.baidu.com/search/index' headers = { 'User- ...

  3. Python爬虫抓取百度搜索图片

    最近玩机器学习,想搞一个关于识别动漫图片的训练集,苦于没有太多的动漫图片,后来忽然想到百度图片可以拿来用,于是乎写了个简单的爬虫,用来抓取百度图片(关于某个关键字的图片) 第一步,找到搜索图片的url ...

  4. python爬取知乎live_Python爬虫 - 简单抓取百度指数

    前言有点忙,没空写东西,这是之前写的,加了些配图而已 这次要爬的网站是百度指数 正文 一.分析 打开网站(百度指数),呈现出来是这样的 如果搜索的话就需要登陆了,如果没有什么特别频繁的请求的话,直接登 ...

  5. IT宅男利用Python网络爬虫抓取百度贴吧评论区图片和视频(实战篇)

    [一.项目背景] 百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到评论区的图片想下载呢?或者看到一段视频想进行下载呢? 今天,小编带大家通过搜索关键字来获取评论区的图片和视频. [二.项目 ...

  6. 抓取百度指数排行榜信息

    开始 看了B站上一些动态排行榜视频,感觉非常酷炫,自己也想学习一下,做一个. 搜索了下相关资料,找到了一个Jannchie见齐开源在github上的排行榜可视化项目,就是它了. 看了下项目说明,关键就 ...

  7. python爬虫百度贴吧代码大全_零基础写python爬虫之抓取百度贴吧代码分享

    这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! # -*- coding: utf-8 -*- #------------------------- ...

  8. Python爬虫之小试牛刀——使用Python抓取百度街景图像

    之前用.Net做过一些自动化爬虫程序,听大牛们说使用python来写爬虫更便捷,按捺不住抽空试了一把,使用Python抓取百度街景影像. 这两天,武汉迎来了一个德国总理默克尔这位大人物,又刷了一把武汉 ...

  9. 【Python爬虫教学】百度篇·手把手教你抓取百度搜索关键词后的页面源代码

    [开门见山] 最近整理了下之前做过的项目,学的东西不少,乱七八糟.打算写点关于 Python 爬虫的东西,新人一枚,还望大佬们多多担待,别把我头给打歪了. 前面我先磨叽磨叽些基础的东西,对爬虫新人友好 ...

  10. python爬取小说写入txt_零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版...

    百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件. 项目内容: 用Python写的百度贴吧的网络爬虫. 使用方法: 新建一个BugBaidu. ...

最新文章

  1. 易语言组合框连接mysql_用mysql填充的多动态组合框
  2. Kdevelop的简单使用和调试_JunJun~的博客-CSDN博客_kdevelop使用教程
  3. uc/os-II(source)各种文件含义集锦
  4. Java多线程:实现方式Thread与Runnable
  5. C++(STL):21---deque之源码剖析
  6. 运筹学状态转移方程例子_强化学习第4期:H-J-B方程
  7. Android8有深度休眠吗,IMX8MQ android休眠功耗过大
  8. Gprinter Android SDK V2.1.4 使用说明
  9. java面试准备之---Struts2体系知识点,系统复习,struts2原理,ognl,el支持.---随时更新
  10. cloudare mysql 密码修改_ubuntu18.04安装mysql,开启远程登录,修改默认端口
  11. MTOM以及在WCF中的应用
  12. 12.卷2(进程间通信)---共享内存区介绍
  13. paip.gui控件form窗体的原理实现以及easyui的新建以及编辑实现
  14. Python: Django和Flask关于解析request的参数请求
  15. 6 RFID的ISOIEC标准
  16. CorelDRAW常用工具之手绘工具
  17. 如何把多个文件夹里的文件提取出来?
  18. 小米怎么快速回到顶部_实在没想到,小米有6种截屏方法!以前只知道3种,实在太吃亏了...
  19. Win7 每天定时关机
  20. JAVA猎才学员成长心得分享

热门文章

  1. JAVA:实现十六进制转二进制算法(附完整源码)
  2. vmware桌面云建设项目方案建议书(包含GPU)
  3. 围棋棋手、电影、境界层次
  4. java实现人民币金额大写
  5. linuxshell如何实现进度条效果
  6. 数通学习网络协议地图
  7. 掌上书院UMD文件格式分析
  8. 命令总结(一)-TcpDump命令使用详情
  9. 景格虚拟教具混合动力汽车动力系统虚拟结构原理展示台复制狗
  10. DLL的远程注入技术及注入dll函数调用