爬虫抓取百度指数思路总结
百度指数抓取思路
浏览器截图+OCR识别,因为百度指数的数值是采用html格式+加密二进制传输,怎么都是需要OCR的。
浏览器截图:截取百度指数位置的子图片,截整个页面的图比较容易,要获取指数所在的span的位置,直接调用html的元素的getSize和getLocation返回都是0,简单粗暴地用硬编码了。
OCR的时候,调用tesseract,识别数字,不需要安装额外的识别数据,直接调用tesseract test.png test.txt -l eng -psm 7 digits就可以把识别结果输出到文本文件。用ocr把数字识别出来
用GooSeeker把图、css参数等等抓取下来,根据css的定位,把数字小图切下来,合一起交给ocr。
百度指数在显示每个点的指数的时候,会发送请求,这个请求相关的参数需要根据前面页面的返回结果来查找,请求的结果也是HTML+加密图像数据,要识别还是需要OCR的。
1、首先得模拟登陆百度账号(用selenium+PhantomJS模拟登陆百度,获取cookie)
2、由于有该死的验证码,因此我们要绕过验证码,保存cookie模拟登陆(绕过万恶的验证码)
3、然后模拟登陆以后,程序截取屏幕保存到本地图片。(屏幕截屏)
4、读取本地图片。(读取图片)
5、找到搜索指数所在区域,裁剪图片。(裁剪图片)
6、下面就是进行图像识别,或者说验证码识别了。(去灰度化,二值化,图像识别)
把生成的折线图表整图截图,然后进行图表识别。
爬虫抓取百度指数思路总结相关推荐
- python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...
原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号 不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...
- python爬虫抓取百度图片_Python爬虫抓取百度的高清摄影图片
成果预览: 源代码: import requests import re url = 'https://image.baidu.com/search/index' headers = { 'User- ...
- Python爬虫抓取百度搜索图片
最近玩机器学习,想搞一个关于识别动漫图片的训练集,苦于没有太多的动漫图片,后来忽然想到百度图片可以拿来用,于是乎写了个简单的爬虫,用来抓取百度图片(关于某个关键字的图片) 第一步,找到搜索图片的url ...
- python爬取知乎live_Python爬虫 - 简单抓取百度指数
前言有点忙,没空写东西,这是之前写的,加了些配图而已 这次要爬的网站是百度指数 正文 一.分析 打开网站(百度指数),呈现出来是这样的 如果搜索的话就需要登陆了,如果没有什么特别频繁的请求的话,直接登 ...
- IT宅男利用Python网络爬虫抓取百度贴吧评论区图片和视频(实战篇)
[一.项目背景] 百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到评论区的图片想下载呢?或者看到一段视频想进行下载呢? 今天,小编带大家通过搜索关键字来获取评论区的图片和视频. [二.项目 ...
- 抓取百度指数排行榜信息
开始 看了B站上一些动态排行榜视频,感觉非常酷炫,自己也想学习一下,做一个. 搜索了下相关资料,找到了一个Jannchie见齐开源在github上的排行榜可视化项目,就是它了. 看了下项目说明,关键就 ...
- python爬虫百度贴吧代码大全_零基础写python爬虫之抓取百度贴吧代码分享
这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! # -*- coding: utf-8 -*- #------------------------- ...
- Python爬虫之小试牛刀——使用Python抓取百度街景图像
之前用.Net做过一些自动化爬虫程序,听大牛们说使用python来写爬虫更便捷,按捺不住抽空试了一把,使用Python抓取百度街景影像. 这两天,武汉迎来了一个德国总理默克尔这位大人物,又刷了一把武汉 ...
- 【Python爬虫教学】百度篇·手把手教你抓取百度搜索关键词后的页面源代码
[开门见山] 最近整理了下之前做过的项目,学的东西不少,乱七八糟.打算写点关于 Python 爬虫的东西,新人一枚,还望大佬们多多担待,别把我头给打歪了. 前面我先磨叽磨叽些基础的东西,对爬虫新人友好 ...
- python爬取小说写入txt_零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版...
百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件. 项目内容: 用Python写的百度贴吧的网络爬虫. 使用方法: 新建一个BugBaidu. ...
最新文章
- 易语言组合框连接mysql_用mysql填充的多动态组合框
- Kdevelop的简单使用和调试_JunJun~的博客-CSDN博客_kdevelop使用教程
- uc/os-II(source)各种文件含义集锦
- Java多线程:实现方式Thread与Runnable
- C++(STL):21---deque之源码剖析
- 运筹学状态转移方程例子_强化学习第4期:H-J-B方程
- Android8有深度休眠吗,IMX8MQ android休眠功耗过大
- Gprinter Android SDK V2.1.4 使用说明
- java面试准备之---Struts2体系知识点,系统复习,struts2原理,ognl,el支持.---随时更新
- cloudare mysql 密码修改_ubuntu18.04安装mysql,开启远程登录,修改默认端口
- MTOM以及在WCF中的应用
- 12.卷2(进程间通信)---共享内存区介绍
- paip.gui控件form窗体的原理实现以及easyui的新建以及编辑实现
- Python: Django和Flask关于解析request的参数请求
- 6 RFID的ISOIEC标准
- CorelDRAW常用工具之手绘工具
- 如何把多个文件夹里的文件提取出来?
- 小米怎么快速回到顶部_实在没想到,小米有6种截屏方法!以前只知道3种,实在太吃亏了...
- Win7 每天定时关机
- JAVA猎才学员成长心得分享