(2022.6)汇总下指数提取网址:

1.百度指数批量提取

http://www.datasharehome.com/bdindex/order/

2.股票代码、股票名称百度指数批量下载

http://www.datasharehome.com/bdindex_stock/stock_record/?type=stockname
http://www.datasharehome.com/bdindex_stock/stock_record/?type=stockcode

3.微指数批量提取

http://www.datasharehome.com/wbindex/order/

  百度指数的作用不言而喻,可以作为研究关键词在网络搜索趋势、洞察网民兴趣和需求、监测舆情动向、定位受众特征等。是学术研究、SEO等重要的指标数量。随着网民比例不断提升,这个作用也越来越凸现。但其不像google trends一样可以免费下载,而且该指数还不断升级,改进加密算法,想要获取历史数据颇为困难。从2015年开始研究百度指数提取工具以来,目前为止(2019年5月10日),基本实现了百度指数的批量、自动、准确提取([http://www.datasharehome.com/bdindex/order/](http://www.datasharehome.com/bdindex/order/))。百度指数提取工具的经历了以下几个阶段。先整理一下备查和记录。

1.根据折线拟合+图像识别

 这个阶段也是最开始接触和研究的思路。(2015年下半年-2016年上半年)

1.1 本地安装版
原理:主要根据百度指数以svg折线图显示,右侧有如下坐标轴,各指数是以值按照比例显示。所以可以根据各点的坐标和刻度,反算出各点代表值。


图 坐标轴视图 图 matlab接口文件图
此阶段工作分了2部分:1、设置参数搜索,抓取各词坐标,计算数据;2、识别坐标轴刻度。当时和朋友分工,他负责第一部分用.net开发,我负责用matlab开发识别接口,然后生成dll接口,供其调用识别。
此时坐标轴比较规范稳定,所以采用图像识别八皇后算法,对各字符进行分割,然后采用和各特征值比对的方式,识别。


图 软件界面图
软件界面如上图所示,数据采用了access数据库,采用了webbrowser浏览器,设置好参数(此时还可以在页面设置),可以对不同地区、不同趋势、不同周期数据进行抓取,时间区间的移动采用手动方式,所以可能会有重叠,所以还有去重功能。
此期间,matlab版本的dll接口也经历了3次升级。
优点:识别速度较快,操作较为简单,对服务器请求次数低。
缺点:精度不高,对于变化比较大的极端值情况容易误差大。

1.1服务器升级版
Matlab接口本地安装和调用比较麻烦。所以后面编写了一个sever放在的网络服务器上。

图 服务器端
原理:采用了windows service 主机,服务端也是用的.net编写,采用的Windows socket方式通信。这样本地只需要把坐标轴参数上传到服务器,服务器识别后返回给本地。
优点:本地安装部署简单,不会出现调用识别问题,可以设置用户注册管理,充值消费。
缺点:服务器开销较大,在线用户过多,容易宕机。
现在网上流传较多的,百度指数提取导出工具 2017.2.22 版本的都是这时候开发的,上面的qq号码也是我的,后来百度指数几经升级,已经不能用webbrowser打开了。

2.图像识别+selenium(2016-2017年)

 鉴于前面所的不能获取准确值,后来又屏蔽了webbrowser,所以又开始研究通过selenium方式+ Tesseract识别方式。

原理:通过selenium控制chrome浏览器,逐个日期移动,获取每个点的拼接图像,这时候百度指数采用的css控制位移的方式来显示数值的,给的一个图片有很多乱码,经过css遮罩后显示如下图所示的字符。通过训练Tesseract,生成自己的识别库,可以达到100%准确率。

图 数值拼接图

图 程序多开图
优点:识别率高,没有误差。
缺点:速度慢,通过程序多开,实现了倍数提示,无奈每次只能识别一个数据点,所读还是很慢。对百度服务器的压力也很大。百度指数限制账号请求次数,每个账号达到一定次数后,必须要切换账号和ip。

3.破解js加密算法+代理池+cookie池(2018年至今)

鉴于前面说的,每个点都要向百度服务器请求一次,所以百度指数经常出现不响应,或者错误。所以百度又进行了升级,这次是一个时间区间进行一次的数据传输,然后通过js加密数据方式,改变了一次已请求的方式,对其服务器的请求大为降低。同时也不再采用图片化的方式,整体来说抓取的难度应该有所下降。

原理:不再是每个时间点请求一次,此时大规模采集有了可能。但是需要解决几个问题:
(1)大批量采集,封锁IP问题。这需要用到了代理池,动态维护,并且加入校验,然后存入redis数据库,定于一定数量时候启动抓取,然后校验然后放入库里。当程序提取提示ip次数过多时候,切换代理ip并把旧的删除。
(2)封闭账号问题,和ip问题类似,构建账号cookie池。动态维护代理池,百度指数限制了每个账号每天的访问次数,过了第二条账号初始化,可以继续使用。
(3)构建B-S提取平台。前面提取工具的模式是C-S模式,安装过程繁琐,而且电脑配置环境不一样,不容易成功,所以想搭建一个网站前台。通过djago搭建了一个可视化平台。

图 提取参数设置图

网页端的参数设置和百度指数的参数基本一一对应。并且增加了发送到邮箱功能,把任务提交后,开始提取,采取的是异步处理方式,程序会在后台进行提取,等提取结束后,可以自动发送到指定邮箱,而且也可以在网站后台下载数据。

图 数据管理页面图
http://www.datasharehome.com/bdindex/order/
目前平台在测试阶段,欢迎共同探讨、批评指正。

百度指数批量抓取导出提取的工具开发历程相关推荐

  1. python爬关键词百度指数_Python 抓取指定关键词的百度指数

    百度指数很多时候在我们做项目的时候会很有帮助,从搜索引擎的流量端给到我们一些帮助,比如:家具行业的销量跟"装修","新房","二手房"等关键 ...

  2. 百度指数数据抓取Python+selenuim+OpenCV(三)

    可能有些人没有接触过机器学习的内容,但是我所用的是比较简单的最近邻算法,而且特征表达方式也是基于网上某位大牛的特征表达方式,比较简单,感兴趣的可以换其他方法,但就我目前实验数据表明,百度指数的数据用该 ...

  3. 百度站长资源平台自动批量抓取诊断工具(站长站群seo工具)

    背景 百度站长资源平台抓取诊断功能提供了如下说明: 抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容和预期是否一致. 每个站点每周可使用70次,抓取结果只展现百度蜘蛛可 ...

  4. 百度网站抓取诊断自动提交工具

    一.百度网站抓取诊断 百度站长如何抓取诊断网站? 具体操作流程: 1.登录百度站长平台 2.搜索服务>抓取诊断(可以根据pc端和mobile端的百度蜘蛛进行选择抓取进行提交) 3.输入网站的某u ...

  5. 百度指数-批量查询器。收费!!!?还是自己来吧。

    园子里的高手们,在园里潜水2年多了,今天出来透透气.这也是第二篇往首页推的东西,发个自制小工具帖,高手们就见笑了~~ 昨天,老大让我采集一些数据.然后,在那些数据里面找出百度指数比较高的,做专题.40 ...

  6. Hibernate框架--学习笔记(下):hibernate的查询方式、多表查询、检索策略、批量抓取

    一.hibernate的查询方式: 主要有五种:对象导航查询:OID查询:hql查询:QBC查询:本地sql查询. 1.对象导航查询:根据id查询某个客户,再查询这个客户里面所有的联系人. 2.OID ...

  7. 笨笨图片批量抓取下载 V0.2 beta[C# | WinForm | 正则表达式 | HttpWebRequest | Async异步编程]...

    一.     先贴一张图,这个界面就是程序的主界面了: 二.     部分代码说明(主要讲解异步分析和下载): 异步分析下载采取的策略是同时分析同时下载,即未等待数据全部分析完毕就开始把已经分析出来的 ...

  8. Python利用bs4批量抓取网页图片并下载保存至本地

    Python利用bs4批量抓取网页图片并下载保存至本地 使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...

  9. python爬取新浪微博数据中心_Python爬虫框架Scrapy实战之批量抓取招聘信息

    网络爬虫抓取特定网站网页的html数据,但是一个网站有上千上万条数据,我们不可能知道网站网页的url地址,所以,要有个技巧去抓取网站的所有html页面.Scrapy是纯Python实现的爬虫框架,用户 ...

最新文章

  1. 浅谈对html css的理解,HTML+CSS入门 CSS选择器 、属性和值浅谈
  2. 在mac上配置cocos2d-x开发环境
  3. MOTO行货如此服务——服务的南北差异
  4. 只需0行代码 | 文科生也能画词云图!
  5. jzoj3833-平坦的折线【模型转换,LIS】
  6. 你如何摆平秋季问题皮肤
  7. postgresql 高可用 etcd + patroni 之六 callback bind vip
  8. XP下安装SQL2000企业版本(转载)
  9. 图片数字型的九九乘法表
  10. connect by prior id= pid start with id='1' 树结构查询
  11. 2021-08-06 MD5mysql 加密校验
  12. 重磅:达摩院医疗AI团队CVPR'20论文解读 | 凌云时刻
  13. 去除Android状态栏的广告推送
  14. 计算机论文周记200字通用,寒假周记200字(通用10篇)
  15. c语言 统计数量用count_C语言中count该怎么用
  16. 时间晶体,一种曾被认为是无法存在的物质,被创造出来了吗?
  17. 真假屏幕测试软件,四个小技巧,检测 iPhone 屏幕是否为原装屏
  18. c语言整点报时,C语言编写一个简单整点报时工具源代码
  19. SonicWALL 防火墙配置步骤
  20. hacksudo FOG

热门文章

  1. 计算机网络ping作用是什么,ping
  2. 金猪宝宝--IT人士如何为宝宝起名字
  3. ajax 原生js操作ajax
  4. 数理统计基本概念梳理
  5. 牛客网 - Ricky’s RealDan’s Ricky(博弈)
  6. 南工程信通院—18年信号与系统试卷(有答案与解析)
  7. python登录斗鱼_Python3自动登录web
  8. Hive窗口函数小结
  9. CAD图纸格式,DWG、DXF格式互转
  10. 矩阵分析与应用-18-Moore-Penrose逆矩阵02