python+按键精灵实现百度指数数据爬取

百度指数本身已经很好用了，但是如果进行二次整理，需要把原始数据采集下来就不是那么方便了。网页的请求只有一次，
需要的具体数据随鼠标的移动变化，所以，常规的requests请求网页，解析网页并不能满足需求，感觉可以使用selenium模拟完成鼠标移动，
进而获取数据，但是还没进行实际测试，检查网页源代码，感觉事情并没有那么简单，只好先选择另外一种，比较笨的方法。
实测在数据量不大的情况下，效果显著。

主要步骤

原始数据存在于class="index-trend-chart"的div里，随鼠标移动数据变化，所以只要模拟鼠标的移动动作，然后复制这个div的内容。
选择工具实现上一步的想法，这里使用的按键精灵，这个软件(姑且叫它软件了)需要根据自己电脑的屏幕情况具体操作，
(x,y)表示指数数据第一天的屏幕坐标，(x1,y1)表示class="index-trend-chart"div的屏幕坐标，x右移的步长值需要自己测试。
代码如下：
```
x = 63
y = 639
x1 = 1287
y1= 609For 365
MoveTo x, y
Delay 100
MoveTo x1, y1
LeftClick 1
RightClick 1
MoveTo x1+90, y1+96
Delay 100
LeftClick 1
MoveTo x1+264, y1+184
Delay 100
LeftClick 1
t = Plugin.Sys.GetCLB()
Call Plugin.File.WriteFileEx("F:\python.txt",t)
Delay 100
x=x+3
Next
```

解析上一步获取的outHtml内容文件。解析方法有很多，使用BeautifulSoup解析即可。写入表格文件中，

from bs4 import BeautifulSoup
import csv
f = open("python.txt")
txt = f.read()soup = BeautifulSoup(txt,"lxml")
cf = open("data.csv",'wt',newline='',encoding='utf-8')
w = csv.writer(cf)
daily = soup.findAll("div",{"class":"index-trend-chart"})
for i in daily:d = i.findAll('div',{'style':'color: #999;'})data = i.findAll('div',{'style':'margin: 6px 0;'})for u in data:row = u.get_text().split('\n\xa0\xa0')row.append(d[0].get_text().split(' ')[0])print(row)w.writerow(row)cf.close()

经验总结

虽然看起来不是很优雅，但不管黑猫白猫，能捉到老鼠就是好猫，一年365组数据400毫秒一次，大概3分钟不到，也不存在对付反爬措施，获取小批量数据的需求还是可以采用的。
原文地址
附：按键精灵资料参考.

python+按键精灵实现百度指数数据爬取相关推荐

6.9 用Python操控数据库（批量删除，百度新闻数据爬取与存储，写入数据时进行去重处理，pandas读取sql数据）
学习完MySQL数据库的基本操作后,下面来学习如何用Python连接数据库,并进行数据的插入.查找.删除等操作. 6.9.1 用PyMySQL库操控数据库上一节在phpMyAdmin 中创建了数据库 ...
Python爬虫《自动化学报》数据爬取与数据分析
Python爬虫<自动化学报>数据爬取与数据分析文章目录 Python爬虫<自动化学报>数据爬取与数据分析前言一.代码二.结果展示三.爬虫实现 1.准备 2.获取网页 ...
【自然语言处理概述】百度百科数据爬取
[自然语言处理概述]百度百科数据爬取作者简介:在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建设专家委员会(TIPC ...
Python爬虫-CSDN博客排行榜数据爬取
文章目录前言网络爬虫搜索引擎爬虫应用谨防违法爬虫实战网页分析编写代码运行效果反爬技术前言开始接触 CTF 网络安全比赛发现不会写 Python 脚本的话简直寸步难行--故丢弃 ...
python爬虫，g-mark网站图片数据爬取及补坑
应用python对g-mark网站图片数据爬取,同时但对于数据抓取失败的图片进行补坑(重新爬取操作),由于是日本网站,没有梯子访问的话,特别容易访问超时,比较合适的补坑操作是直接将数据采集到数据库,而 ...
java爬虫实现百度地图数据爬取
本次项目主要实现百度地图地点检索功能的数据爬取,可以获得检索的相关信息.主要是采用百度地图API接口实现,采用的是servlet,数据库采用的是mybatis.话不多说,上代码. 1.DAO层数据 p ...
用python爬取指定数据流量是几点_使用python进行微信宜出行人流量数据爬取
写在前面由于宜出行的登录策略更新,导致无法使用qq登录直接爬取人流量的问题,近期进行了代码升级,已经解决了该问题,并且能顺利爬取数据,示例如下.目前暂不提供源代码,如有需要宜出行数据,可联系:917 ...
（python爬虫）新浪新闻数据爬取与清洗+新浪新闻数据管理系统+MySQL
新浪新闻数据爬取与清洗+新浪新闻数据管理系统设计要求新浪新闻数据爬取与清洗基本要求:完成新浪新闻排行中文章的数据爬取,包括标题.媒体.时间.内容. 进阶要求:对最近一周出现次数最多的关键字排名并 ...
Python网络爬虫实战1：百度新闻数据爬取
目录一. 获取网页源代码 1. 四行代码获取(有时不灵) 2. 五行代码获取(常用方法) 二.分析网页源代码信息方法1:F12方法方法2:右击选择"查看网页源代码" 方法 ...

python+按键精灵实现百度指数数据爬取

主要步骤

经验总结

python+按键精灵实现百度指数数据爬取相关推荐

最新文章

热门文章