由于是第一次写作可能代码风格比较丑而且语言表达不好,各位看官请见谅.

下面进入正题临时接到一个任务爬取企查查的网络热词,并且要定时更新. 下面是要爬取的网页内容.

image

之前有写过这个页面的解析代码,但是事件过的太久已经找不到了.有点难受,不过这个页面没有反爬.话不多说直接上代码

url ='https://www.qichacha.com/cms_topsearch'

ht = requests.get(url=url,headers=headers)

et = etree.HTML(ht.text)

uls = et.xpath('//ul[@class="list-group topsearch-list"][1]/a')

# jinri热搜

for ulin uls[:51]:

type_ ='今日热搜'

search_num = ul.xpath('./span[last()]/text()')[0]

company = ul.xpath('./span[last()-1]/text()')[0]

company_url ='https://www.qichacha.com' + ul.xpath('./@href')[0]

date =str(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())))

print(company, search_num, company_url, date)

cursor = conn.cursor()

sql ='insert into top_search(type_,company,search_num,company_url,sj_time) values(%r,%r,%r,%r,%r)' % (

type_, company, search_num, company_url, date)

cursor.execute(sql)

conn.commit()

uls = et.xpath('//ul[@class="list-group topsearch-list"][1]/a')

# 一周热搜

for ulin uls[51:101]:

type_ ='一周热搜'

search_num = ul.xpath('./span[last()]/text()')[0]

company = ul.xpath('./span[last()-1]/text()')[0]

company_url ='https://www.qichacha.com' + ul.xpath('./@href')[0]

date =str(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())))

print(company, search_num, company_url, date)

cursor = conn.cursor()

sql ='insert into top_search(type_,company,search_num,company_url,sj_time) values(%r,%r,%r,%r,%r)' % (

type_, company, search_num, company_url, date)

cursor.execute(sql)

conn.commit()

uls = et.xpath('//ul[@class="list-group topsearch-list"][1]/a')

# 一月热搜

for ulin uls[101:]:

type_ ='一月热搜'

search_num = ul.xpath('./span[last()]/text()')[0]

company = ul.xpath('./span[last()-1]/text()')[0]

company_url ='https://www.qichacha.com' + ul.xpath('./@href')[0]

date =str(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())))

print(company, search_num, company_url, date)

cursor = conn.cursor()

sql ='insert into top_search(type_,company,search_num,company_url,sj_time) values(%r,%r,%r,%r,%r)' % (

type_, company, search_num, company_url, date)

cursor.execute(sql)

conn.commit()

页面解析比较简单,毕竟新手熟悉下流程

然后就是改成定时任务,我用的是python内置库 schedule

schedule.every(1).minutes.do(job)

schedule.every().hour.do(job)

schedule.every().day.at("10:30").do(job)

schedule.every(5).to(10).days.do(job)

schedule.every().monday.do(job)

schedule.every().wednesday.at("13:15").do(job)

每隔1分钟执行一次任务

每隔一小时执行一次任务

每天的10:30执行一次任务

每隔5到10天执行一次任务

每周一的这个时候执行一次任务

每周三13:15执行一次任务

def seach():

schedule.every(20).seconds.do(qcc_reci)

while True:

schedule.run_pending()

time.sleep(1)

seach()

run_pending:运行所有可以运行的任务

第一次写简书,很多格式不会用.....

java企查查爬_爬取企查查热搜相关推荐

  1. python热搜排行功能_简单几行代码用Python爬取微博的热搜榜

    简单几行代码用Python爬取微博的热搜榜 想要实时的看微博热搜 但是又不想去微博网站看!怎么办呢?其实很简单! 我们学了这个requests_html 这个库之后 就更加的简单了! 小编只用了短短的 ...

  2. 爬取微博实时热搜数据可视化分析

    文章目录 爬取微博实时热搜数据可视化分析 一.爬取数据 1.1 Spider主要函数 1.2 根据微博一分钟更新一次的状态进行爬虫 二.可视化 2.1 利用轮播图加柱状图进行可视化 爬取微博实时热搜数 ...

  3. 爬虫实例3:Python实时爬取新浪热搜榜

    因为了解到新浪热搜榜每分钟都会更新,所以写的是每分钟爬取一次的死循环,按照日期为格式创建路径,将 爬取的信息按照时间顺序 输出到excel. 步骤: 1.在浏览器中,用F12分析热搜榜页面的html标 ...

  4. python 爬取微博实时热搜,并存入数据库实例

    刚学python没几天,打算用paython爬去微博热搜数据试验一下,但是发现微博热搜是动态数据,网页源码并不能直接获取想要的数据,network里也并不能找到相关内容,这时重新查看网页源码,发现有类 ...

  5. 小白快速体验之爬虫抓取新浪热搜

    首先要有一些准备工作,当然前提是需要了解一下python的基础知识. 安装所需要的语言环境和工具: 1.python 我使用的是python3.6.5版本 2.三方库 requests 安装命令:pi ...

  6. python爬取知乎热搜_python爬取知乎

    大小: 1.59M 文件类型: .zip 金币: 1 下载: 0 次 发布日期: 2021-01-30 资源简介 此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用 ...

  7. java点到直线距离_求取点到直线的距离

    问题描述: 已知点P(px,py),直线L(P1,P2),求点P到L的距离. 首先,推导直线公式: 点$$P_1(x_1,y_1)$$, 点$$P_2(x_2,y_2)$$ 可知直线方程为: $$x( ...

  8. python爬取知乎热搜_python爬取知乎评论

    原博文 2020-03-14 11:29 − 点击评论,出现异步加载的请求 import json import requests from lxml import etree from time i ...

  9. 【Python】我用python爬取一月份微博热搜数据来分析人们对新型肺炎的关注程度变化

    2020年1月23日,睡醒一觉,发现新型肺炎的影响正在以肉眼可见的速度扩散,已经放假的我只能宅在家里,不敢随便外出.实在闲得无聊,我便拿起了技术人的工具,利用python,用数据来简单分析一波新型肺炎 ...

最新文章

  1. 【MDCC 2015】开源选型之Android三大图片缓存原理、特性对比
  2. Exception raised during rendering: java.lang.System.arraycopy([CI[CII)V
  3. java ee cdi_Java EE CDI依赖注入(@Inject)教程
  4. 6月份Github上最热门的Java开源项目!
  5. 商城前后端原型、商城prd文档、商城后台管理系统、商城app文档、电商需求文档、限时秒杀、电商平台、促销助力、拼团抽奖、电商文档、prd文档、电商前后端原型、电商原型、Axure电商系统、rp原型
  6. oracle往游标中存数据,Oracle数据库:ORACLE11G在存储过程里面遍历游标
  7. 机器学习基础(二十五)—— Feature Selection
  8. 鸟哥的 linux 的私房菜 基础学习篇,鸟哥的 Linux 私房菜 -- 基础学习篇
  9. c语言中用梯形法求定积分
  10. HC05蓝牙模块 修改密码 返回 ERROR:(1D)解决办法
  11. html 怎么布局ui,移动端UI快速布局解决方案AUI
  12. python读取stl文件三维坐标_python vtk 读取三维raw数据存为stl
  13. 计算机编程玫瑰花,c语言实现玫瑰花的方法
  14. RocketMQ重试策略及与Springboot整合
  15. Licheepi_nano开发板:根文件系统编译
  16. 七牛报错error: Error Domain=NSCocoaErrorDomain Code=256 “未能打开该文件。
  17. Hoeffding不等式
  18. 小明用计算机计算,小明计算器官方PC版
  19. 抖音最后一面,问我Java 是如何实现线程间通信的?
  20. 安卓系统能运行 linux,重磅!安卓系统竟能运行PC软件,实测效果令人惊在当场!...

热门文章

  1. mac 下安装 tomcat7
  2. CUDA out of memory. Tried to allocate 150.00 MiB (GPU 0; 4.00 GiB total capacity; 2.24 GiB already a
  3. HTML中字体和字体图标的应用
  4. 数据可视化(三)基于 Graphviz 实现程序化绘图
  5. 使用mac的加速办法
  6. 科创人·StreamNative翟佳:开源模式价值为王,基础软件的未来在国内社区
  7. 邮箱怎么登录网页版,你知道吗
  8. 夫妻卖盲盒、年入16亿,揭秘泡泡玛特的暴利生意
  9. (多方法)彻底解决MAC终端[进程已完成]的“死机”现象
  10. 计算机图形学方向的基本能力