具体代码如下:

import re
import requests
import jsondef get_html(url):  # 获取网页源代码try:response = requests.get(url)response.encoding = response.apparent_encodingif response.status_code == 200:html = response.textreturn htmlelse:print("连接异常!")except:print("获取失败!")def get_result(html):  # 答案# print(html)pattern1 = re.compile(r'<td class="first">.*?>(\d+)</span>', re.S)  # 获取排名rank = re.findall(pattern1, html)# print(rank)pattern2 = re.compile(r'<td class="keyword">.*?>(.*?)</a>', re.S)  # 获取keywordkeyword = re.findall(pattern2, html)# print(keyword)pattern3 = re.compile(r'<td class="last">.*?>(\d+)</span>', re.S)  # 获取流行指数last = re.findall(pattern3, html)# print(last)pattern4 = re.compile(r'<td class="keyword">.*?<a href="(.*?)"', re.S)  # 获取链接link = re.findall(pattern4, html)# print(link)result = {}for i in range(10):dict1 = {"关键字": keyword[i],"流行指数": last[i],"链接": link[i].replace('./detail?b=1&c=513&w','https://www.baidu.com/baidu?cl=3&tn=SE_baiduhomet8_jmjb7mjw&rsv_dl=fyb_top&fr=top1000&wd')}# print(dict1)result[rank[i]] = dict1  # 将排行作为外层键,dict1作为结果的值,构成一个大的字典便于查询return resultdef main():url = 'http://top.baidu.com/buzz?b=1&fr=topindex'html = get_html(url)result1 = get_result(html)result = json.dumps(result1, indent=4, ensure_ascii=False)  # 转json格式print(result)if __name__ == '__main__':main()

Python爬取百度热榜前十条数据相关推荐

  1. 【爬虫实战】Python 爬取起点热榜,再也不怕没有小说看了!

    最近看完一部小说<大奉打更人>,看得我热血沸腾.但是看完后,有选择困难症的我又不知道可以看什么了. 于是,我打算开发一个爬虫,爬取起点热榜. 一.导入所需库 我们使用 requests 来 ...

  2. 10行python代码爬取百度热榜

    百度热搜榜python爬虫,仅供学习交流 源码: import requests from bs4 import BeautifulSoupresponse = requests.get(" ...

  3. python爬取今日热榜数据到txt文件

    今日热榜:https://tophub.today/ 爬取数据及保存格式: 爬取后保存为.txt文件: 部分内容: 源码及注释: import requests from bs4 import Bea ...

  4. php采集百度热搜,python 爬取百度热搜

    ###导入模块 import requests from lxml import etree import requests,json ###网址 url="http://top.baidu ...

  5. python爬取微博热搜榜

    python爬取微博热搜榜 最近应我大学室友得需求,做了一个简单的爬虫案例,先给大家看一下程序运行效果 接下来就是贴出代码了,在这里我会做一些简单说明,对如刚入门的同学可能会有所帮助,这里使用的是py ...

  6. python爬取百度标题_Python爬取百度热搜和数据处理

    一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取百度热搜 2.主题式网络爬虫爬取的内容与数据特征分析:百度热搜排行,标题,热度 3.主题式网络爬虫设计方案概述:先搜索网站,查找数据并比对然后再 ...

  7. Python 爬取百度 搜索风云榜 新闻并 自动推送 到邮箱

    本文将使用Python爬取百度新闻搜索指数排名前50的新闻,并通过服务器运行,每天定时发送到指定邮箱. 先上代码: # -*- coding:utf-8 -*- import requests,os, ...

  8. java爬虫黑马百度云,Java爬虫小Demo java爬取百度风云榜数据

    Java爬虫小Demo java爬取百度风云榜数据 很简单的一个小例子,使用到了java的爬虫框架 jsoup ,一起啦看看实现的方法吧! 相关推荐:Python爬虫实战 python爬虫爬取百度风云 ...

  9. GoLang爬取今日热榜

    初学GO,边百度边瞎写,代码只爬取了IT相关的热榜. 热榜地址:https://tophub.today/c/developer 已经部署在个人服务器上,用php写了一个简单的接口. 接口地址:www ...

  10. python爬取豆瓣电影榜单

    python爬取豆瓣电影榜单 python爬取豆瓣电影榜单并保存到本地excel中,以后就不愁没片看了. 目标 确定我们想要抓取的电影的相关内容. 抓取豆瓣top250电影的排名.电影名.评价(总结很 ...

最新文章

  1. 防火墙 规则与链的分类
  2. tiny4412 编译并烧写系统
  3. Ubuntu安装sasquatch时执行./build.sh报错:--no-check-certificate
  4. 回弹强度记录表填写_混凝土回弹强度记录表格
  5. XshellXftpPortable Xshell,Xftp便携版绿色版下载
  6. 关于plsqldeveloper打开报错解决方法MSVCR71.dll is missing from your compute
  7. clojure语言_Clojure编程语言
  8. ElementUI、sass、若依后台管理系统踩坑 --> 项目打包后字体图标偶发性乱码
  9. ArcGIS中ERROR 999999报错Configuration RasterCommander ImageServer can not be started解决
  10. vscode——VScode 中 使用 comment translate翻译 插件
  11. Nature:给研究生的四条金玉良言;颜宁:写的真好,相见恨晚
  12. 联合查询分组取最新数据
  13. 台式计算机无法开机原因,电脑三五个月不开机,无法点亮屏幕怎么办?
  14. Arcgis Engine 面的创建和设置
  15. 讯飞语音——文字转换语音
  16. 内容为王时代的 “内容策略师”职位描述、角色和职责
  17. 信息系统项目管理师---第十一章项目风险管理历年考题
  18. 对比学习sass和stylus的常用功能
  19. 【最小生成树】P2259 Charmer--viv
  20. 【大数据AI人工智能】常见的归一化函数有哪些?分别用数学公式详细介绍

热门文章

  1. Asp.net网站使用HttpHandler实现图片防盗链功能
  2. 深度学习caffe:权值初始化
  3. Atitit 人脸识别 眼睛形态 attilax总结 可以按照大小来分类。。或者按照形态来分类 眼睛的类型、分类。包括杏眼,狐狸眼,铜铃眼,龙眼,丹凤眼和小鹿眼等等。 月牙眼 笑起来。。吊梢
  4. Atitit 大数据索引技术attilax总结 目录 1. 面临的问题 2 1.1. 找到太多数据 2 1.2. 不支持多字段搜索 2 1.3. 不支持模糊搜索 2 1.4. 聚合搜索 2 1.5
  5. Atiitt 管理方面的误区总结 attilax总结
  6. Atitit。木马病毒原理机密与概论以及防御
  7. atitit.词法分析原理 词法分析器 (Lexer)
  8. atitit.木马病毒webshell的原理and设计 java c# .net php.
  9. Atitit. 有限状态机 fsm 状态模式
  10. Atitit. 软件GUI按钮与仪表盘--web服务器区--获取apache配置文件路径 linux and apache的启动、停止、重启