先导入模块:

import requests
from lxml import etree# 此处必须加headers,不加则返回的页面与网页源代码不一致
header = {'Cookie': 'BIDUPSID=D99314F8A5E53EA50B85C37A0D96C400; PSTM=1576140470; HOSUPPORT=1; BAIDUID=490062CDE50C5B626A1882E6938F5EE7:FG=1; UBI=fi_PncwhpxZ%7ETaJc9oaTqIbsWBE38p5LUoO; H_WISE_SIDS=149390_148169_142018_148320_147088_147893_148867_148208_148875_148435_147279_148001_148823_147828_148439_148754_147890_146573_148524_147346_127969_147239_147351_147024_131953_146732_138426_145988_131423_144659_142209_147527_107311_149269_140312_146396_144966_149279_145607_148662_148345_148049_148749_147546_146053_148869_110085; MCITY=-131%3A; HOSUPPORT_BFESS=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; pplogid_BFESS=4262olGrh4bA0KVJ%2BhEixRGiLx8E%2B%2B%2FlsYrZ1z21%2BuY58eW%2FOkM3jLZkH843E9obSHAaoWXHmisIG1fW93Ig0dG9g2y7NVpEpnh6NRQpF8wmiJo%3D;pplogid=5537awLy1oSevWNkHr4Lz7C1fsWUtVYZZdx0rJKkaAmCX1eMtEjfaor2R1DB0I%2Bj89BQviWor0ElEE8HF%2Bd8mbRKA5fTGfpkTrv3KJZYlkGnHcQ%3D; BDSFRCVID=An_OJexroG3_iS6rKjsQEX1OKgKK0gOTDYLEOwXPsp3LGJLVN4vPEG0Pt_U-mEt-J8jwogKK0gOTH6KF_2uxOjjg8UtVJeC6EG0Ptf8g0M5; H_BDCLCKID_SF=tbkD_C-MfIvDqTrP-trf5DCShUFs-MuOB2Q-XPoO3KOrjf8CKxR8XPCkWaQ9B-biWbRM2MbgylRp8P3y0bb2DUA1y4vpWj3qLgTxoUJ2XMKVDq5mqfCWMR-ebPRiJPb9Qg-qahQ7tt5W8ncFbT7l5hKpbt-q0x-jLTnhVn0MBCK0hI0ljj82e5PVKgTa54cbb4o2WbCQtR6P8pcN2b5oQTtmMJ-qbfnBB2o4hIjvWb3vOIJTXpOUWfAkXpJvQnJjt2JxaqRCBDb-Vh5jDh3MBpQDhtoJexIO2jvy0hvctn3cShPCyUjrDRLbXU6BK5vPbNcZ0l8K3l02V-bIe-t2XjQhDNtDt60jfn3aQ5rtKRTffjrnhPF3Xl43XP6-hnjy3b7dBx8K-qv88PQHW5QcyP-UyN3MWh3RymJ42-39LPO2hpRjyxv4X60B0-oxJpOJXaILWl52HlFWj43vbURvD--g3-AqBM5dtjTO2bc_5KnlfMQ_bf--QfbQ0hOhqP-jBRIEoK0hJC-2bKvPKITD-tFO5eT22-usJerT2hcHMPoosIO3Mq--KxPqKU74XTo9WKviaKJjBMbUoqRHXnJi0btQDPvxBf7pBJnqbp5TtUJM_UKzhfoMqfTbMlJyKMnitIv9-pPKWhQrh459XP68bTkA5bjZKxtq3mkjbPbDfn028DKuDTtajj3QeaRabK6aKC5bL6rJabC3EJr3XU6q2bDeQNbdaltq-e3BQMjNyIjcOn3oyT3JXp0vWtv4WbbvLT7johRTWqR48CbC0MonDh83Bn_L2xQJHmLOBt3O5hvvhb3O3MA-yUKmDloOW-TB5bbPLUQF5l8-sq0x0bOte-bQXH_E5bj2qRFtoC8-3q; delPer=0; PSINO=1; BDRCVFR[X_XKQks0S63]=mk3SLVN4HKm; BDRCVFR[-pGxjrCMryR]=mk3SLVN4HKm; BDRCVFR[S4-dAuiWMmn]=I67x6TjHwwYf0; H_PS_PSSID=32288_1467_32359_32328_32046_32399_32429_32116_32089_26350_31639','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36','Referer': 'https://www.baidu.com/'
}#发起请求
html = requests.get('https://www.baidu.com/', headers=header)
html2 = html.content.decode('utf-8')
doc = etree.HTML(html2)# 此时responses是一个list[]
response = doc.xpath('//textarea [@id="hotsearch_data"]/text()')# 此时遍历response得到item(item为字典类型)
for item in response:# 通过key获取item的value----item2item2=eval(item).get("hotsearch")#此处需要用eval智能识别item的类型#item2也是一个list,再次遍历得到item3for item3 in item2:# item3也是字典类型,通过key('pure_title')得到valueprint(item3.get('pure_title'))

python爬虫--获取百度热榜相关推荐

  1. python爬虫获取百度贴吧内容

    python爬虫获取百度贴吧内容 python爬虫获取百度贴吧内容 *声明:本文仅供学习交流使用,请勿用于商业用途,违者后果自负.* python爬虫获取百度贴吧内容 博主是一个比较懒的人,不会按时更 ...

  2. Python 爬虫 - 获取百度关键字搜索内容

    Python 爬虫 获取百度关键字搜索内容 https://www.cnblogs.com/w0000/p/bd_search_page.html Github headers内的参数,仅有UA时,返 ...

  3. 用Python爬虫获取百度企业信用中企业基本信息!太厉害了!

    一.背景 希望根据企业名称查询其经纬度,所在的省份.城市等信息.直接将企业名称传给百度地图提供的API,得到的经纬度是非常不准确的,因此希望获取企业完整的地理位置,这样传给API后结果会更加准确.百度 ...

  4. python爬虫 知乎热榜、微博热搜并发送邮件至邮箱

    目录 爬取知乎热榜.微博热搜并发送邮件至邮箱 1.获取网页 1.1获取url 1.2构造headers 1.3代码 2.提取信息 2.1 XPath规则 2.2 定位到节点 2.3 提取标题和url ...

  5. python爬去百度搜索结果_python爬虫获取百度搜索结果的简单示例

    编程之家收集整理的这篇文章主要介绍了python爬虫获取百度搜索结果的简单示例,编程之家小编觉得挺不错的,现在分享给大家,也给大家做个参考. 感兴趣python爬虫获取百度搜索结果的简单示例的小伙伴, ...

  6. 【Python】爬虫获取微博热搜数据,response中文显示“\u7814\u7a76\u8bc1\u5b9e\u”

    问题描述 在爬虫获取微博热搜数据的时候,response中文出现了不便于理解的字段,截取如下: ......[{"title_sub":"\u7814\u7a76\u8b ...

  7. python Chrome + selenium自动化测试与python爬虫获取网页数据

    一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...

  8. python如何获取百度搜索结果的真实URL

    在公司中需要去抓取一些数据,就遇到了以下这些问题: 想通过爬虫获取百度搜索结果的原始链接.通过Firefox的HttpFox插件,发现在搜索结果的URL是加密过的,例如: http://www.bai ...

  9. python爬虫案例——百度贴吧数据采集

    全栈工程师开发手册 (作者:栾鹏) python教程全解 python爬虫案例--百度贴吧数据采集 通过python实现百度贴吧页面的内容采集是相对来说比较容易的,因为百度贴吧不需要登陆,不需要coo ...

  10. python爬虫获取网络图片

    python爬虫获取网络图片 记录一下利用爬虫获取网络图片 具体操作来自博客:Python 爬虫系列教程一爬取批量百度图片 我的编辑器是vscode,首先安装三个包 pip install Beaut ...

最新文章

  1. R使用深度学习LSTM构建时间序列预测模型
  2. 大流量高并发量网站的之解决方案
  3. Akka2使用探索1(Remoting)
  4. Oracle exp/imp导出导入工具的使用
  5. 数据结构进阶篇-跳表
  6. JavaScript级联国家地区
  7. 如何使用pandas正确读取带有中文的cvs文件
  8. 快速判断二叉树先序遍历 后序遍历
  9. DM 源码阅读系列文章(四)dump/load 全量同步的实现
  10. 2018年全国卷Ⅰ卷理科数学图片版
  11. 干货|手把手教你写单片机的结构体
  12. 图片格式转换怎么做?教你几招搞定图片格式转换
  13. icon图标制作与使用
  14. 【C/C++】STL详解
  15. [转载]关于太阳(卫星)天顶角,太阳高度角,太阳方位角的整理
  16. GBase 8a支持国产CPU,ARM CPU,华为泰山的鲲鹏(Kunpeng),曙光的海光(Hygon),申威(SW)
  17. 图像数据标准化与归一化
  18. 新唐单片机keil驱动问题
  19. 大数据在人际关系管理领域,主要有哪些价值优势?
  20. 你公司哪个部门是“老大”?

热门文章

  1. 电表芯片CS5460A调试心得
  2. youtube下载视屏和字幕办法
  3. 【手拉手 带你准备电赛】使用定时器中断更改PWM占空比
  4. 汉诺塔问题的总结(1)
  5. 矩阵分析与应用-1.8-广义逆矩阵
  6. java逻辑删除_MybatisPlus中的删除和逻辑删除及区别介绍
  7. 超简单通俗易懂的H桥电机驱动
  8. R语言使用median函数计算向量数据的中位数
  9. 一起谈.NET技术,走向ASP.NET架构设计——第二章:设计/ 测试/代码
  10. On Robust Capon Beamforming and Diagonal Loading