利用Python获取新闻网页源代码

通过Requests库来尝试获取百度新闻的网页源代码

import requests
url = 'https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=阿里巴巴'
res = requests.get(url, headers=headers).text
print(res)
'''
输出结果为:
<html>
<head><script>location.replace(location.href.replace("https://","http://"));</script>
</head>
<body><noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>
</body>
</html>
'''

我们并没有获取真正的网页源代码,这是因为网站只认可浏览器发送的访问请求,不认可通过Python发送的访问请求,所以我们需要设置requests.get()中的headers参数,模拟浏览器的访问请求。headers参数提供的是网站访问者的信息,headers中的Users-Agent(用户代理)表示的是用什么浏览器访问的。
修改与结果如下:

import requests
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
url = 'https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=阿里巴巴'
res = requests.get(url, headers=headers).text
print(res)

这里的headers是一个字典,第一个元素的键名为‘User-Agent’,值为’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36’。
User-Agent表示的是访问网站的浏览器是那种浏览器。

方法:在浏览器的地址栏输入:about:version,即可查看用户代理,他就是User-Agent的值

然后每次用requests.get()访问网站时,加上headers=headers即可。

5 实战1—利用Python获取新闻网页源代码相关推荐

  1. 实战教程!利用Python获取数据,并在地图上批量标注

    我们想要在地图上批量标注某一类的大量点位,该怎么操作呢?没有它的坐标数据,就没有办法批量标注.今天给大家介绍下,来自图新地球用户王泽的原创教程--利用Python获取数据,并在地图上批量标注的方法! ...

  2. 利用python获取自己的qq群成员信息!

    利用python获取自己的qq群成员信息! 首先说明一下需要使用的工具以及技术:python3 + selenium ,如有兴趣可以加群交流噢 selenium安装方法:pip install sel ...

  3. 可转债代码交流第二期:利用Python获取集思录数据(改)

    上期内容讲解了宁稳网数据获取的方法(用于初步计算未上市可转债价格),具体方法参考第一期:可转债代码交流第一期:利用Python获取宁稳网数据(包含基本的环境搭建与Python编辑器安装方法) 本人并非 ...

  4. 一张图片就能追溯到你的位置!| 利用Python获取图片定位

    使用场景: 利用Python获取图片的位置信息 使用过程: 过程主要分为两大部分, 第一步:获取图片的经纬度: 第二步:利用高德API的逆地理编码,将经纬度识别成具体地址. 源码如下: import ...

  5. 利用 Python 获取余额宝历史收益数据

    最近想做一个关于用一些指数基金与余额宝组成的简单 风险-无风险 投资组合的实验计算,发现通达信之类的行情软件并没有提供完整的余额宝收益信息,如通达信仅有年化收益率的数据,并没有万份收益的数据.因此考虑 ...

  6. 在Linux上利用python获取本机ip

    下面介绍在Linux上利用python获取本机ip的方法. 经过网上调查, 发现大致有两种方法, 一种是调用shell脚本,另一种是利用python中的socket等模块来得到,下面是这两种方法的源码 ...

  7. NLP实战:利用Python理解、分析和生成文本 | 赠书

    导读:本文内容参考自<自然语言处理实战:利用Python理解.分析和生成文本>一书,由Hobson Lane等人所著. 本书是介绍自然语言处理(NLP)和深度学习的实战书.NLP已成为深度 ...

  8. python过去日期_利用python获取当前日期前后N天或N月日期的方法示例

    前言 最近因为工作原因,发现一个Python的时间组件,很好用分享出来!(忘记作者名字了,在这里先感谢了),下面话不多说,来一起看看详细的介绍吧. 示例代码: # -*- coding: utf-8 ...

  9. Python语言学习:利用python获取当前/上级/上上级目录路径(获取路径下的最后叶目录的文件名、合并两个不同路径下图片文件名等目录/路径案例、正确加载图片路径)之详细攻略

    Python语言学习:利用python获取当前/上级/上上级目录路径(获取路径下的最后叶目录的文件名.合并两个不同路径下图片文件名等目录/路径案例.正确加载图片路径)之详细攻略 目录 利用python ...

  10. python自动保存ping结果_利用python获取Ping结果示例代码

    前言 本文主要跟大家分享了关于利用python获取Ping结果的相关内容,分享出来供大家参考学习,下面话不多说,来一起看看详细的介绍吧. 示例代码: # -*- coding: utf-8 -*- i ...

最新文章

  1. 华为:憧憬6G,共同定义6G
  2. 广度优先搜索 BFS算法
  3. soft_argmax
  4. oracle10官网下载安装,oracle11g安装(win10)下载安装
  5. 为你整理了一份 Mysql 的学习笔记,建议收藏学习!
  6. hp 服务器 无线网卡,惠普HP 615 无线网卡驱动
  7. 关于MeScroll的下拉刷新,上拉加载的js框架的学习和使用
  8. sht20中写用户寄存器_SHT20 中文技术手册
  9. error: Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools“
  10. 【Unity】 HTFramework框架(三十九)UI的数据驱动模式,MVVM
  11. 怎么_如何制作h5页面?
  12. boss网人脸识别认证_老来网社保认证官网版app下载
  13. 了解阿克曼转向原理的作用
  14. mysql如何恢复单表_MySQL如何恢复单库或单表,以及可能遇到的坑
  15. spark开发及调优
  16. 树莓派--seafile搭建私人网盘
  17. 编程之美 - 中国象棋将帅问题
  18. kafka的Rebalance问题分析(续)
  19. 自动解压缩pcap中chunk编码和gzip压缩的数据
  20. Wetool 一款高效免费的微信社群管理工具,检查单向好友,自动回复、群发

热门文章

  1. 赠书 | 《网络威胁情报技术指南》
  2. Vimium --- 将你的Chrome变成Vim
  3. 如何使用BurpSuite(后续)
  4. QT概念详解及开发入门简介
  5. mac nmap 的下载
  6. Android L 的手机,安卓新系统Android L上手评测:改变很大
  7. GrabCut提取图像前景色MATLAB代码实现(含解释说明)
  8. Dash-基础显示组件学习之Bar(柱形图、条形图、柱状图)Python-Dash-Bar-可视化数据分析
  9. oracle io错误的是什么意思,磁盘IO错误 导致数据库故障一则
  10. 区块链研习 | 什么是IFO