首先介紹一下我們用360搜索派取城市排名前20。

我们爬取的网址:https://baike.so.com/doc/24368318-25185095.html

我们要爬取的内容:

html字段:

robots协议:

现在我们开始用python IDLE 爬取

import requests

r = requests.get("https://baike.so.com/doc/24368318-25185095.html")

r.status_code

r.text

结果分析,我们可以成功访问到该网页,但是得不到网页的结果。被360搜索识别,我们将headers修改。

输出有个小插曲,网页内容很多,我是想将前500个字符输出,第一次格式错了

import requests

headers = {

'Cookie':'OCSSID=4df0bjva6j7ejussu8al3eqo03',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'

'(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',

}

r = requests.get("https://baike.so.com/doc/24368318-25185095.html", headers = headers)

r.status_code

r.text

接着我们对需要的内容进行爬取,用(.find)方法找到我们内容位置,用(.children)下行遍历的方法对内容进行爬取,用(isinstance)方法对内容进行筛选:

import requests

from bs4 import BeautifulSoup

import bs4

headers = {

'Cookie':'OCSSID=4df0bjva6j7ejussu8al3eqo03',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'

'(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',

}

r = requests.get("https://baike.so.com/doc/24368318-25185095.html", headers = headers)

r.status_code

r.encoding = r.apparent_encoding

soup = BeautifulSoup(r.text, "html.parser")

for tr in soup.find('tbody').children:

if isinstance(tr, bs4.element.Tag):

tds = tr('td')

print([tds[0].string, tds[1].string, tds[2].string])

得到结果如下:

修改输出的数目,我们用Clist列表来存取所有城市的排名,将前20个输出代码如下:

import requests

from bs4 import BeautifulSoup

import bs4

Clist = list() #存所有城市的列表

headers = {

'Cookie':'OCSSID=4df0bjva6j7ejussu8al3eqo03',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'

'(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',

}

r = requests.get("https://baike.so.com/doc/24368318-25185095.html", headers = headers)

r.encoding = r.apparent_encoding #将html的编码解码为utf-8格式

soup = BeautifulSoup(r.text, "html.parser") #重新排版

for tr in soup.find('tbody').children: #将tbody标签的子列全部读取

if isinstance(tr, bs4.element.Tag): #筛选tb列表,将有内容的筛选出啦

tds = tr('td')

Clist.append([tds[0].string, tds[1].string, tds[2].string])

for i in range(21):

print(Clist[i])

最终结果:

到此这篇关于Python用requests库爬取返回为空的解决办法的文章就介绍到这了,更多相关Python requests返回为空内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

python获取网页json返回空_Python用requests库爬取返回为空的解决办法相关推荐

  1. python爬豆瓣电视剧_python requests库爬取豆瓣电视剧数据并保存到本地详解

    首先要做的就是去豆瓣网找对应的接口,这里就不赘述了,谷歌浏览器抓包即可,然后要做的就是分析返回的json数据的结构: https://movie.douban.com/j/search_subject ...

  2. python使用requests库爬取淘宝指定商品信息

    python使用requests库爬取淘宝指定商品信息 在搜索栏中输入商品 通过F12开发者工具抓包我们知道了商品信息的API,同时发现了商品数据都以json字符串的形式存储在返回的html内 解析u ...

  3. 用python爬取qq空间内容_利用Fiddler抓包和py的requests库爬取QQ空间说说内容并写入文件...

    [Python] 纯文本查看 复制代码#!C:\Program Files\Python36 python # -*- coding: UTF-8 -*- """ @au ...

  4. Python网络爬虫与信息提取(17)—— 题库爬取与整理+下载答案

    前言 上一节实现了题目的整理,没整理答案是不完整的,所以这一节加上答案的爬取. 上一节地址:Python网络爬虫与信息提取(16)-- 题库爬取与整理 效果 思路 爬答案有点难搞,像这种题库的答案都是 ...

  5. python获取网页文本框内容_python识别html主要文本框

    在抓取网页的时候只想抓取主要的文本框,例如 csdn 中的主要文本框为下图红色框: 抓取的思想是,利用 bs4 查找所有的 div,用正则筛选出每个 div 里面的中文,找到中文字数最多的 div 就 ...

  6. 利用python requests库爬取淘宝商品评论_python

    文章目录 一.起因 二.项目实现 1. 分析实现方式 2. 编码实现 3. 完整代码 三.思考与改进 一.起因 看到一篇文章,感觉自己可以动手试试 Python 不用selenium 带你高效爬取京东 ...

  7. python爬虫+网页点击事件+selenium模拟浏览器,爬取选股宝内容

    (一)PYTHON的安装(已安装,可跳过此步骤) 1.PYTHON下载 PYTHON官网:https://www.python.org/ 按照对应的系统下载,我这里是window系统,点击window ...

  8. python 循环 覆盖之前print内容_Python爬虫第二战---爬取500px图片

    前言: 如今的高速网络极大促进了信息的展示方式,高清图片,视频等成就了我们的视听盛宴.但是,我们获取到的图片或者视频可能是被压缩过的,所以总体上还是有点小瑕疵,今天呢,我给大家带来一篇使用Python ...

  9. 利用requests库爬取网页获取数据

    一.get请求 测试小例子: # 获取一个get请求,用get的方式直接访问网址 url = 'https://movie.douban.com/top250' response = requests ...

最新文章

  1. 程序员又背锅?美团外卖声明“杀熟会员”是技术原因,软件定位缓存导致配送费不准!网友:程序员太惨!...
  2. Bzoj2141: 排队
  3. mysql自定义序号_MySQL数据库之在mysql中给查询的结果添加序号列
  4. 暴力关闭Windows defender
  5. Django项目知识点(五)
  6. JVM类加载机制(ClassLoader)源码解析
  7. 【Flink】JobManager responsible for xx lost the leadership zk变动导致重启
  8. H264之sps解析分辨率
  9. 随机信号分析基础——例题篇(例题3.4)
  10. 基于java的超市管理系统设计(含源文件)
  11. 5-2本题要求对两个整数a和b,输出其中较大的数。
  12. 2021年美容师(初级)考试资料及美容师(初级)
  13. [概念]像素,分辨率
  14. 秉承极简美学设计:Polestar 2 登陆中国后会威胁到谁?
  15. 模拟Android多点触控
  16. Orkut 试用报告
  17. ipad的服务器是什么系统,ipad cellular版是什么意思 与WLAN版有什么区别
  18. 目标检测算法中ROI提取方法比较+源码分析
  19. Bentley-Ottmann算法:求N条线段的交点
  20. WIN32下C++如何简单方便的使用zip解压缩《Zip Utils - clean, elegant, simple, C++/win32》

热门文章

  1. 手机作为扩展屏——Xdisplay使用教程
  2. AC-DMIS 5.3叶片测量
  3. 数字逻辑手写实验报告
  4. 区块链DAPP开发入门课程(PHP版)
  5. 用计算机进行绘画教案,第二单元 计算机绘画教案.pdf
  6. 一个简单入门的Py笔记
  7. Linux----基本命令的使用(vi命令,查看文件内容,显示进程,切换用户等)
  8. 应急响应——Windows日志分析
  9. IATF-16949国际汽车供应链品质管理体系实战--(1) APQP
  10. 离散点连成曲线(三次样条插值)