本实战项目是中国大学MOOC国家精品课程《Python网络爬虫与信息提取》(by 嵩天 北京理工大学)学习笔记。代码段均可在ide中运行by now(2021-12-01).

1.爬取目标

爬取的是百度/360搜索某个关键词返回的页面信息。

首先看一下百度请求数据的url长下面这样,这里搜索的是关键词字符串是‘Python’。

360搜索关键词'Python'的url及返回是下面这样的:

2.爬取链接

百度搜索url:     http://www.baidu.com/s

360搜索url:      http://www.so.com/s

3.技术路线

继续深入了解requests方法的参数,在上一讲headers参数上又增加新参数‘params’的使用。

上一讲地址:

Python爬虫实战之二:requests-爬取亚马逊商品详情页面_miracle2me的专栏-CSDN博客

本讲关键方法:requests.get(url,headers,params)

参数解释:

url:需要爬取的网址

headers:以键值对形式传入浏览器的user-agent

params:参数,针对本项目需要传入的请求关键词

4.全代码及输出

百度搜索代码

# 百度搜索全代码
# 全代码
url ='http://www.baidu.com/s'
keyword ='Python'
kv = {'wd':keyword}
try:headers ={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3878.400 QQBrowser/10.8.4518.400'}r= requests.get(url,headers = headers,params = kv)r.raise_for_status()r.encoding= r.apparent_encodingprint(r.text[:2000])
except:print('爬取失败')

百度关键词爬取结果

上图左边是使用爬虫爬取的网页文本,右边是网页源代码文件,结果一致,爬取成功。

360搜索代码

# 360搜索全代码
# 全代码
url ='http://www.so.com/s'
keyword ='Python'
kv = {'q':keyword}
try:headers ={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3878.400 QQBrowser/10.8.4518.400'}r= requests.get(url,headers = headers,params = kv)r.raise_for_status()r.encoding= r.apparent_encodingprint(r.text[:2000])
except:print('爬取失败')

360关键词爬取结果

上图左为爬虫爬取结果,右为网页源代码,结果一致,爬取成功。

5.总结

本案例在实战案例二基础上增加了'params'参数的应用。params传入的是一个键值对,键名各平台可能有差异,如百度搜索传入键值对形式是{'wd':keyword},360搜索键值对形式为{'q':keyword}。

Python爬虫实战之三:requests-百度/360搜索关键词提交相关推荐

  1. 百度/360搜索关键词提交

    import requests key="python" kv={'wd':key} url="http://www.baidu.com/s try: r=request ...

  2. Python爬虫实战,requests模块,爬虫采集网易财经股票交易数据

    前言 本文给大家分享的是如何通过Python爬虫采集网易财经易数据 开发工具 Python版本: 3.8 相关模块: requests模块 parsel模块 环境搭建 安装Python并添加到环境变量 ...

  3. Python爬虫实战,requests+parsel模块,爬取二手房房源信息数据

    前言 最近在尝试用Python爬虫二手房房源信息数据,在这里给需要的小伙伴们提供代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本 ...

  4. Python爬虫实战,requests+re模块,Python实现爬取豆瓣电影《魔女2》影评

    前言 闭关几个月,今天为大家带来利用Python爬虫抓取豆瓣电影<魔女2>影评,废话不多说. 爬取了6月7月25的影片数据,Let's start happily 开发工具 Python版 ...

  5. python爬虫实战——自动下载百度图片(文末附源码)

    用Python制作一个下载图片神器 前言 这个想法是怎么来的? 很简单,就是不想一张一张的下载图片,嫌太慢. 在很久很久以前,我比较喜欢收集各种动漫的壁纸,作为一个漫迷,自然是能收集多少就收集多少.小 ...

  6. Python爬虫实战,requests+tqdm模块,爬取漫画数据(附源码)

    前言 今天给大家介绍的是Python爬取漫画数据,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本数据爬取 ...

  7. Python爬虫实战,requests+openpyxl模块,爬取手机商品信息数据(附源码)

    前言 今天给大家介绍的是Python爬取手机商品信息数据,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本 ...

  8. Python爬虫实战,requests+openpyxl模块,爬取小说数据并保存txt文档(附源码)

    前言 今天给大家介绍的是Python爬取小说数据并保存txt文档,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样 ...

  9. #私藏项目实操分享#Python爬虫实战,requests模块,Python实现爬取网站漫画

    前言 今天带大家爬取爬取网站漫画,废话不多说,直接开始~ 开发工具 Python版本:3.6.4 相关模块: requests模块: re模块: shutil模块: 以及一些Python自带的模块. ...

  10. python爬虫实战——运用requests批量下载qq音乐

    python -qq音乐爬取 在学习一段时间后,在视频的讲解下,觉得自己掌握的不错,就开始了这一次的qq音乐的爬取,在爬取的过程中发现了很多问题.知识点掌握的不够,知识点掌握的不熟,例如:正则表达式的 ...

最新文章

  1. 英伟达新核弹GPU:4nm制程800亿晶体管,20张即可承载全球互联网流量,全新Hopper架构太炸了...
  2. 启动VIP报CRS-1028/CRS-0223致使VIP状态为UNKNOWN故障分析与解决
  3. JMeter学习(六)集合点
  4. webuploader结合php实现图片上传到本地和保存数据库
  5. stackoverflow_Stackoverflow:您尚未发现的7个最佳Java答案
  6. 深入Istio架构和功能--理解数据面/控制面/流量管理/安全/可观察性
  7. MongoDB Cursor Methods
  8. 《HTML 5与CSS 3 权威指南(第3版·上册)》——1.2 HTML 5深受欢迎的理由
  9. Cartographer源码阅读(4):Node和MapBuilder对象2
  10. Octave GNU默认配置文件位置
  11. 真香警告!java时间格式转换工具
  12. win7局域网共享设置_win7局域网共享,教你在智能电视上看win7系统电脑资源
  13. 中文繁体与简体字转换
  14. ubuntu编辑只读文件_Ubuntu linux vim 修改只读文件 修改Apache2端口号 ports.conf
  15. 笔记本外接显示器鼠标卡顿、显示器掉帧解决办法
  16. Linux中write命令------实现用户间信息传递
  17. python 学习分享之简单的播放音乐1(playsound)
  18. mysql 轨迹数据存储_中移物联网在车联网场景的 TiDB 探索和实现
  19. 基于人工智能视觉芯的高速公路交通事故预警预测方案
  20. OpenJudge NOI 1.5 编程基础之循环控制(21-30题)C++ 解题思路

热门文章

  1. 腾讯统一播放器 API 文档2.0
  2. 修改xshell的配色方案
  3. Python堆糖网图片爬虫,多进程及多线程的使用例子
  4. 新的计算机的wifi连接无线网络连接,如何设置电脑优先连接无线WIFI网络
  5. 如何区分网线是几类的_如何判断网线是几类线?
  6. 四川民办高校计算机专业排名2015,2015中国民办大学最佳专业排行榜10强
  7. 2022年中国大学排行榜出炉~
  8. tooltips使用教程(鼠标悬停时显示提示)
  9. oracle性能调优之--Oracle 10g AWR 配置
  10. 基于Android的医院预下单叫号排队系统