简单的通过异步来爬取必应搜索结果,速度非常可观。
通过用 aiohttp, asyncio这两个异步模块,再通过xpath来提取链接。
加个cookie可以防止爬虫被禁

import aiohttp
import asyncio
from lxml import etreeheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2','Accept-Encoding': 'gzip, deflate','Cookie': 'BAIDUID=1A6EF88EE4929836C761FB37A1303522:FG=1; BIDUPSID=1A6EF88EE4929836C761FB37A1303522; PSTM=1603199415; H_PS_PSSID=32755_1459_32877_7567_31253_32706_32231_7517_32117_32845_32761_26350; BD_UPN=13314752; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; delPer=0; BD_CK_SAM=1; PSINO=5; H_PS_645EC=e4bcE4275G3zWcvH2pxYG6R32rBxb5yuey8xcioaej8V7IaJRfEq4xp4iCo; COOKIE_SESSION=45294_0_2_5_0_2_0_1_0_2_3_0_0_0_0_0_0_0_1603244844%7C5%230_0_1603244844%7C1; BA_HECTOR=2gal2h2ga58025f1vs1fov5vf0k'}async def url():async with aiohttp.ClientSession() as session:for i in range(1,100):#通过for in来翻页url = 'https://cn.bing.com/search?q=site%3aedu.cn&go=%e6%90%9c%e7%b4%a2&qs=ds&first='+ str((i*10)-1) +'&FORM=PERE'try:async with session.get(url,headers = headers) as resp:r = await resp.text()a = etree.HTML(r)xpath = a.xpath('//*[@id="b_results"]/li/h2/a/@href')#提取url连接for i in xpath:print(i)except:print('无法连接')asyncio.run(url())

python 异步爬取必应搜索结果相关推荐

  1. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  2. python爬虫爬取必应每日高清壁纸

    python爬虫爬取必应每日高清壁纸 一.简介 二.使用的环境 三.网页分析 1.分析网页每一页url形式以及总页数 2.网页重要信息收集 3.在源码中寻找所需信息的位置 四.代码实现 五.运行爬虫 ...

  3. python爬取百度搜索_使用Python + requests爬取百度搜索页面

    想学一下怎样用python爬取百度搜索页面,因为是第一次接触爬虫,遇到一些问题,把解决过程与大家分享一下 1.使用requests爬取网页 首先爬取百度主页www.baidu.com import r ...

  4. Python+Selenium — 爬取京东搜索商品页数据

    用 request 下载京东搜索商品页面源码后,发现得到的数据只有30条,怀疑京东搜索页面加载方式应该是动态渲染的,所以打算采用 Selenium 驱动谷歌浏览器来爬取搜索页面. 代码如下: from ...

  5. 使用python异步爬取淘宝大量商品的价格,并生成excel文件

    一个很简单的爬虫,但是由于request库不支持协程,如果要爬取多个页面的商品,会耗费大量的时间在同步网页请求上,简直就是龟速. 但是呢,官方专门提供了一个aiohttp库,用来实现异步网页请求等功能 ...

  6. python爬虫爬取百度搜索结果,Bob blog

    前面一篇聊了一些基础的概念,在这篇里可以试一下基础的搜索和收集内容. 当我们在用百度搜索时,我们会看到很多相关的信息.于是我们可以用爬虫来帮助我们搜索和收集相关的信息. 比如我想查看百度收录的stac ...

  7. Python异步爬取知乎热榜

    一.错误代码:摘要和详细的url获取不到 import asyncio from bs4 import BeautifulSoup import aiohttpheaders={'user-agent ...

  8. Python 爬取必应(壁纸+搜索词)

    爬取必应壁纸 经常使用必应应该可以发现,其主页每天都会更新一张图片,这些图片很好看,希望每天能够下载收藏每张图片.具体请看这个网站:必应每日高清壁纸(https://bing.ioliu.cn/) 效 ...

  9. 【Python】爬取百度图片和必应图片

    爬取百度图片 # -*- coding: utf-8 -*- """ Created on Sun Sep 13 21:32:25 2020 @author: ydc & ...

最新文章

  1. 流程图函数’怎么画_原来函数可以这么美!
  2. Android基础之Java接口
  3. 面试官:你说熟悉MySQL,那来谈谈InnoDB怎么解决幻读的?
  4. 神经网络与机器学习 笔记—泛化和交叉验证
  5. python字典按键值排序_Python字典『键 值』排序
  6. mootools系列:打造属于你自己的Popup(弹出框)——扩展功能篇
  7. ecos代码分析(1)
  8. 我的docker随笔32:sftp服务部署
  9. PHP7内核基础知识之变量类型
  10. H5本地储存Web Storage
  11. swift可选类型_Swift可选
  12. Eureka/Zookeeper/Consul三种注册中心的区别
  13. sql server中 设置与查看锁的超时时间(ZT) @@LOCK_TIMEOUT
  14. AE CS6安装教程说明
  15. 海康威视查询序列号 紫盘
  16. Crust Network 与京湘豫等地区块链名企、投资人考察广西区块链科创园
  17. web前端期末大作业:基于HTML+CSS+JavaScript学校教育主题-卡通风格在线职业教育网页设计 (14页)
  18. 双十二适合买什么东西,这些数码好物清单可以码住
  19. 合宙AIR32F103CBT6刷回CMSIS-DAP固件和DAP升级固件以及刷ST-LINK V2-1固件方法
  20. 【深度学习】Keras自建神经网络模型实现133种狗的种类识别(记录笔记)

热门文章

  1. 使用神经网络识别手写数字
  2. Java生成与解析二维码
  3. Win7 SMTP 服务器代替工具
  4. 什么是5G聚合路由器?
  5. LOJ #10155. 「一本通 5.2 例 3」数字转换
  6. 2022全国视力防控展,中国爱眼教育大会
  7. 2020年中国废旧纺织品回收行业市场现状分析,高值化再生技术持续推进「图」
  8. iOS 15增加更多新的小组件
  9. dockerError processing tar file(exit status 1): no space left on device
  10. 学数据结构,是不是一定要先学离散数学