python 异步爬取必应搜索结果
简单的通过异步来爬取必应搜索结果,速度非常可观。
通过用 aiohttp, asyncio这两个异步模块,再通过xpath来提取链接。
加个cookie可以防止爬虫被禁
import aiohttp
import asyncio
from lxml import etreeheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2','Accept-Encoding': 'gzip, deflate','Cookie': 'BAIDUID=1A6EF88EE4929836C761FB37A1303522:FG=1; BIDUPSID=1A6EF88EE4929836C761FB37A1303522; PSTM=1603199415; H_PS_PSSID=32755_1459_32877_7567_31253_32706_32231_7517_32117_32845_32761_26350; BD_UPN=13314752; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; delPer=0; BD_CK_SAM=1; PSINO=5; H_PS_645EC=e4bcE4275G3zWcvH2pxYG6R32rBxb5yuey8xcioaej8V7IaJRfEq4xp4iCo; COOKIE_SESSION=45294_0_2_5_0_2_0_1_0_2_3_0_0_0_0_0_0_0_1603244844%7C5%230_0_1603244844%7C1; BA_HECTOR=2gal2h2ga58025f1vs1fov5vf0k'}async def url():async with aiohttp.ClientSession() as session:for i in range(1,100):#通过for in来翻页url = 'https://cn.bing.com/search?q=site%3aedu.cn&go=%e6%90%9c%e7%b4%a2&qs=ds&first='+ str((i*10)-1) +'&FORM=PERE'try:async with session.get(url,headers = headers) as resp:r = await resp.text()a = etree.HTML(r)xpath = a.xpath('//*[@id="b_results"]/li/h2/a/@href')#提取url连接for i in xpath:print(i)except:print('无法连接')asyncio.run(url())
python 异步爬取必应搜索结果相关推荐
- python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...
- python爬虫爬取必应每日高清壁纸
python爬虫爬取必应每日高清壁纸 一.简介 二.使用的环境 三.网页分析 1.分析网页每一页url形式以及总页数 2.网页重要信息收集 3.在源码中寻找所需信息的位置 四.代码实现 五.运行爬虫 ...
- python爬取百度搜索_使用Python + requests爬取百度搜索页面
想学一下怎样用python爬取百度搜索页面,因为是第一次接触爬虫,遇到一些问题,把解决过程与大家分享一下 1.使用requests爬取网页 首先爬取百度主页www.baidu.com import r ...
- Python+Selenium — 爬取京东搜索商品页数据
用 request 下载京东搜索商品页面源码后,发现得到的数据只有30条,怀疑京东搜索页面加载方式应该是动态渲染的,所以打算采用 Selenium 驱动谷歌浏览器来爬取搜索页面. 代码如下: from ...
- 使用python异步爬取淘宝大量商品的价格,并生成excel文件
一个很简单的爬虫,但是由于request库不支持协程,如果要爬取多个页面的商品,会耗费大量的时间在同步网页请求上,简直就是龟速. 但是呢,官方专门提供了一个aiohttp库,用来实现异步网页请求等功能 ...
- python爬虫爬取百度搜索结果,Bob blog
前面一篇聊了一些基础的概念,在这篇里可以试一下基础的搜索和收集内容. 当我们在用百度搜索时,我们会看到很多相关的信息.于是我们可以用爬虫来帮助我们搜索和收集相关的信息. 比如我想查看百度收录的stac ...
- Python异步爬取知乎热榜
一.错误代码:摘要和详细的url获取不到 import asyncio from bs4 import BeautifulSoup import aiohttpheaders={'user-agent ...
- Python 爬取必应(壁纸+搜索词)
爬取必应壁纸 经常使用必应应该可以发现,其主页每天都会更新一张图片,这些图片很好看,希望每天能够下载收藏每张图片.具体请看这个网站:必应每日高清壁纸(https://bing.ioliu.cn/) 效 ...
- 【Python】爬取百度图片和必应图片
爬取百度图片 # -*- coding: utf-8 -*- """ Created on Sun Sep 13 21:32:25 2020 @author: ydc & ...
最新文章
- 流程图函数’怎么画_原来函数可以这么美!
- Android基础之Java接口
- 面试官:你说熟悉MySQL,那来谈谈InnoDB怎么解决幻读的?
- 神经网络与机器学习 笔记—泛化和交叉验证
- python字典按键值排序_Python字典『键 值』排序
- mootools系列:打造属于你自己的Popup(弹出框)——扩展功能篇
- ecos代码分析(1)
- 我的docker随笔32:sftp服务部署
- PHP7内核基础知识之变量类型
- H5本地储存Web Storage
- swift可选类型_Swift可选
- Eureka/Zookeeper/Consul三种注册中心的区别
- sql server中 设置与查看锁的超时时间(ZT) @@LOCK_TIMEOUT
- AE CS6安装教程说明
- 海康威视查询序列号 紫盘
- Crust Network 与京湘豫等地区块链名企、投资人考察广西区块链科创园
- web前端期末大作业:基于HTML+CSS+JavaScript学校教育主题-卡通风格在线职业教育网页设计 (14页)
- 双十二适合买什么东西,这些数码好物清单可以码住
- 合宙AIR32F103CBT6刷回CMSIS-DAP固件和DAP升级固件以及刷ST-LINK V2-1固件方法
- 【深度学习】Keras自建神经网络模型实现133种狗的种类识别(记录笔记)