python 异步爬取必应搜索结果

简单的通过异步来爬取必应搜索结果，速度非常可观。
通过用 aiohttp， asyncio这两个异步模块，再通过xpath来提取链接。
加个cookie可以防止爬虫被禁

import aiohttp
import asyncio
from lxml import etreeheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2','Accept-Encoding': 'gzip, deflate','Cookie': 'BAIDUID=1A6EF88EE4929836C761FB37A1303522:FG=1; BIDUPSID=1A6EF88EE4929836C761FB37A1303522; PSTM=1603199415; H_PS_PSSID=32755_1459_32877_7567_31253_32706_32231_7517_32117_32845_32761_26350; BD_UPN=13314752; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; delPer=0; BD_CK_SAM=1; PSINO=5; H_PS_645EC=e4bcE4275G3zWcvH2pxYG6R32rBxb5yuey8xcioaej8V7IaJRfEq4xp4iCo; COOKIE_SESSION=45294_0_2_5_0_2_0_1_0_2_3_0_0_0_0_0_0_0_1603244844%7C5%230_0_1603244844%7C1; BA_HECTOR=2gal2h2ga58025f1vs1fov5vf0k'}async def url():async with aiohttp.ClientSession() as session:for i in range(1,100):#通过for in来翻页url = 'https://cn.bing.com/search?q=site%3aedu.cn&go=%e6%90%9c%e7%b4%a2&qs=ds&first='+ str((i*10)-1) +'&FORM=PERE'try:async with session.get(url,headers = headers) as resp:r = await resp.text()a = etree.HTML(r)xpath = a.xpath('//*[@id="b_results"]/li/h2/a/@href')#提取url连接for i in xpath:print(i)except:print('无法连接')asyncio.run(url())

python 异步爬取必应搜索结果相关推荐

python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下搜索引擎用的很频繁,现在利用Python爬 ...
python爬虫爬取必应每日高清壁纸
python爬虫爬取必应每日高清壁纸一.简介二.使用的环境三.网页分析 1.分析网页每一页url形式以及总页数 2.网页重要信息收集 3.在源码中寻找所需信息的位置四.代码实现五.运行爬虫 ...
python爬取百度搜索_使用Python + requests爬取百度搜索页面
想学一下怎样用python爬取百度搜索页面,因为是第一次接触爬虫,遇到一些问题,把解决过程与大家分享一下 1.使用requests爬取网页首先爬取百度主页www.baidu.com import r ...
Python+Selenium — 爬取京东搜索商品页数据
用 request 下载京东搜索商品页面源码后,发现得到的数据只有30条,怀疑京东搜索页面加载方式应该是动态渲染的,所以打算采用 Selenium 驱动谷歌浏览器来爬取搜索页面. 代码如下: from ...
使用python异步爬取淘宝大量商品的价格，并生成excel文件
一个很简单的爬虫,但是由于request库不支持协程,如果要爬取多个页面的商品,会耗费大量的时间在同步网页请求上,简直就是龟速. 但是呢,官方专门提供了一个aiohttp库,用来实现异步网页请求等功能 ...
python爬虫爬取百度搜索结果,Bob blog
前面一篇聊了一些基础的概念,在这篇里可以试一下基础的搜索和收集内容. 当我们在用百度搜索时,我们会看到很多相关的信息.于是我们可以用爬虫来帮助我们搜索和收集相关的信息. 比如我想查看百度收录的stac ...
Python异步爬取知乎热榜
一.错误代码:摘要和详细的url获取不到 import asyncio from bs4 import BeautifulSoup import aiohttpheaders={'user-agent ...
Python 爬取必应（壁纸+搜索词）
爬取必应壁纸经常使用必应应该可以发现,其主页每天都会更新一张图片,这些图片很好看,希望每天能够下载收藏每张图片.具体请看这个网站:必应每日高清壁纸(https://bing.ioliu.cn/) 效 ...
【Python】爬取百度图片和必应图片
爬取百度图片 # -*- coding: utf-8 -*- """ Created on Sun Sep 13 21:32:25 2020 @author: ydc & ...

python 异步爬取必应搜索结果

python 异步爬取必应搜索结果相关推荐

最新文章

热门文章