前不久为了在群里斗图,想多搜集点表情包学习了一下python爬虫,搜集了一万多张吧。下载太多,完全不知道有什么图,还是斗不过!!!!!

今天又想爬取百度的搜索结果,本人还是小白,怕忘记记录一下,望大神赐教指正

同样是以爬取图片为例,还很简陋,没什么实用价值
手机百度搜索和PC的搜索爬取有些不一样,主要是html不一样

1、首先获取百度搜索页面的html代码,一定要记得设置User-Agent

 # 获取指定地址的html的代码def getHtml(url):try:headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Language': 'zh-CN,zh;q=0.8'}req = urllib.request.Request(url, None, headers, None, False)response = urllib.request.urlopen(req)html = response.read()return htmlexcept AttributeError as e:return None

2、得到html以后当然是遍历每条搜索结果,得到对应的站点地址集合

# 获取PC百度搜索的每条地址def getPCItemUrl(html):urls = []try:bsObj = BeautifulSoup(html)bq = bsObj.find('div', {'id': 'content_left'}).findAll('h3', {'class': 't'})for uu in bq:bsO = BeautifulSoup(uu.encode('utf-8'))urll = bsO.findAll('a')urls.append(urll[0]['href'])return urlsexcept AttributeError as e:return []

3、得到地址数组以后只要在得到指定地址的html然后去获取里面的指定信息即可

# 开始遍历网站地址,得到图片
def getImage(urls):if urls == None:returnget_html = GetHtml.GetHtmln = 0for url in urls:getImg = GetImg.GetImg# 获取页面的htmlone_html = get_html.getHtml(url)# 得到对应地址里的图片地址集合images = getImg.getImgs(one_html)i = 0for img in images:src = img['src']print(src)endname = src[-4:]if endname[-3:] in img_ends:endname = endnameelse:endname = endname + '.jpg'endname = endname.replace('?', '')# str[-3:]  # 截取倒数第三位到结尾getImg.SaveImg(str(n) + str(i) + 'img' + endname, src)i += 1n += 1

这里只是我的一点思路,只能得到少量图片

4、`# 保存图片
def SaveImg(filename, url):
print(filename)
try:
response = urllib.request.urlopen(url)
cat_img = response.read()
with open(filename, ‘wb’) as f:
f.write(cat_img)
except urllib.error.HTTPError as reason:
print(reason)

# 获取图片地址(jpg|gif|png|bmp)
def getImgs(html):try:bsObj = BeautifulSoup(html)bq = bsObj.findAll('img', {'src': re.compile('http[/:A-Za-z0-9\.]+\.(jpg|gif|png|bmp)')})return bqexcept AttributeError as e:return None`

个人感觉爬取手机百度会更容易些

pyhon3爬取百度搜索结果相关推荐

  1. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  2. HttpClient 实现爬取百度搜索结果(自动翻页)

    如果你对HttpClient还不是很了解,建议先移步我的另一篇博客HttpClient4.x之请求示例后再来看这篇博客.我们这里的项目采用maven搭建.在阅读前要对jdk和maven有一定的了解.另 ...

  3. 【爬虫】爬取百度搜索结果页面

    今日看了一下爬虫,写了一个爬取百度搜索页面的小程序.可以在代码中改动搜索词,代码如下: #coding=utf-8 #python version:2.7 #author:sharpdeepimpor ...

  4. python爬取百度搜索_使用Python + requests爬取百度搜索页面

    想学一下怎样用python爬取百度搜索页面,因为是第一次接触爬虫,遇到一些问题,把解决过程与大家分享一下 1.使用requests爬取网页 首先爬取百度主页www.baidu.com import r ...

  5. python爬取百度搜索_Python-Scrapy抓取百度数据并分析

    抓取智联招聘和百度搜索的数据并进行分析,使用visual studio编写代码mongodb和SQLServer存储数据.使用scrapy框架结合 selenium爬取百度搜索数据,并进行简要的数据的 ...

  6. NLP 获取相似词 - 1.爬取百度搜索结果

    视频链接:https://www.bilibili.com/video/av78674056 一,前言 NLP实际项目要用到,给定一个词,找出它的同义词.相似词.拓展词等. 我思考了下,有: 1,同义 ...

  7. python 爬取百度搜索结果url

    简单的爬取百度搜索结果url 先用了requests库来访问百度,再通过xpath来提取搜索后的结果 import requests from lxml import etreefor i in ra ...

  8. Python爬取百度搜索的标题和真实URL的代码和详细解析

    网页爬取主要的是对网页内容进行分析,这是进行数据爬取的先决条件,因此博客主要对爬取思路进行下解析,自学的小伙伴们可以一起来学习,有什么不足也可以指出,都是在自学Ing,回归正题今天我们要来爬取百度搜索 ...

  9. python爬取百度域名注册_python爬取百度域名_python爬取百度搜索結果url匯總

    寫了兩篇之后,我覺得關於爬蟲,重點還是分析過程 分析些什么呢: 1)首先明確自己要爬取的目標 比如這次我們需要爬取的是使用百度搜索之后所有出來的url結果 2)分析手動進行的獲取目標的過程,以便以程序 ...

最新文章

  1. 【游戏开发备注之二】配置Xcode版本控制SVN详细步骤内含部分问题解决方案
  2. python处理teradata数据库_Teradata数据库——你需要了解的基础知识
  3. 【Party】现在只是一张普通的照片,以后可能就是历史。
  4. 在ASP.NET使用javascript的一点小技巧
  5. SQL基础教程第五章笔记
  6. vgh电压高了有什么_智能变频电源的功能是什么?
  7. 掼蛋游戏WEB版——PHP后台实现源码
  8. oracle补零 (转)
  9. 《javascript高级程序设计》第八章 The Browser Object Model
  10. php获取视频大小代码怎么写,利用php获得flv视频长度的实例代码
  11. Django 学习笔记(五) --- Ajax 传输数据
  12. 北京交通大学第六届新生程序设计竞赛题解
  13. Android-jsoup爬虫
  14. 企业信息化基础设施建设分析
  15. 安装mysql时一直卡在starting the server这一位置,解决办法
  16. 【Simulink专题】Simulink模型设置(三):代码生成
  17. windows操作系统基础总结
  18. win10输入法经常自动添加 英语(美国)键盘
  19. SYSCALL_DEFINE详解
  20. oracle bpm 二次开发,Oracle BPM Suite产品详细说明

热门文章

  1. 易语言突破百度云防护
  2. Android系统手机为什么卡?
  3. 移动互联网需求革命:由“生理需求”到“自我实现”
  4. 帮我写一篇向女孩子表白的情书
  5. 借WS2812 PWM DMA驱动调试浅谈STM32调试思路
  6. 网红释一刀考察潮汕特色美食土虾
  7. utools01-分享一个极简的多功能高效率工作神器
  8. API Gateway/API 网关(三) - Kong的使用 - 限流rate limiting(redis)
  9. 最新域名防红程序源码 采用小Q防红
  10. 磁珠 符号_(整理)贴片磁珠规格.