上上上上代码!!!

import requests
import re
url='https://tieba.baidu.com/f?ie=utf-8&kw=%E7%BA%A6%E4%BC%9A%E5%90%A7&fr=search'
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36","Cookie":"BAIDUID=6E1E9D510CA3FBB723B4EE4B2846E36D:FG=1; BIDUPSID=6E1E9D510CA3FBB723B4EE4B2846E36D; PSTM=1604713571; __yjs_duid=1_71a81f938ba8293e48830352dd0ec1c91616484293272; delPer=0; BAIDUID_BFESS=6E1E9D510CA3FBB723B4EE4B2846E36D:FG=1; ZD_ENTRY=empty; BDRCVFR[VBH4JnM-Vd0]=OjjlczwSj8nXy4Grjf8mvqV; BDRCVFR[-Cxg3mV_4Yc]=OjjlczwSj8nXy4Grjf8mvqV; BDRCVFR[S4-dAuiWMmn]=oPlYXH5bwdffjfsnjcsPWnLg1NxUvNV; H_PS_PSSID=; PSINO=6; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; BCLID=7766680461769038651; BDSFRCVID=mFkOJexroG38-O6eDzJq8nxEf2KK0gOTDYLEOwXPsp3LGJLVN4vPEG0Pt_U-mEt-J8jwogKK0gOTH6KF_2uxOjjg8UtVJeC6EG0Ptf8g0M5; H_BDCLCKID_SF=tbkD_C-MfIvDqTrP-trf5DCShUFsK4PjB2Q-XPoO3K8WKqACbfO05hcbhl74KjjiWbRM2MbgylRp8P3y0bb2DUA1y4vpWj3qLgTxoUJ2XMKVDq5mqfCWMR-ebPRiJPb9Qg-qahQ7tt5W8ncFbT7l5hKpbt-q0x-jLTnhVn0MBCK0hI0ljj82e5PVKgTa54cbb4o2WbCQJUod8pcN2b5oQTJbqtPqKx3EWDuOWtnN5DovOIJTXpOUWfAkXpJvQnJjt2JxaqRCBDb-Vh5jDh3MBpQDhtoJexIO2jvy0hvctn3cShPCyUjrDRLbXU6BK5vPbNcZ0l8K3l02V-bIe-t2XjQhDNtDt60jfn3aQ5rtKRTffjrnhPF335LFXP6-hnjy3bAOslAK5lb0ORD9hR7pb6DUyN3MWh3RymJ42-39LPO2hpRjyxv4X60B0-oxJpOJXaILWl52HlFWj43vbURvD--g3-AqBM5dtjTO2bc_5KnlfMQ_bf--QfbQ0hOhqP-jBRIEoK0hJC-2bKvPKITD-tFO5eT22-us2a5i2hcHMPoosI89qfP-bf0hyG-O2Jv45JriaKJjBMbUoqRHXnJi0btQDPvxBf7pBJnqbp5TtUJM_UKzhfoMqfTbMlJyKMnitIv9-pPKWhQrh459XP68bTkA5bjZKxtq3mkjbPbDfn028DKuDTtajj3QeaRabK6aKC5bL6rJabC3DqQcXU6q2bDeQN-Oex4q5mnEatDyatnpeCooyT3JXp0vWtv4WbbvLT7johRTWqR48CbC0MonDh83Bn_L2xQJHmLOBt3O5hvvhb3O3MA-yUKmDloOW-TB5bbPLUQF5l8-sq0x0bOte-bQXH_E5bj2qRFtoCP53D; BCLID_BFESS=7766680461769038651; BDSFRCVID_BFESS=mFkOJexroG38-O6eDzJq8nxEf2KK0gOTDYLEOwXPsp3LGJLVN4vPEG0Pt_U-mEt-J8jwogKK0gOTH6KF_2uxOjjg8UtVJeC6EG0Ptf8g0M5; H_BDCLCKID_SF_BFESS=tbkD_C-MfIvDqTrP-trf5DCShUFsK4PjB2Q-XPoO3K8WKqACbfO05hcbhl74KjjiWbRM2MbgylRp8P3y0bb2DUA1y4vpWj3qLgTxoUJ2XMKVDq5mqfCWMR-ebPRiJPb9Qg-qahQ7tt5W8ncFbT7l5hKpbt-q0x-jLTnhVn0MBCK0hI0ljj82e5PVKgTa54cbb4o2WbCQJUod8pcN2b5oQTJbqtPqKx3EWDuOWtnN5DovOIJTXpOUWfAkXpJvQnJjt2JxaqRCBDb-Vh5jDh3MBpQDhtoJexIO2jvy0hvctn3cShPCyUjrDRLbXU6BK5vPbNcZ0l8K3l02V-bIe-t2XjQhDNtDt60jfn3aQ5rtKRTffjrnhPF335LFXP6-hnjy3bAOslAK5lb0ORD9hR7pb6DUyN3MWh3RymJ42-39LPO2hpRjyxv4X60B0-oxJpOJXaILWl52HlFWj43vbURvD--g3-AqBM5dtjTO2bc_5KnlfMQ_bf--QfbQ0hOhqP-jBRIEoK0hJC-2bKvPKITD-tFO5eT22-us2a5i2hcHMPoosI89qfP-bf0hyG-O2Jv45JriaKJjBMbUoqRHXnJi0btQDPvxBf7pBJnqbp5TtUJM_UKzhfoMqfTbMlJyKMnitIv9-pPKWhQrh459XP68bTkA5bjZKxtq3mkjbPbDfn028DKuDTtajj3QeaRabK6aKC5bL6rJabC3DqQcXU6q2bDeQN-Oex4q5mnEatDyatnpeCooyT3JXp0vWtv4WbbvLT7johRTWqR48CbC0MonDh83Bn_L2xQJHmLOBt3O5hvvhb3O3MA-yUKmDloOW-TB5bbPLUQF5l8-sq0x0bOte-bQXH_E5bj2qRFtoCP53D; BA_HECTOR=2h80ag2k8g0ka105i81g68aah0q; Hm_lvt_98b9d8c2fd6608d564bf2ac2ae642948=1617176934; video_bubble0=1; st_key_id=17; wise_device=0; bdshare_firstime=1617176967061; ab_sr=1.0.0_YmFkN2M5YWU0OTEyNjFjY2M3YjM0M2MzYzAzOTU0ZjIxYjFmOGE3ZTZiYmY3YzU1MTgxNjVmNDliYzJkNWEyNWJlZDRlNDUzY2E1NDRiZTExNGJhMjJkMmZjN2NlNWFm; st_data=949b8c92cf211096345a9675813f6de106935a586d973c2ca12ea6c84fed19e4a43772e96ef1f44a72a7c937eeb652f42cf3a354f68d0c5a5d8c767e40914e94c4b04cd821c9f740b4dd68b25670a2c2a6a1a463f1fe160bbb9cbc207bc525a2c5ebbec87d53a0dbac77da4a29dd264e0c180d682a8db9634479cb68bea7e52c; st_sign=962299d6; tb_as_data=24619e9904415ee30a754e4988fcc09074228a15c3493fdd21f4798c2bf0bed9a309bab873e058eb59b6180818a86dd373e3147f35ec975f89dfbf713673443c97ff444a44534fb22ad287357bb3bfbc137972cd62192a2d6800c63e2e669bd0eadd94eeb6586165777101ec3cafad1a; Hm_lpvt_98b9d8c2fd6608d564bf2ac2ae642948=1617178212"
}
html_data=requests.get(url=url,headers=headers).text
findurl = re.compile(r'<a rel="noreferrer" href="(.*?)" title=".*" target=".*" class=".*">.*</a>')
urls=re.findall(findurl,html_data)
second_url="https://tieba.baidu.com/"
for i in urls:all_url=second_url+isecond_resp=requests.get(url=all_url,headers=headers).textsecond_url_url=re.compile(r'<img class=".*" src="(.*?)" size=".*" changedsize=".*" width=".*" height=".*">')picture_url=re.findall(second_url_url,second_resp)for img in picture_url:res = requests.get(img, headers=headers)res.encoding = 'utf-8'# 二进制文件html = res.content# 写入本地文件TP = img[-12:]with open(TP, 'wb') as f:f.write(html)print("%s下载成功" % TP)

爬虫代码虽短,坑却很多。实现步骤就不写了,主要把坑说一下
第一:百度贴吧的反爬机制主要是UA伪装和cookie
没有cookie一定不会返回网页源代码(本人亲测,以后管他需不需要cookie,先给她安排上)
第二:正则解析
最开始我用的xpath,虽然源代码可以在控制台打印出来,但是无论如何都解析不出来想要的内容,于是用正则一下就解析出来了。
第三:网址的拼接,这个需要一丢丢基础,一般就是有手就行。
第四:图片,视频,音频是以二进制形式储存的。所以这里需要把图片转成二进制。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210331234856280.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpd

爬虫实例十 爬取百度贴吧小姐姐照片相关推荐

  1. Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片

    Python爬虫:运用多线程.IP代理模块爬取百度图片上小姐姐的图片 1.爬取输入类型的图片数量(用于给用户提示) 使用过百度图片的读者会发现,在搜索栏上输入关键词之后,会显示出搜索的结果,小编想大多 ...

  2. Python爬虫实战:爬取YY上漂亮小姐姐视频

    目录 1.目标 2.确定数据所在的url 3.发送网络请求 4.数据解析 5.数据保存 6.爬取其他页数据 1.目标 本次目标是爬取YY(https://www.yy.com/)主页分类中小视频板块, ...

  3. 爬虫实例1:爬取百度热搜风云榜 前50条热搜 并将热搜发送至自己邮箱

    1-利用requests库以及xpath 获取百度热搜风云榜的字段 如:标题title 热搜url url = 'http://top.baidu.com/buzz?b=1&fr=topind ...

  4. Python爬虫实战之爬取百度贴吧帖子

    Python爬虫实战之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 对百度贴吧的 ...

  5. 2021-02-27爬虫实例(爬取照片)以虎牙为例

    爬虫实例(爬取照片)以虎牙为例 开始之前点赞,投币加关注哦 开发环境:Python3.7 开发软件:PyCharm Edu 第一步:导入第三方库(模块) # 导入第三方库 import request ...

  6. Python爬虫系列之爬取某优选微信小程序全国店铺商品数据

    Python爬虫系列之爬取某优选微信小程序全国商品数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码 代码仅 ...

  7. Python爬取不羞涩网小姐姐图片——BeautifulSoup应用

    引言 今年提倡原地过年,相信很多朋友都没有回家过年,像我就被迫留在深圳过年了,无聊之余只能去看看电影爬爬山.今天给大家带来一个打发无聊时光的案例,用Python爬取不羞涩网小姐姐图片,并保存到本地,老 ...

  8. 写一个爬虫,可以爬取百度文库内容

    爬取百度文库内容需要使用爬虫技术.以下是一个简单的 Python 爬虫示例: import requestsurl ="https://wenku.baidu.com/view/your_d ...

  9. 百度贴吧界面html程序代码,python爬虫例题:爬取百度贴吧评论区图片和视频

    百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到评论区的图片想下载呢?或者看到一段视频想进行下载呢? 今天,本期Python教程带大家通过搜索关键字来获取评论区的图片和视频. [二.项目目 ...

  10. python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片

    当我们想要获取百度图片的时候,面对一张张图片,一次次的点击右键下载十分麻烦.python爬虫可以实现批量下载,根据我们下载网站位置.图片位置.图片下载数量.图片下载位置等需求进行批量下载,本文演示py ...

最新文章

  1. 谷歌无人车离奇车祸曝光:人类安全员睡着后,误触关闭了自动驾驶
  2. Linux下升级python2.4-python2.7
  3. Java 异常处理的 9 个最佳实践 1
  4. 触摸屏中文软件_八招轻松搞定西门子软件安装!
  5. Django层级模型定义及序列化嵌套的方法
  6. 2011斯坦福大学iOS应用开发教程学习笔记(第二课)My First iOS App
  7. 大数据 vr csdn_VR中的数据可视化如何革命化科学
  8. abb变频器正反转切换参数_变频器自动节能功能与电动机正反转图解
  9. Introduce Local Extension
  10. HMM隐马尔科夫模型及股票预测
  11. 站群php自动地图,Discuz自动采集-DZ站群系统自动更新-Discuz站群管理系统
  12. CSP-J/S2020游记
  13. 爬虫实例 8684公交网-太原公交线路信息
  14. day 0150面向对象-成员
  15. C# 读取和输出asc文件
  16. 当年谷歌为什么退出中国?
  17. 现代软件工程讲义 2 工程师的能力评估和发展
  18. 【EMC专题】电磁辐射的危害
  19. [Eureka集群] 在linux上部署SpringCloudEureka的集群服务端(Dalston.SR5版本)
  20. FLASH按钮链接网页

热门文章

  1. HDU 5183 Negative and Positive (NP) (hashmap+YY)
  2. 机器学习:LibSVM与weka在eclipse中的使用
  3. Windows Server 2012 AD DS环境下域用户自动加入本地管理员组
  4. WCF-006:服务端类的封装问题
  5. 12.企业安全建设指南(金融行业安全架构与技术实践) --- 移动应用安全
  6. 8.Linux性能诊断 --- 浅谈基于数据分析的网络态势感知
  7. 7.GitLab 创建 merge request
  8. 3.GitLab 用户管理
  9. 2. PHP 自动转义函数
  10. extjs 学习自我理解