爬杜蕾斯官方微博,内容太刺激了吧
点击上方“AI算法与图像处理”,选择加"星标"或“置顶”
做积极的人,坚持自己的梦想
本文仅供娱乐
导语
Input Title
杜蕾斯的广告文案一直是业界翘楚,尤其是用诙谐的语句描写不可描述之事时的那种会心一笑,于是我就想知道,杜蕾斯这些年发了哪些有趣的广告。
本文参考的思路:https://www.cnblogs.com/dmyu/p/6034634.html
效果展示
Input Title
一共爬得原创微博1713条,图片551张:(这里虽然是爬取原创微博,但感觉算法的部分还是不太理想,图片的数量与预估的差很多,先留个坑,之后再填上)
杜蕾斯的微博文字
杜蕾斯的微博图片
爬虫思路
Input Title
讲讲爬虫的大概思路(具体看原文代码):
使用Chrome模拟手机登录微博,登录之后从Network中复制下自己的cookie
获得想要爬取对象的User ID
先从源码中找出该User的微博有多少页(H5没有页码的概念了,动态加载,爬起来会比较困难,但是我也没有搞清楚手机浏览微博页面的页码是如何存在的,再留个坑/(ㄒoㄒ)/~~)
为了防止被服务器拒绝爬虫,可以设定每爬取一部分页面,就休眠一分钟之类
用requests爬下每一页的源码,然后用BeatifulSoup来保存html并匹配关键标签如[href][a]等
文字部分可以直接保存为文档,而图片则可以先将图片的连接都存进文档中,然后再来下载其中的每一张图片
图片经常会有下载失败的情况,可以从日志或者自己再将失败的连接存下来继续下载
挑出一些微博文字和图片给大家看看
3: 好男人不会让等待的爱人心越来越慌,孤单单看不见性福回来的方向。关键时刻不要等套来,趁着@唯品会 打折备点货[doge]http://t.cn/Rm1Eub5
82: 每当有了你,我的身体就开始满血运行。
109: 《滑落》 晨间的露珠,从绿叶上滑落。滑过,不想滑落,我们是和它们反向的爱。
121: 你是我的 半截的诗 半截用心爱着 半截用肉体埋着 你是我的 半截的诗 不许别人更改一个字——海子
185: 我们珍视一切承载那些瞬间的物品。并将这些厚厚的爱,以最薄的方式呈现在#杜蕾斯AiR爱情薄物馆#。杜蕾斯官方微博的秒拍视频
227: 戊戌年,吉犬年,好运不止长长长长长长长长长长长一点[doge][doge][doge]
245: 如何让亲戚朋友不再问“什么时候谈对象”——不动声色地从钱包里拿出一枚“草莓味口香糖”[并不简单]
267: 今天没遇到也别着急,总有一天能遇到和自己严丝合缝的人。
377: 想把自己的全世界,零星地给你。想和你生活在一起,想于清晨和夜晚,在你的身体内起床,在你的身体内躺下。
391: 面对新的一天时,当胸口又有了烦人的空茫,只有爱人灼热的身体依偎在怀里,它才能被填满。
394: 契合的爱侣就像一个灵魂寓于两个身体,两个灵魂有着相匹配的思想,两颗心的跳动是一致的。而肉体的交融,是为了让灵魂相遇。
399: 没有你,我丢失了性欲、购物欲、随心所欲。
472: 喜欢你呐,是一件容易令人上瘾的事。
633: 不论天气,与你的每一日都适合翻云覆雨@墨迹天气 http://t.cn/RjdefZc
685: 你来人间一趟,务必要谈一次20来岁的爱情试试看。
692: 秋冬的早晨醒来总是口干舌燥,大概是欠吻。
1079: 我的被子很空,你什么时候来帮我填一下?@
1293: 我能想到最浪漫的事,就是和你在床上一起慢慢变老。
1549: 想和你做尽无聊之事,想在你身上虚度光阴。
1619: 如果等的人是你,迟一点出现也没关系,迟很多不行。
人工挑选的效率还是差,之后做实践的朋友们,可以考虑先过滤一下数据(例如:杜蕾斯有#话题#的博文一般都不是文案),将与粉丝的互动根据某条微博的评论数、点赞数等来判断这条微博的热度(有趣度)。
选一些杜蕾斯的图片:
总结
Input Title
总体上可以将某个微博主的文字和图片抓下来,但是组图没有做判断,页数的算法不够精准
微博API已经改变,需要换一种方式
爬虫过于频繁被服务器拒绝的问题要多加考虑,现在也有不少大牛在做这方面的工作
文字部分的处理比较容易,但图片的识别上(挑选更有趣的图片,貌似也能用评论和点赞数来挑选),额,还是之后再想了
可以用这个来分析一下自己关注的人的动态啥的
github链接:https://github.com/wenhengqiu/Python_Durex_Weibo/blob/master/durex_weibo.py
好文推荐:
《》
《》
《》
《》
《》
加群交流
扫码添加助手,可申请加入AI_study-目标检测交流群。一定要备注:目标检测+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡西),不根据格式申请,一律不通过。
喜欢就点个"在看"呗^_^
爬杜蕾斯官方微博,内容太刺激了吧相关推荐
- 如果你是杰士邦的微博运营人员,面对杜蕾斯官方微博,你会采取哪些运营措施?...
嘛,关注这个问题好久了,但是没有一个比较让我满意的回答,所以呢,我就来回答一下好了,如果回答的不好希望大家多多指教[ ]~( ̄▽ ̄)~* 如果你喜欢上了一个男生,但是有另一个比你优秀的女生和你争,那 ...
- 多协程爬取中大微博内容(以及转发数,点赞数,评论数)
这个是在之前的微博爬取(Python)–中大微博前100条微博内容以及评论转发点赞数目爬取 的并发版本 代码 import requests from gevent import monkey imp ...
- Python高级特性与网络爬虫(一):使用Ajax请求爬取用户微博内容和python多进程爬取用户图片
最近阅读了崔庆才写的<Python3网络爬虫开发实战>,系统地学习一下利用Python写网络爬虫.由于这本书出版时间是2018年,很多书中案例涉及的网站已经改版,基本上每个案例都需要自己再 ...
- 我去扒了杜蕾斯的微博
2019独角兽企业重金招聘Python工程师标准>>> 本篇来自编程教室学员 如果你一个微博控,一定领教过杜蕾斯官方微博的各种营销套路.那简直就是就是微博上的一股泥石流,让多少人一边 ...
- 论“蹭热点”,我只服“杜蕾斯”,盘点“杜蕾斯官方”曾蹭过的十大热点!
随着互联网的迅速发展,我们发现"蹭热点"的事儿屡见不鲜,今天我们就来聊聊"蹭热点"这个事儿. 首先,什么是热点呢? "热点"就是一定时间内具 ...
- 微博爬取(Python)--中大微博前100条微博内容以及评论转发点赞数目爬取
简述 微博的动态网络爬取是非常困难的,甚至于电脑版的微博爬取也是有这样的苦难的. 然后,有这样的一个解决方法,就是,下面的这个网站 https://m.weibo.cn/u/1892723783?ui ...
- python爬取微博指定内容_python3.5爬虫-爬取微博某博主微博内容
想要爬取某个博主的微博数据.在网络上寻找了很多关于爬取微博内容的教程,发现有些教程比较老旧了,已经无法再用,有些教程在我这里出现一些问题,比如爬取移动端的微博需要获取登陆cookie,而我的谷歌浏览器 ...
- python爬取微博用户的微博内容和图片
想保存自己喜欢的idol微博图片,但是一张张自己保存太慢,怎么办?想保存微博博主的所有表情包,怎么才能快速把这些表情包下载到本地呢?想分析某位博主的发博规律,要分析博主所有微博信息怎么做? 这就要用到 ...
- python爬取微博内容_Python 爬虫如何机器登录新浪微博并抓取内容?
最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...
最新文章
- 用Windows Live Writer在51CTO写博客(2018年2月24日更新)
- Javascript中匿名函数的多种调用方式
- mongodb 学习笔记 2 --- 修改器
- python knnsearch_sklearn之KNN详解+GridSearchCV使用方法
- EXT.NET复杂布局(四)——系统首页设计(下)
- 中文代码编写php,PHP开发网站代码编写规范
- 1.Kubernetes 简介
- Linux中vi的使用
- mysql 事务补偿_分布式事务之消息补偿解决方案
- c 语言鼠标钩子,鼠标钩子程序示例
- Vue学习之旅Part3:Vue的全局过滤器和私有过滤器
- 给定一个年月日,计算那天是星期几(数学)
- QQ小程序内测邀请码内部获取群
- 数据仓库系列4-维度表
- [源码解读]一文彻底搞懂Events模块
- Android 开发学习笔记:七大知识点板块汇总
- 汇编语言(一)-基础知识
- CCNA第三天(交换机)
- Scrapy爬取新浪微博用户信息、用户微博及其微博评论转发
- SAP:在互联网时代帮助企业夺回数据