点击上方“AI算法与图像处理”,选择加"星标"或“置顶”

做积极的人,坚持自己的梦想

本文转载自:恒仔,https://zhuanlan.zhihu.com/p/35920573

本文仅供娱乐

导语

Input Title

杜蕾斯的广告文案一直是业界翘楚,尤其是用诙谐的语句描写不可描述之事时的那种会心一笑,于是我就想知道,杜蕾斯这些年发了哪些有趣的广告。

本文参考的思路:https://www.cnblogs.com/dmyu/p/6034634.html

效果展示

Input Title

一共爬得原创微博1713条,图片551张:(这里虽然是爬取原创微博,但感觉算法的部分还是不太理想,图片的数量与预估的差很多,先留个坑,之后再填上)

杜蕾斯的微博文字

杜蕾斯的微博图片

爬虫思路

Input Title

讲讲爬虫的大概思路(具体看原文代码):

  • 使用Chrome模拟手机登录微博,登录之后从Network中复制下自己的cookie

  • 获得想要爬取对象的User ID

  • 先从源码中找出该User的微博有多少页(H5没有页码的概念了,动态加载,爬起来会比较困难,但是我也没有搞清楚手机浏览微博页面的页码是如何存在的,再留个坑/(ㄒoㄒ)/~~)

  • 为了防止被服务器拒绝爬虫,可以设定每爬取一部分页面,就休眠一分钟之类

  • 用requests爬下每一页的源码,然后用BeatifulSoup来保存html并匹配关键标签如[href][a]等

  • 文字部分可以直接保存为文档,而图片则可以先将图片的连接都存进文档中,然后再来下载其中的每一张图片

  • 图片经常会有下载失败的情况,可以从日志或者自己再将失败的连接存下来继续下载

挑出一些微博文字和图片给大家看看

3: 好男人不会让等待的爱人心越来越慌,孤单单看不见性福回来的方向。关键时刻不要等套来,趁着@唯品会 打折备点货[doge]http://t.cn/Rm1Eub5
82: 每当有了你,我的身体就开始满血运行。
109: 《滑落》 晨间的露珠,从绿叶上滑落。滑过,不想滑落,我们是和它们反向的爱。
121: 你是我的 半截的诗 半截用心爱着 半截用肉体埋着 你是我的 半截的诗 不许别人更改一个字——海子
185: 我们珍视一切承载那些瞬间的物品。并将这些厚厚的爱,以最薄的方式呈现在#杜蕾斯AiR爱情薄物馆#。杜蕾斯官方微博的秒拍视频
227: 戊戌年,吉犬年,好运不止长长长长长长长长长长长一点[doge][doge][doge]
245: 如何让亲戚朋友不再问“什么时候谈对象”——不动声色地从钱包里拿出一枚“草莓味口香糖”[并不简单]
267: 今天没遇到也别着急,总有一天能遇到和自己严丝合缝的人。
377: 想把自己的全世界,零星地给你。想和你生活在一起,想于清晨和夜晚,在你的身体内起床,在你的身体内躺下。
391: 面对新的一天时,当胸口又有了烦人的空茫,只有爱人灼热的身体依偎在怀里,它才能被填满。
394: 契合的爱侣就像一个灵魂寓于两个身体,两个灵魂有着相匹配的思想,两颗心的跳动是一致的。而肉体的交融,是为了让灵魂相遇。
399: 没有你,我丢失了性欲、购物欲、随心所欲。
472: 喜欢你呐,是一件容易令人上瘾的事。
633: 不论天气,与你的每一日都适合翻云覆雨@墨迹天气 http://t.cn/RjdefZc
685: 你来人间一趟,务必要谈一次20来岁的爱情试试看。
692: 秋冬的早晨醒来总是口干舌燥,大概是欠吻。
1079: 我的被子很空,你什么时候来帮我填一下?@
1293: 我能想到最浪漫的事,就是和你在床上一起慢慢变老。
1549: 想和你做尽无聊之事,想在你身上虚度光阴。
1619: 如果等的人是你,迟一点出现也没关系,迟很多不行。 

人工挑选的效率还是差,之后做实践的朋友们,可以考虑先过滤一下数据(例如:杜蕾斯有#话题#的博文一般都不是文案),将与粉丝的互动根据某条微博的评论数、点赞数等来判断这条微博的热度(有趣度)。

选一些杜蕾斯的图片:

总结

Input Title

  • 总体上可以将某个微博主的文字和图片抓下来,但是组图没有做判断,页数的算法不够精准

  • 微博API已经改变,需要换一种方式

  • 爬虫过于频繁被服务器拒绝的问题要多加考虑,现在也有不少大牛在做这方面的工作

  • 文字部分的处理比较容易,但图片的识别上(挑选更有趣的图片,貌似也能用评论和点赞数来挑选),额,还是之后再想了

  • 可以用这个来分析一下自己关注的人的动态啥的

github链接:https://github.com/wenhengqiu/Python_Durex_Weibo/blob/master/durex_weibo.py

好文推荐:

  • 《》

  • 《》

  • 《》

  • 《》

  • 《》

加群交流

扫码添加助手,可申请加入AI_study-目标检测交流群。一定要备注:目标检测+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡西),不根据格式申请,一律不通过。

喜欢就点个"在看"呗^_^

爬杜蕾斯官方微博,内容太刺激了吧相关推荐

  1. 如果你是杰士邦的微博运营人员,面对杜蕾斯官方微博,你会采取哪些运营措施?...

    嘛,关注这个问题好久了,但是没有一个比较让我满意的回答,所以呢,我就来回答一下好了,如果回答的不好希望大家多多指教[ ]~( ̄▽ ̄)~*  如果你喜欢上了一个男生,但是有另一个比你优秀的女生和你争,那 ...

  2. 多协程爬取中大微博内容(以及转发数,点赞数,评论数)

    这个是在之前的微博爬取(Python)–中大微博前100条微博内容以及评论转发点赞数目爬取 的并发版本 代码 import requests from gevent import monkey imp ...

  3. Python高级特性与网络爬虫(一):使用Ajax请求爬取用户微博内容和python多进程爬取用户图片

    最近阅读了崔庆才写的<Python3网络爬虫开发实战>,系统地学习一下利用Python写网络爬虫.由于这本书出版时间是2018年,很多书中案例涉及的网站已经改版,基本上每个案例都需要自己再 ...

  4. 我去扒了杜蕾斯的微博

    2019独角兽企业重金招聘Python工程师标准>>> 本篇来自编程教室学员 如果你一个微博控,一定领教过杜蕾斯官方微博的各种营销套路.那简直就是就是微博上的一股泥石流,让多少人一边 ...

  5. 论“蹭热点”,我只服“杜蕾斯”,盘点“杜蕾斯官方”曾蹭过的十大热点!

    随着互联网的迅速发展,我们发现"蹭热点"的事儿屡见不鲜,今天我们就来聊聊"蹭热点"这个事儿. 首先,什么是热点呢? "热点"就是一定时间内具 ...

  6. 微博爬取(Python)--中大微博前100条微博内容以及评论转发点赞数目爬取

    简述 微博的动态网络爬取是非常困难的,甚至于电脑版的微博爬取也是有这样的苦难的. 然后,有这样的一个解决方法,就是,下面的这个网站 https://m.weibo.cn/u/1892723783?ui ...

  7. python爬取微博指定内容_python3.5爬虫-爬取微博某博主微博内容

    想要爬取某个博主的微博数据.在网络上寻找了很多关于爬取微博内容的教程,发现有些教程比较老旧了,已经无法再用,有些教程在我这里出现一些问题,比如爬取移动端的微博需要获取登陆cookie,而我的谷歌浏览器 ...

  8. python爬取微博用户的微博内容和图片

    想保存自己喜欢的idol微博图片,但是一张张自己保存太慢,怎么办?想保存微博博主的所有表情包,怎么才能快速把这些表情包下载到本地呢?想分析某位博主的发博规律,要分析博主所有微博信息怎么做? 这就要用到 ...

  9. python爬取微博内容_Python 爬虫如何机器登录新浪微博并抓取内容?

    最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...

最新文章

  1. 用Windows Live Writer在51CTO写博客(2018年2月24日更新)
  2. Javascript中匿名函数的多种调用方式
  3. mongodb 学习笔记 2 --- 修改器
  4. python knnsearch_sklearn之KNN详解+GridSearchCV使用方法
  5. EXT.NET复杂布局(四)——系统首页设计(下)
  6. 中文代码编写php,PHP开发网站代码编写规范
  7. 1.Kubernetes 简介
  8. Linux中vi的使用
  9. mysql 事务补偿_分布式事务之消息补偿解决方案
  10. c 语言鼠标钩子,鼠标钩子程序示例
  11. Vue学习之旅Part3:Vue的全局过滤器和私有过滤器
  12. 给定一个年月日,计算那天是星期几(数学)
  13. QQ小程序内测邀请码内部获取群
  14. 数据仓库系列4-维度表
  15. [源码解读]一文彻底搞懂Events模块
  16. Android 开发学习笔记:七大知识点板块汇总
  17. 汇编语言(一)-基础知识
  18. CCNA第三天(交换机)
  19. Scrapy爬取新浪微博用户信息、用户微博及其微博评论转发
  20. SAP:在互联网时代帮助企业夺回数据

热门文章

  1. 交叉验证方法思想简介
  2. android 应用程序Activity管理类
  3. 罪恶黑名单第一季/全集The Blacklist迅雷下载
  4. 深度好文,腾讯2019互联网趋势报告
  5. Poco C++库简介
  6. canvas实现简单进度条
  7. 手机如何当win10电脑摄像头使用
  8. CMakeLists.txt链接库的基本套路
  9. 2020.8.26丨Nanopore甲基化测序产品概述
  10. 易基因技术推介 | 微量cfDNA简化基因组甲基化测序(cfDNA-RBS)