前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入。

一、代码实现

1、修改Scrapy项目中的items.py文件。我们需要获取的数据是朋友圈和发布日期,因此在这里定义好日期和动态两个属性,如下图所示。

2、修改实现爬虫逻辑的主文件moment.py,首先要导入模块,尤其是要主要将items.py中的WeixinMomentItem类导入进来,这点要特别小心别被遗漏了。之后修改start_requests方法,具体的代码实现如下图。

3、修改parse方法,对导航数据包进行解析,代码实现稍微复杂一些,如下图所示。

l需要注意的是从网页中获取的response是bytes类型,需要显示的转为str类型才可以进行解析,否则会报错。

l在POST请求的限定下,需要构造参数,需要特别注意的是参数中的年、月和索引都需要是字符串类型的,否则服务器会返回400状态码,表示请求参数错误,导致程序运行的时候报错。

l在请求参数还需要加入请求头,尤其是Referer(反盗链)务必要加上,否则在重定向的时候找不到网页入口,导致报错。

l上述的代码构造方式并不是唯一的写法,也可以是其他的。

4、定义parse_moment函数,来抽取朋友圈数据,返回的数据以JSON加载的,用JSON去提取数据,具体的代码实现如下图所示。

5、在setting.py文件中将ITEM_PIPELINES取消注释,表示数据通过该管道进行处理。

6、之后就可以在命令行中进行程序运行了,在命令行中输入scrapy crawl moment -o moment.json,之后可以得到朋友圈的数据,在控制台上输出的信息如下图所示。

7、尔后我们得到一个moment.json文件,里面存储的是我们朋友圈数据,如下图所示。

8、嗯,你确实没有看错,里边得到的数据确实让人看不懂,但是这个并不是乱码,而是编码的问题。解决这个问题的方式是将原来的moment.json文件删除,之后重新在命令行中输入下面的命令:scrapy crawl moment -o moment.json -s FEED_EXPORT_ENCODING=utf-8,此时可以看到编码问题已经解决了,如下图所示。

下一篇文章,小编带大家将抓取到的朋友圈数据进行可视化展示,敬请关注~~

python朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)相关推荐

  1. python抓取朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)...

    原标题:如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下) 前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往 ...

  2. 如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)

    前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...

  3. python抓取微信朋友圈动态_2018最全如何利用Python网络爬虫抓取微信朋友圈的动态...

    今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

  4. 2018最全如何利用Python网络爬虫抓取微信朋友圈的动态

    今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

  5. python爬虫微信朋友圈怎么发文字_如何利用Python网络爬虫抓取微信朋友圈的动态(上)...

    今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

  6. 如何利用Python网络爬虫抓取微信朋友圈的动态(上)

    今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

  7. Python爬虫爬取微信朋友圈的方法,感兴趣的朋友可以了解下

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 小雨 | 作者 python教程 | 来源 接下来,我们将实现微信朋友圈的 ...

  8. Python爬虫爬取微信朋友圈

    更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.op-kg.com/ ...

  9. 如何利用Python网络爬虫抓取微信朋友圈的动态

    1.引言 最近初学Python,写爬虫上瘾.爬了豆瓣练手,又爬了公司的论坛生成词云分析年度关键词.最近琢磨着2017又仅剩两月了,我的年度关键词是啥? 所以自然想到爬取下自己的微信朋友圈,来个词频分析 ...

最新文章

  1. python怎么安装打开文件不存在怎么办呢_如果文件不存在,Python中的open()不会创建文件...
  2. 《UML中的六大关系》和《Eclipse中如何使用UML方便查看项目框架》
  3. Solr学习笔记1(V7.2)
  4. TCP/IP协议是什么
  5. hql Hibernate.gethibernatetemplate()
  6. kell Vision5有那些使用技巧呢
  7. python人民币小写转大写_python将人民币转换大写的脚本源码
  8. 酸了,深圳一普通中学老师工资单曝光,秒杀程序员!
  9. matlab信号频域放大的含义,频域特征是什么意思 信号频域特征参数,如重心
  10. 202好看好玩的简单html动画案例
  11. 蛋白质结构预测与分析
  12. 5 个常用 Python 标准库
  13. erlang, 支付宝, 以及其他
  14. 扑克牌游戏——老牛拉破车
  15. 好心情:长期服用精神药物,需监测哪些指标?
  16. 如何通过cdm连接mysql_CDM云数据迁移服务入门教程
  17. C语言:关键字---struct(声明结构体类型)
  18. Verilog中Case语句
  19. docker容器快速部署至卸载
  20. 用Python做【游玩攻略】之上海四日游,假期旅游不用愁啦~

热门文章

  1. 2017.9.5 能量采集 思考记录
  2. 【英语学习】【Level 08】U04 What I love L2 My favorite sport
  3. 【英语学习】【Daily English】U15 Culture L04 When in Rome, do as the Romans Do
  4. accept 返回0_使用Vue3.0新特性造轮子 WidgetUI3.0 (Upload上传文件组件)
  5. excel引用指定单元格数据_数据、运算符及单元格引用
  6. php $db-gt;query 行数,php – 如何在CodeIgniter中组合query()和limit()方法
  7. Unity 分析器(仅专业版) Profiler (Pro only)
  8. 为Unreal4制作插件
  9. java B2B2C Springcloud多租户电子商城系统- Gateway 之Predict篇...
  10. JavaScript-鼠标事件(鼠标点击松开移动效果)