记一次最近的工作内容(奇怪的任务增加了)因为Python是去年接触并且没有过爬虫的实际学习操作,所以在出现“要收集文章标题链接”的任务是还是有点难以下手的。虽然有了解过爬虫可以方便操作,但因为经验不足导致花了不少时间进行学习查找。。。最后倒是找到了不用写代码就可以爬取这些信息的方法,并且能将这些信息自动导入excel表格中查看使用。于是这里记录一下方法以及查找思路和过程。

不需要代码,使用工具辅助的办法(0基础)

公众号文章信息的爬取方法:

使用工具"小V公众号文章下载器"

下载地址:www.xiaokuake.com

爬取中的工具

爬取的结果

使用教程:网址介绍中有,按顺序做下来即可

优点:可以快速爬取需要的信息,不仅局限于标题链接,还包括文章本身以及数据分析等

缺点:要付费,试用版只能用爬一个账号并且不能怕文章本身,不过付费可以按天数购买,比其他一些买软件本身的便宜,做短期内需求的爬虫来说不错。不过只能爬取公众号的文章,加上爬取过多的话账号24小时内无法在pc端看历史记录(大约在日爬取3k文章左右后会发生这种情况,此时需要用另外的账号继续)

使用工具批量微信公众号下载小工具

下载地址:https://i.ijrou.com/p/story/WeChatDownload.html

使用教程:下载下来会有相关教程视频

优点:免费,可以下载文章为转word,pdf等,用法也简单

缺点:大概就是没有我需要的要求(指下载文章的地址以及标题并转为excel表格)吧。。。。

知乎文章信息的爬取方法:

浏览器插件web scraper

谷歌应用商店可以下载

正在爬取资料,使用快捷键F12打开

爬取结果

使用教程:

优点:简单易操作,免费,而且操作起来更快

缺点:爬取的资料没有那么全面

需要用代码的办法汇总(需要有python基础)

微信公众号文章:通过抓包或者自己注册一个公众号进行操作,网上的方法大同小异,这里不多赘述。附一个找到的比较完整的网址,有一定的python基础的朋友可以去试试看。

链接:https://github.com/wnma3mz/wechat_articles_spider

这里有完整的工程文件,不过没有基础的话不好理解(我基础忘了所以弄了好久还是有点问题,才会去换思路找工具的囧)

知乎文章:网上这个倒是只看到一个方法,是风变编程的一个案例,网上也有很多这个方法的总结。做法相对上面的会简单一点(但仍没有插件来的快)

链接:https://www.cnblogs.com/www1707/p/10720645.html

方法与微信公众号文章的获取方法类似,即使稍微简单点,但仍然需要一定的基础。

找这些内容时的一点心得

虽然找出来归纳后就这么多,但是当时找的时候挺麻烦的。因为只是对爬虫有点了解,加上当时只学了点皮毛,要立刻实操赶鸭子上架有点困难。一开始查找的思路是用“python爬取公众号文章链接”这个条件进行查找,但是找出来的方法我不一定能用,而且经常出bug(菜鸡的痛),之后还拜托大鸽看看怎么写,不过还是有点问题没法处理,同时对于导出成excel表没什么头绪。

后面换了种思路,网上找的时候发现不只是我有这种需求,有不少人也需要而且不一定会用python,就想着“既然网上有这种需求,说不定有相应的工具”。然后就倒真找到了一些,但是这些工具下载器五花八门的,还很贵(单买软件或者单次服务就很贵)。然后比较了几个工具后最后选择了现在分享的工具,要氪金但花的金钱比我花时间找和学习的时间比起来实惠了不少。即使是这样,我还是花了两天才导出完所有内容(如果自己做不知道要做到什么时候)归纳在一起有五千多条

完成后也反省了下:我一开始的思路就是有点问题的:在短时间内速成上手还是有点困难,应该换个思路找找有没有相应的工具,因为既然有这种需求那就应该有对应的市场,如果早点意识到就不会花那么多时间做无用功了。

学Python真的很重要,以后自己找资料也不会那么麻烦,更不会像几天前那样像无头苍蝇到处撞。(要学的东西增加了)

不过可喜可贺最后任务还是完成了,也学到了一些奇怪的东西(雾)

最近还要忙些事,忙完再整理下之前学的表达式知识出点内容。

python公众号推荐 知乎_爬取公众号及知乎专栏文章的标题链接的方法汇总相关推荐

  1. python爬虫教材推荐 豆瓣_Python爬虫爬取豆瓣书籍数据

    炎热的夏天,酷暑难挡,难免会心烦意燥,睡前随手拿起枕边看过很多遍的「平凡的世界」.看书,会让躁动的心瞬间安静下来. 生活不能等待别人来安排,要自己去争取和奋斗:而不论其结果是喜是悲,但可以慰藉的是,你 ...

  2. python翻页功能url不变_爬取Ajax动态加载和翻页时url不变的网页

    这两天投了一家公司的爬虫实习生,笔试题是完成一个爬虫的小需求.网站没有什么反爬的高级技巧.但是有非常常见的,并不是针对我们爬虫的,却让我们新手很难理解的ajax动态加载技术和乍一看不明白的翻页时不变的 ...

  3. python爬虫qq音乐教学视频_爬取QQ音乐(讲解爬虫思路)

    一.问题描述: 本次爬取的对象是QQmusic,为自己后面做django音乐网站的开发获取一些资源. 二.问题分析: 由于QQmusic和网易音乐的方式差不多,都是讲歌曲信息放入到播放界面播放,在其他 ...

  4. python爬取公众号历史文章

    文章来源 学习网上以及自己修改. 参考链接: https://blog.csdn.net/d1240673769/article/details/75907152 目的 ''' 爬取公众号的历史文章信 ...

  5. 茅台酒如何转卖?价格如何才最合理?爬取公众号后每天自动发送价格到钉钉如何呢?

    最近i茅台非常火,同时火起来的还有茅台价格-于是想了一个思路 写了部分内容,希望能够有所帮助 具体步骤: 打开公众号,下载图片,图片识别,确认自己想要的内容–发送钉钉. 下面为爬取公众号代码模块 # ...

  6. python爬取公众号阅读量_公众号没做起来,那是你菜 | 爬取21个公众号数据后

    一直有爬公众号数据的想法,奈何 python 技术不足搁置许久. 最近刚好找到了一款可以爬取公众号数据的工具,一顿操作爬了21个公众号.废话不多说,分析过程 loading -- 第一次更新时间 冯大 ...

  7. python爬取公众号阅读量_分享一个牛逼的Python项目:公众号文章爬虫

    我订阅了近 100 个公众号,有时候想再找之前读过的文章,发现搜索起来特别困难,如果忘了收藏,估计得找半小时,更让人无语的是,文章已经发布者删除,或者文章因违规被删除.那么有没有这样的爬虫,可以将公众 ...

  8. python爬取公众号文章如何获取发布时间

    python爬取公众号文章如何获取发布时间 在上一篇爬取公众号的文章中爬虫如何爬取微信公众号文章介绍了如何获取公众号的所有历史文章链接,但当我根据链接去爬取文章的时候,却遇到了一个小问题,就是文章的发 ...

  9. 用python爬取公众号推送图片并保存为PPT

    文章目录 一.前言 二.开始 (一)获取推送URL链接 (二)爬取网页并提取图片保存 1.定义用于爬取推送图片的PictureSpider类 2.定义get_url_text()方法 3.定义sear ...

最新文章

  1. 深入理解java类加载
  2. Live Writer 在oschina上的代码高亮插件推荐
  3. Citrix VDI攻略之三:DDC安装及配置
  4. BFS迷宫问题模型(具体模拟过程见《啊哈算法》)
  5. Saving James Bond - Easy Version 原创 2017年11月23日 13:07:33
  6. Public key for mysql....rpm is not installed
  7. Windows 2003 网络负载均衡的详细配置文档
  8. 黑白群晖 进阶篇 不得不注意的情况
  9. 如何看懂财务报表|介绍
  10. 支付宝第三方登录接口 php,PHP调用支付宝支付接口操作步骤
  11. excel函数公式大全计算机一级考试,10个常用的汇总公式,拿来即用
  12. CC1310空中升级笔记02 CC26xx_CC13xx_BLE_OAD_例程梳理
  13. 对话 IJCAI 07「卓越研究奖」得主 Alan Bundy :理解智能的本质是 AI 发展的终极目标
  14. 用微信h5棋牌源码来测量相机到目标的距离
  15. 长期坐着不动会得什么病?
  16. Vue -Ts入门 (一)
  17. NAS入门之——Mac系统My Cloud EX2 Ultra设置时间机器
  18. Numpy库 numpy.corrcoef()函数
  19. 记录一次电脑数据删除分区后的恢复
  20. 问题分享:Word中图片显示不全的解决方法

热门文章

  1. 注册阿里云账号全过程
  2. 【go共识算法】-POW
  3. Canvas - 画线
  4. android 跌落动画,陶瓷很耐摔?安卓之父Essential手机跌落测试
  5. saga中的saga(A Saga on Sagas)
  6. vue3源码study
  7. 斯伦贝谢好进吗_你知道斯伦贝谢中国软件家族吗?请进!
  8. 前后端分离API接口安全
  9. 详解iOS 音视频的延时
  10. 打饭队列 | c++ | 队列基础