Python3爬取今日头条有关《人民的名义》文章

最近一直在看Python的基础语法知识,五一假期手痒痒想练练,正好《人民的名义》刚结束,于是决定扒一下头条上面的人名的名义文章,试试技术同时可以集中看一下大家的脑洞也是极好的。

首先,我们先打开头条的网页版,在右上角搜索框输入关键词,通过chrome调试工具,我们定位到头条的search栏调用的的API为:

http://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E4%BA%BA%E6%B0%91%E7%9A%84%E5%90%8D%E4%B9%89&autoload=true&count=20&cur_tab=1

其返回的数据是标准的json,所有的相关文章链接在data中,key值为article_url,好准备工作完成,我们开始动手coding。

首先,我们构造头条必要的search条件:

query_data = {

‘offset‘: offset,

‘format‘: ‘json‘,

‘keyword‘: ‘人民的名义‘,

‘autoload‘: ‘true‘,

‘count‘: 20, # 每次返回 20 篇文章

‘cur_tab‘: 1

}

当然,我们除了search参数之外,还需要必要的header头信息,仔细查看之后我们可以看到,

我们只选取其中必要的信息,不放cookie;

然后是编码查询条件

其中_get_query_string方法将query_data编码;

拿到article_req之后解析获取当前搜索结果的所有文章链接,实现如下:

获取到文章链接之后,我们打开每一个url进行解析。

此处,我们简单地对article_content进行解析,取出文章标题、内容和图片。

解析完成之后,我们将内容保存到mongo中,方便后续的取数分析。

然后我们运行一下程序,

运行程序的时候我们发现,通过search来搜索最后得到的文章数量有限,只有几十篇文章,估计是头条的限制。

下一篇我们将介绍如何通过一篇文章和相关推荐进行链式爬取所有的关联推荐文章。

python爬取今日头条的文章_Python3爬取今日头条有关《人民的名义》文章相关推荐

  1. python3爬取带密码的网站_Python3 爬取网站收藏数超过70的 情侣网名

    [Python] 纯文本查看 复制代码# coding=utf-8 # python 3.7 import urllib.request,urllib.error import re import t ...

  2. python爬取今日头条文章json中data出现none_Python3爬取今日头条有关《人民的名义》文章...

    最近一直在看Python的基础语法知识,五一假期手痒痒想练练,正好<人民的名义>刚结束,于是决定扒一下头条上面的人名的名义文章,试试技术同时可以集中看一下大家的脑洞也是极好的. 首先,我们 ...

  3. Python爬取今日头条指定用户发表的所有文章,视频,微头条

    前言 文的文字及图片过滤网络,可以学习,交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 最近找工作,爬虫面试的一个面试题.涉及的反爬还是比较全面的,结果公司要求高,要 ...

  4. 不用python爬今日头条_手把手教你从今日头条爬取你想要的任何图片

    都说人生苦短,我用python.为了找点乐趣,不如写个爬虫? 那爬什么呢? 宇宙条是爬虫界行家,它的很多信息都是从其它网站爬来的,那就拿它练练手吧. 网上类似的文章其实不少,但是大多是很久之前的,在这 ...

  5. python爬取今日头条瀑布流_火车头采集今日头条教程,含视频教程!自行下载

    火车头今日头条采集规则:自助购买地址备注:v7.6版 可适用v9版火车头,一手原创资源,更有保障! 今日头条采集也需要通过fiddler抓包才能够采集,重点有3个: 1.列表页网址获取 2.瀑布流的问 ...

  6. Python3从零开始爬取今日头条的新闻【五、解析头条视频真实播放地址并自动下载】

    Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...

  7. python实现微信hook_GitHub - gemgin/wechathook: 借助微信hook,拦截修改某些call,填充进我们的Python代码,进行微信公众号文章的爬取...

    wechathook 借助微信hook,拦截修改某些call,填充进我们的Python代码,进行微信公众号文章的爬取 注入器 注入dll进程序中 DLL 实现hook功能,申请内存,修改call,在里 ...

  8. python实现微信hook_GitHub - redtips/wechathook: 借助微信hook,拦截修改某些call,填充进我们的Python代码,进行微信公众号文章的爬取...

    wechathook 借助微信hook,拦截修改某些call,填充进我们的Python代码,进行微信公众号文章的爬取 注入器 注入dll进程序中 DLL 实现hook功能,申请内存,修改call,在里 ...

  9. python实现微信hook_GitHub - zhouxionger/wechathook: 借助微信hook,拦截修改某些call,填充进我们的Python代码,进行微信公众号文章的爬取...

    wechathook 借助微信hook,拦截修改某些call,填充进我们的Python代码,进行微信公众号文章的爬取 注入器 注入dll进程序中 DLL 实现hook功能,申请内存,修改call,在里 ...

最新文章

  1. 管理不再是交换,而是相互成全!做到这三点,管理更有成效!
  2. CES中国企业被查抄案最新进展:美公司主动撤诉
  3. python学习手册中文版免费下载-Python学习手册 第三版
  4. 深度学习之Windows下安装faster-rcnn
  5. Android之发送短信后按钮(60秒)变灰色每隔一秒递减显示
  6. iOS设置拍照retake和use按钮为中文简体
  7. android 知识点大全,Android基础知识总结(一)
  8. 信息学奥赛一本通 1242:网线主管 | OpenJudge NOI 1.11 04:网线主管
  9. 【ElasticSearch】es 线程池 ThreadPool 的封装
  10. php环境模拟stphp_一个模拟浏览器请求的php类,模拟请求ua设置
  11. 55)PHP,在html嵌套PHP写法
  12. web自动化知识点-02
  13. 计算机考试表格中的透视图怎么弄,职称计算机考试:创建数据透视表
  14. SAP中的电子数据交换EDI
  15. centos7下载安装postgresql 12详细过程
  16. Python数据获取——图片数据提取
  17. 怎么登录163vip邮箱,登录方式有哪些?
  18. Combining Word and Entity Embeddings for Entity Linking
  19. 小红书一个月快速涨十万粉的秘籍
  20. java打印直角三角形解析_编写java程序,打印3个5行直角三角形图案 运行效果如下: 使用 方法 实现 代码截图,必须含有2位学号+姓名_学小易找答案...

热门文章

  1. hdu 3944 DP? (Lucas 定理)
  2. GWT(Google Web Tookit) Eclipse Plugin的zip下载地址(同时提供GWT Designer下载地址)
  3. fork vfork exit _exit (转)
  4. JavaScript抽象类及Class.create备忘
  5. linux的常用操作——makefile
  6. 2021-07-23 小记
  7. 解决问题 com.alibaba.fastjson.JSONObject cannot be cast to xxx
  8. java settcpnodelay_Python Twisted TCP socket如何设置TCP的NODELAY(禁用Nagle算法)?
  9. issubclass在python中的意思_python基础之类的isinstance与issubclass、反射
  10. 怎么知道wx.config执行成功没_作为一个减肥40斤,且10年没反弹的普通人,这份瘦身经验分享给你...