基于python的今日头条文章抓取内含signature算法
基于python的今日头条文章抓取内含signature算法
扫二维码添加微信 备注:爬虫 , 拉你进爬虫交流群 或许你会成为第一个加群的人~ 刚有的创群想法!
1. 简单文字描述头条爬虫注意点
由于还没有大批量爬取测试,这里只能作为参考!
例如我们现在需要爬取右边的头条链接 https://www.toutiao.com/a6920021307803468302/
我们用python编写代码会发现,返回的并不是文字主题,而已简单的html代码,其中包含了一些script脚本
<html><head><meta charset="UTF-8" /></head><body></body><script src='https://sf1-ttcdn-tos.pstatp.com/obj/rc-web-sdk/acrawler.js'></script><script>function _f1(e,t){if("string"!=typeof t)return;var o,n=e+"=",r=t.split(/[;&]/);for(var e=0;e<r.length;e++){for(o=r[e];" "===o.charAt(0);)o=o.substring(1,o.length);if(0===o.indexOf(n))return o.substring(n.length,o.length)}return""}function _f2(e){return _f1(e,document.cookie)}function _f3(e,t,o){try{o&&(window.sessionStorage&&window.sessionStorage.setItem(e,t),window.localStorage&&window.localStorage.setItem(e,t));var n=31536e6;document.cookie=e+"=; expires=Mon, 20 Sep 1970 00:00:00 UTC; path=/;",document.cookie=e+"="+t+"; expires="+new Date((new Date).getTime()+n).toGMTString()+"; path=/;"}catch(e){}}window.byted_acrawler.init({aid:99999999,dfp:!0});var __ac_nonce=_f2("__ac_nonce"),__ac_signature=window.byted_acrawler.sign("",__ac_nonce);_f3("__ac_signature",__ac_signature),_f3("__ac_referer",document.referrer||"__ac_blank",!0);try{sessionStorage.setItem("__ac_ns",performance.timing.navigationStart)}catch(e){};window.location.reload();</script></html>
其中https://sf1-ttcdn-tos.pstatp.com/obj/rc-web-sdk/acrawler.js
这里是计算signature的代码,然后我们还可以看到上面的代码中有下面这2块代码。
它是我们能否得到正确的得到文章数据的关键因素。然后就是扣代码和补全浏览器环境。具体看代码实现吧。
var __ac_nonce=_f2("__ac_nonce"),
__ac_signature=window.byted_acrawler.sign("",__ac_nonce)
2. 附件代码
链接: https://pan.baidu.com/s/1OQMLsamt_Vhhj8zGAiGcRw 提取码: t6zf
基于python的今日头条文章抓取内含signature算法相关推荐
- Python编写今日头条文章爬虫,轻松发布!
在当今的信息时代,新闻资讯是人们获取信息的重要途径之一.而作为国内领先的新闻资讯平台,今日头条每天都会推送大量的新闻内容.对于媒体从业者来说,想要获取最新.最全面的新闻资讯,就需要使用到网络爬虫技术. ...
- python爬取数据案例分析_基于Python及webdriver的网页抓取案例
上次有朋友问怎么抓取交易所网站的数据,特别是历史数据,这里特别推荐使用selenium这一自动化测试框架. 原本selenium是用来完成大量基于浏览器的自动化测试的,但由于可以方便地执行JS代码,摸 ...
- python可用于数据抓取_基于PYTHON实现证券数据的抓取,以PYECHARTS实现证券数据实时分析...
by Tony 主要采用Java+Python+MySQL+Redis的方式建设,以满足前期数据量较小的场景下,实时分析预警的要求.使用JAVA搭建核心框架:Python用于数据采集应用.数据分析模型 ...
- 博客搬家系列(六)-爬取今日头条文章
博客搬家系列(六)-爬取今日头条文章 一.前情回顾 博客搬家系列(一)-简介:https://blog.csdn.net/rico_zhou/article/details/83619152 博客搬家 ...
- Python3爬取今日头条文章视频数据,完美解决as、cp、_signature的加密方法(2020-6-29版)
前言 在这里我就不再一一介绍每个步骤的具体操作了,因为在爬取老版今日头条数据的时候都已经讲的非常清楚了,所以在这里我只会在重点上讲述这个是这么实现的,如果想要看具体步骤请先去看我今日头条的文章内容,里 ...
- JS逆向教程:Python采集今日头条视频
最近在做今日头条文章数据抓取的过程中,发现视频地址的获取较为复杂.在源码与浏览器配合下发现对应的解决思路,故此记录一下. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语 ...
- 基于机器视觉的ROS机械臂抓取实验
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨曾三 来源丨 混沌无形 点击进入->3D视觉工坊学习交流群 摘要:为了减少机械臂在产品分类 ...
- 小猪的Python学习之旅 —— 20.抓取Gank.io所有数据存储到MySQL中
小猪的Python学习之旅 -- 20.抓取Gank.io所有数据存储到MySQL中 标签:Python 一句话概括本文: 内容较多,建议先mark后看,讲解了一波MySQL安装,基本操作,语法速成, ...
- Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法 正则表 ...
最新文章
- this和that的区别和原理
- 训练大规模语音数据集后的结果分析报告
- CodeForces786B 线段树 + 最短路
- Docker学习笔记(4) — 开启Docker远程访问
- PHP 读取Excel数据
- openCV中的findHomography函数分析以及RANSAC算法的详解(源代码分析)
- Centos下安装配置WordPress与nginx教程
- 剑指Offer 从尾到头打印链表
- Android系统root破解原理分析
- C++ AFX_MANAGE_STATE(AfxGetStaticModuleState())的作用
- CSS3移动应用程序企业网站模板
- 算法之路(5)--括号匹配问题(Valid Parentheses)[leetcode]
- tensorflow之dropout
- HDU 6603 Azshara's deep sea(凸包+区间DP)
- MongoDB小结26 - 地理空间索引
- Kotlin实战【六】Kotlin中集合的创建
- Oracle的expdp导出、impdp导出命令
- RocketMQ 5.0 POP 消费模式探秘
- 计算机信息管理发展的重要性,建设计算机信息管理系统的意义和目标
- hr面试性格测试30题_网友应聘华为表现优秀,最终却挂在性格测试上,看真题我哭……...