因为业务要求,需要爬取今日头条文章相关评论内容。经过分析,今日头条评论接口有很多个(主要包括PC端和app端)。

经过分析发现app端较pc端更好爬取,主要是从大量爬取被封IP的概率考虑。下面主要以http://is-hl.snssdk.com/article/v4/tab_comments/这个链接进行分析,其他几个区别不大,可以迁移。

一级评论内容URL:http://is-hl.snssdk.com/article/v4/tab_comments/?group_id=6635154779754463757&item_id=6635154779754463757&aggr_type=1&count=20&offset=20&tab_index=0&fold=1&iid=53137311418&device_id=57714824519&ac=wifi&channel=samsungapps&aid=13&app_name=news_article&version_code=701&version_name=7.0.1&device_platform=android&ab_version=611287%2C650250%2C486953%2C647938%2C648204%2C642200%2C452159%2C571131%2C641920%2C639003%2C239098%2C612192%2C641906%2C170988%2C643890%2C642339%2C594604%2C374118%2C641855%2C642664%2C644565%2C648685%2C633720%2C613177%2C550042%2C435213%2C603543%2C586998%2C609623%2C642975%2C627128%2C649426%2C614097%2C522766%2C648762%2C416055%2C621360%2C646597%2C639580%2C643097%2C630238%2C558139%2C555254%2C640008%2C635503%2C603442%2C596392%2C550818%2C630577%2C598626%2C644845%2C634911%2C646253%2C603386%2C603399%2C603404%2C603405%2C642681%2C649811%2C646564%2C648850%2C629152%2C607361%2C471797%2C609338%2C326532%2C631168%2C641414%2C646381%2C637865%2C644620%2C638168%2C648057%2C631389%2C644945%2C622716%2C644036%2C622132%2C622993%2C649184%2C640997%2C641075%2C643790%2C631607%2C633139%2C643839%2C637419%2C554836%2C549647%2C644131%2C621574%2C572465%2C649269%2C644057%2C615292%2C606547%2C442255%2C642353%2C648265%2C630218%2C546701%2C649327%2C281292%2C633176%2C632885%2C610675%2C622045%2C325614%2C620936%2C649526%2C642450%2C634871%2C646070%2C625066%2C614990%2C649284%2C498375%2C613887%2C638335%2C467515%2C644238%2C631638%2C650051%2C648895%2C648270%2C595556%2C647930%2C640690%2C638195%2C589102%2C633487%2C457481%2C649401&ab_client=a1%2Cc4%2Ce1%2Cf1%2Cg2%2Cf7&ab_group=94567%2C102753%2C181428&ab_feature=94567%2C102753&abflag=3&ssmix=a&device_type=SM-A8000&device_brand=samsung&language=zh&os_api=23&os_version=6.0.1&openudid=1869be23a123ab41&manifest_version_code=701&resolution=1080*1920&dpi=480&update_version_code=70108&_rticket=1544875730759&fp=crT_crTZPrGSFlDqFSU1F2KIFzKe&tma_jssdk_version=1.5.3.2&rom_version=23&plugin=26958&ts=1544875730&as=a2054e91026d3cdec44355&mas=0037f78d55165d05d8ec7f161068fbb831cca448e606686ef1

具体参数为:

经过分析,最后只需要的参数为:

其中,offset为偏移量,count为每次提取的数量,每次最多可以提取50条,item_id和group_id为文章的id, ts为每次请求的时间戳

二级评论接口:

http://lf-hl.snssdk.com/2/comment/v3/reply_list/?

需要参数为:

其中,offset为偏移量,count为每次提取的数量,每次最多可以提取50条,id为评论回复id,通过id = comment['comment']['id']获取

可以获取用户昵称、头像、评论内容、评论时间、评论点赞数、评论回复数等信息。

具体代码请看GitHub: 我的GitHub地址

今日头条文章评论内容爬取相关推荐

  1. UC头条(大鱼)文章评论内容抓取

    下面以某一篇文章为例,分析UC头条(大鱼)文章评论内容抓取: 首先我们点击进入上面的这一篇文章,然后拉到评论内容区,通过抓包分析发现其评论接口为: https://m.uczzd.cn/iflow/a ...

  2. 京东书籍信息及评论内容爬取

    京东书籍信息及评论内容爬取 文章目录 京东书籍信息及评论内容爬取 前言 一.京东书籍商品页面分析 二.解析获取评论数 1.每个商品都有一个唯一的ID 2.分析标签,找到过滤词,进而找到需要的请求头 3 ...

  3. 大数据信息资料采集:视频信息采集及评论内容爬取八爪鱼采集规则

    大数据信息资料采集:视频信息采集及评论内容爬取八爪鱼采集规则 数据采集满足多种业务场景:适合产品.运营.销售.数据分析.政府机关.电商从业者.学术研究等多种身份职业. 舆情监控:全方位监测公开信息,抢 ...

  4. 今日头条标签新闻的爬取

    本文主要讲,用户输入标签后,通过爬虫,可实现获取相关的新闻,将获取的新闻保存为.csv文件. 前期准备 首先导入需要的第三方库 import requests import time import r ...

  5. 今日头条街拍图片爬取

    其中遇到的问题和一些新知识: 1. 注意页面请求参数:(会改变) 即Query String Parameters 例: 今日头条里街拍综合的数据为 'offset': 0, 'format': 'j ...

  6. python爬取今日头条_使用python-aiohttp爬取今日头条

    原博文 2018-01-24 22:01 − http://blog.csdn.net/u011475134/article/details/70198533 原出处 在上一篇文章<使用pyth ...

  7. [爬虫笔记01] Ajax爬取今日头条文章

    1.爬取分析 我们首先打开今日头条,搜索"罗志祥" 打开浏览器的开发者工具,红色框中就是我们请求到的数据 将搜索界面的滚动条滑到底,在开发者工具中就可以看到所有请求到的数据,加上前 ...

  8. 利用搜索关键字爬取今日头条新闻评论信息案例

    利用搜索关键字爬取今日头条新闻评论信息案例 爬虫4步骤: 1.分析网页 2.对网页发送请求,获取响应 3.提取解析数据 4.保存数据 本案例所用到的模块 import requests import ...

  9. Python3爬取今日头条文章视频数据,完美解决as、cp、_signature的加密方法(2020-6-29版)

    前言 在这里我就不再一一介绍每个步骤的具体操作了,因为在爬取老版今日头条数据的时候都已经讲的非常清楚了,所以在这里我只会在重点上讲述这个是这么实现的,如果想要看具体步骤请先去看我今日头条的文章内容,里 ...

  10. 博客搬家系列(六)-爬取今日头条文章

    博客搬家系列(六)-爬取今日头条文章 一.前情回顾 博客搬家系列(一)-简介:https://blog.csdn.net/rico_zhou/article/details/83619152 博客搬家 ...

最新文章

  1. 20180925-4 单元测试,结对
  2. 修改python默认的编码方式
  3. 你不得不掌握的thinkphp5
  4. Log4J入门教程(二) 参数讲解
  5. iOS10 NSURLErrorDomain Code 1200
  6. 动手组装深度学习机器+RTX2070Super
  7. python @符号_注意!大佬提醒你python初学者这几个很难绕过的坑,附教程资料
  8. Common Digester学习
  9. 多功能多接口带头像挂件制作微信小程序源码
  10. Guava Joiner
  11. Mac下移动硬盘的使用
  12. 售前感悟20190905
  13. 包含查询match和对时间进行范围查询range的DSL
  14. 挖洞思路——验证码绕过
  15. go语言零知识证明gnark框架
  16. 自研一个word应用,需要哪些基本功能
  17. 九十年前到江西(2009-06-09)
  18. PyCharm4注册码--软件安装
  19. 快速获取excel工作簿中所有工作表的名称
  20. 【用户画像】实现宽表合并,pivot概述,源码实现并发布任务

热门文章

  1. javaScript用函数的方式计算体重是否是标准体重(代码)
  2. Windows 10开机后,键盘上的Num Lock灯默认是熄灭的
  3. 消息推送实现方法、移动终端及消息推送系统
  4. 金域医学与华为云联合,AI辅助宫颈癌筛查方案获得阶段性突破
  5. Java支付宝第三方登陆开发过程
  6. 电气火灾监控系统在地铁供配电系统中的应用
  7. 素材.html,素材标签.html
  8. 融云CTO杨攀:以技术为先导 全面聚焦“互联网通信云”
  9. CentOs7 docker部署face_recognition
  10. MongoDB学习笔记(五) MongoDB文件存取操作