python获取今日头条搜索信息_python爬虫(十二、爬取今日头条关键词所有文章)
今日头条
我们以搜索’妹子’为例
那 么 我 们 在 右 上 角 的 搜 索 框 搜 索 妹 子 , 出 来 了 一 系 列 文 章 那么我们在右上角的搜索框搜索妹子,出来了一系列文章那么我们在右上角的搜索框搜索妹子,出来了一系列文章
检 查 网 页 的 源 代 码 , 发 现 只 是 一 个 简 短 的 框 架 检查网页的源代码,发现只是一个简短的框架检查网页的源代码,发现只是一个简短的框架
于 是 猜 测 这 是 用 于是猜测这是用于是猜测这是用AJAX技术请求的,那么我们打开XHR查看
果 不 其 然 , 就 在 这 里 , 现 在 我 们 就 是 构 造 这 些 J S 加 载 请 求 果不其然,就在这里,现在我们就是构造这些JS加载请求果不其然,就在这里,现在我们就是构造这些JS加载请求
打 开 这 个 数 据 包 的 h e a d e r s 部 分 查 看 打开这个数据包的headers部分查看打开这个数据包的headers部分查看
显 然 其 中 的 o f f s e t 是 决 定 翻 页 的 , 每 加 20 翻 一 页 显然其中的offset是决定翻页的,每加20翻一页显然其中的offset是决定翻页的,每加20翻一页
t i m e s t a m p 是 什 么 呢 ? timestamp是什么呢?timestamp是什么呢?
这 个 可 以 直 接 用 t i m e . t i m e ( ) 取 得 , 具 体 看 代 码 中 这个可以直接用time.time()取得,具体看代码中这个可以直接用time.time()取得,具体看代码中
接 下 来 就 是 请 求 , 转 化 为 字 典 , 取 出 需 要 的 内 容 接下来就是请求,转化为字典,取出需要的内容接下来就是请求,转化为字典,取出需要的内容
#-*-codeing = utf-8 -*-
#@Time : 2020/6/28 13:17
#@Author : issue小菜鸡
#@File : 今日头条爬取.py
#@Software: PyCharm
import time
import json
import requests
from urllib.parse import urlencode
def get_data(search_name,page):
data = { #构造请求的data
'aid':'24',
'app_name':'web_search',
'offset':page,
'format':'json',
'keyword':search_name,
'autoload':'true',
'count':'20',
'en_qc':'1',
'cur_tab': '1',
'from': 'search_tab',
'pd':'synthesis',
'timestamp': int(time.time()),
'_signature': '21oMXgAgEBAwjHnl59qFgNtbTUAAIWq5yRBJSZ83MdD56bgu5GDIJxHd0EHk8Y1-DDSzzYJ-ZlFlc5td8NE86Wb3wfbOIt2i-9L7pr2I3.bmY8SCimmZOjMIL2g7TKFO-Lj'
}
url = 'https://www.toutiao.com/api/search/content/?' + urlencode(data)
header={
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36',
'x-requested-with':'XMLHttpRequest'
}
res = requests.get(url=url,headers=header)
return res
def find_content(search_name,page):
dic = get_data(search_name,page).json() #转化为json字典
data = dic['data']
if data is not None: #不为空才开始
for item in data:
if 'title' in item: #标题
print(item['title'])
else:
print('没有找到啊啊啊啊啊')
if 'article_url' in item: #文章url
print(item['article_url'])
page = 0
for i in range(0,9):
find_content('妹子',page)
page = page + 20
print(page,'哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈')
python获取今日头条搜索信息_python爬虫(十二、爬取今日头条关键词所有文章)相关推荐
- layui获取input信息_python爬虫—用selenium爬取京东商品信息
python爬虫--用selenium爬取京东商品信息 1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Hea ...
- python爬取b站搜索结果_Python爬虫实例:爬取猫眼电影——破解字体反爬,Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取,Python爬虫实例:爬取豆瓣Top250...
字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
- 利用python爬取租房信息_Python爬虫实战(1)-爬取“房天下”租房信息(超详细)
#前言html 先看爬到的信息:python 今天主要用到了两个库:Requests和BeautifulSoup.因此我先简单的说一下这两个库的用法,提到的都是此文须要用到的.编程 #Requests ...
- python爬取网上租房信息_Python爬虫入门 | 5 爬取小猪短租租房信息
小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 1.爬取租房标题 按照惯例,先来爬下标题试试水,找到标题,复制xpath. 多复制几个房屋 ...
- python爬取控制台信息_python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息 简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
- python 循环 覆盖之前print内容_Python爬虫第二战---爬取500px图片
前言: 如今的高速网络极大促进了信息的展示方式,高清图片,视频等成就了我们的视听盛宴.但是,我们获取到的图片或者视频可能是被压缩过的,所以总体上还是有点小瑕疵,今天呢,我给大家带来一篇使用Python ...
- python view函数_Python爬虫实例(二)——爬取新馆疫情每日新增人数
python是世界上最美的语言. 大家好,我是Henry! 疫情以来,相信大家每天都关注着疫情的实时动态,许多网站上也post了疫情的相关资料. 百香园 百度 各个网站都会统计每日新增,刚学了Matp ...
- Python 柱状图 横坐标 名字_Python爬虫实例(二)——爬取新馆疫情每日新增人数
python是世界上最美的语言. 大家好,我是Henry! 疫情以来,相信大家每天都关注着疫情的实时动态,许多网站上也post了疫情的相关资料. 百香园 百度 各个网站都会统计每日新增,刚学了Matp ...
- python爬虫妹子图_Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. 公众号:[智能制造社区].欢迎关注,分享智能制造与编程那些事. 爬虫成果 当你运行代码后,文件夹就会 ...
最新文章
- 遍历Stream并设置属性值
- Microbiome:宏基因组揭示冻土带、温带草原和热带土壤抗性的特征
- springboot 热部署 idea版本(转)
- 控制台输出覆盖当前行显示
- c语言中#39;xd#39;代表什么,关于C语言宏定义的技巧:#39;##39;和#39;###39;
- Unity3D教程宝典之Web服务器篇:(第二讲)从服务器下载图片
- java编写管理系统_用java编写学生信息管理系统
- 和华为杯_2020华为手机杯围甲联赛圆满闭幕 助力围棋文化推广
- B00003 C++标准库 std::bitset
- 使用计算机报点系统时填记,子案例库接发列车工作-企业生产实际教学案例库...
- mysql 6位随机数_MySQL生成固定位数的随机数
- 数据治理之元数据管理
- 独立站运营到底要做什么!
- Unable to negotiate with port 51732: no matching host key type found. Their offer:
- Xubuntu22.04增加快捷键
- 攻防世界-web NewsCenter3
- 励志名言---002
- 高校部署房产管理系统可实现那些目标?
- 蓝桥杯历届试题代码参考
- TMC4671+TMC6200---Trinamic直流无刷(BLDC)硬件FOC解决方案