爬虫--雪球网爬取(requests 和 request 的两种方法)

import json
from urllib import request# 因为不能访问, 所以加个请求头试试
headers = {#'Accept': '*/*',#'Accept-Encoding': 'gzip, deflate, br',#'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',#'Connection': 'keep-alive','Cookie': 'aliyungf_tc=AQAAALoQF3p02gsAUhVFebQ3uBBNZn+H; xq_a_token=584d0cf8d5a5a9809761f2244d8d272bac729ed4; xq_a_token.sig=x0gT9jm6qnwd-ddLu66T3A8KiVA; xq_r_token=98f278457fc4e1e5eb0846e36a7296e642b8138a; xq_r_token.sig=2Uxv_DgYTcCjz7qx4j570JpNHIs; _ga=GA1.2.516718356.1534295265; _gid=GA1.2.1050085592.1534295265; u=301534295266356; device_id=f5c21e143ce8060c74a2de7cbcddf0b8; Hm_lvt_1db88642e346389874251b5a1eded6e3=1534295265,1534295722; Hm_lpvt_1db88642e346389874251b5a1eded6e3=1534295722',#'Host': 'xueqiu.com',#'Referer': 'https://xueqiu.com/','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',#'X-Requested-With': 'XMLHttpRequest',#'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}# urllib 的相关操作如下
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=-1&count=10&category=111'# request.Request
req = request.Request(url, headers=headers)# 通过request 请求我们的雪球
response = request.urlopen(req)res = response.read() # byte类型
## 字符串, 需要转成dict/list
#print(res)
## 转化函数 res_dict = json.loads(res)
res_dict = json.loads(res.decode('utf-8')) #字典类型
# print 这个res_dict
# print(res_dict)
# print('res_dict==',res_dict)
list_list = res_dict['list']
print()
print('list_list==',list_list)
# 遍历 list_list
for list_item_dict in list_list:# list 列表内的一个item, 他是一个dictdata_str = list_item_dict['data']print(data_str)print('-'*50)

import json
import requests# 因为不能访问, 所以我们加个头试试
headers = {#'Accept': '*/*',#'Accept-Encoding': 'gzip, deflate, br',#'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',#'Connection': 'keep-alive','Cookie': 'aliyungf_tc=AQAAALoQF3p02gsAUhVFebQ3uBBNZn+H; xq_a_token=584d0cf8d5a5a9809761f2244d8d272bac729ed4; xq_a_token.sig=x0gT9jm6qnwd-ddLu66T3A8KiVA; xq_r_token=98f278457fc4e1e5eb0846e36a7296e642b8138a; xq_r_token.sig=2Uxv_DgYTcCjz7qx4j570JpNHIs; _ga=GA1.2.516718356.1534295265; _gid=GA1.2.1050085592.1534295265; u=301534295266356; device_id=f5c21e143ce8060c74a2de7cbcddf0b8; Hm_lvt_1db88642e346389874251b5a1eded6e3=1534295265,1534295722; Hm_lpvt_1db88642e346389874251b5a1eded6e3=1534295722',#'Host': 'xueqiu.com',#'Referer': 'https://xueqiu.com/','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',#'X-Requested-With': 'XMLHttpRequest',#'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}# urllib 的相关操作如下
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=-1&count=10&category=111'
#
# # request.Request
# req = request.Request(url, headers=headers)
#
# # 通过request 请求我们的雪球
# response = request.urlopen(req)
#
# res = response.read()
# ## 字符串, 需要转成dict/listresponse = requests.get(url, headers=headers)
# res = response.content
#print(res)
## 转化函数 res_dict = json.loads(res)
res_dict = json.loads(response.text)# print 这个res_dict
#print(res_dict)list_list = res_dict['list']
#print(list_list)
# 遍历 list_list
for list_item_dict in list_list:# list 列表内的一个item, 他是一个dictdata_str = list_item_dict['data']print(data_str)print('-'*50)

爬虫--雪球网爬取(requests 和 request 的两种方法)相关推荐

day04 爬取豌豆荚app数据的两种方法
今日内容:方法一 bs4爬取豌豆荚爬取豌豆荚: 1.访问游戏主页 https://www.wandoujia.com/category/6001 2.点击查看更多,观察network内的请求 - 请 ...
Python3爬取有道翻译的两种方法
一. 破解参数加密有道翻译的请求是post,携带一系列参数,直接F12刷新进行调试,如下图所示: 这是一个 post 请求,目标网址是 'http://fanyi.youdao.com/transl ...
【知识学习】C# List＜T＞取并集并去重的两种方法时间消耗比较
C# List<T>取并集并去重的两种方法时间消耗比较文章目录 C# List\取并集并去重的两种方法时间消耗比较前言一.两种方法二.时间计算方法 1.Stopwatch 三.数据 ...
雪球网爬取上市公司信息（一）：爬取上市公司代号
条件:有一批5g相关公司,只知道公司名字或是简称,不知道公司是否上市以及股票代码,需要爬取公司信息. 网站:雪球网思路:上传关键字,爬取搜索结果网页,将有结果的公司信息抓取下来并存入数据库 1.在雪 ...
雪球网爬取数据并存入数据库
创建数据库连接 from urllib import request import json import pymysqlclass mysql_connect(object):# 初始化的构造函数d ...
关于Python爬取热搜的另一种方法
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一.BeautifulSoup是什么? 二.使用步骤 1.引入库 2.读入数据总结前言本文主要介绍使用Beaut ...
git 拉取远程分支到本地(两种方法)
By: Ailson Jack Date: 2019.10.13 个人博客:http://www.only2fire.com/ 本文在我博客的地址是:http://www.only2fire.com/ ...
【Python爬虫】从零开始爬取Sci-Hub上的论文(串行爬取)
[Python爬虫]从零开始爬取Sci-Hub上的论文(串行爬取) 维护日志项目简介步骤与实践 STEP1 获取目标内容的列表 STEP2 利用开发者工具进行网页调研 2.1 提取文章链接和分页链 ...
爬虫篇——User-Agent爬取备用及存储
爬虫篇--User-Agent爬取备用及存储代码代码本文通过抓取常见的User-Agent(用户代理),将其写入列表并保存为json格式文件,且将代码进行了封装,方便以后抓取数据时动态的更新请求 ...
Python-爬虫（Scrapy爬虫框架，爬取豆瓣读书和评分）
文章目录 1.Scrapy注意点 2. Scrapy爬取豆瓣读书和评分代码部分数据定义items.py 爬虫部分spiders/book.py 数据存储部分pipelines.py 启动爬虫执行c ...

爬虫--雪球网爬取(requests 和 request 的两种方法)

爬虫--雪球网爬取(requests 和 request 的两种方法)相关推荐

最新文章

热门文章