import json
from urllib import request# 因为不能访问, 所以加个请求头试试
headers = {#'Accept': '*/*',#'Accept-Encoding': 'gzip, deflate, br',#'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',#'Connection': 'keep-alive','Cookie': 'aliyungf_tc=AQAAALoQF3p02gsAUhVFebQ3uBBNZn+H; xq_a_token=584d0cf8d5a5a9809761f2244d8d272bac729ed4; xq_a_token.sig=x0gT9jm6qnwd-ddLu66T3A8KiVA; xq_r_token=98f278457fc4e1e5eb0846e36a7296e642b8138a; xq_r_token.sig=2Uxv_DgYTcCjz7qx4j570JpNHIs; _ga=GA1.2.516718356.1534295265; _gid=GA1.2.1050085592.1534295265; u=301534295266356; device_id=f5c21e143ce8060c74a2de7cbcddf0b8; Hm_lvt_1db88642e346389874251b5a1eded6e3=1534295265,1534295722; Hm_lpvt_1db88642e346389874251b5a1eded6e3=1534295722',#'Host': 'xueqiu.com',#'Referer': 'https://xueqiu.com/','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',#'X-Requested-With': 'XMLHttpRequest',#'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}# urllib 的相关操作如下
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=-1&count=10&category=111'# request.Request
req = request.Request(url, headers=headers)# 通过request 请求我们的雪球
response = request.urlopen(req)res = response.read() # byte类型
## 字符串, 需要转成dict/list
#print(res)
## 转化函数 res_dict = json.loads(res)
res_dict = json.loads(res.decode('utf-8')) #字典类型
# print 这个res_dict
# print(res_dict)
# print('res_dict==',res_dict)
list_list = res_dict['list']
print()
print('list_list==',list_list)
# 遍历 list_list
for list_item_dict in list_list:# list 列表内的一个item, 他是一个dictdata_str = list_item_dict['data']print(data_str)print('-'*50)
import json
import requests# 因为不能访问, 所以我们加个头试试
headers = {#'Accept': '*/*',#'Accept-Encoding': 'gzip, deflate, br',#'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',#'Connection': 'keep-alive','Cookie': 'aliyungf_tc=AQAAALoQF3p02gsAUhVFebQ3uBBNZn+H; xq_a_token=584d0cf8d5a5a9809761f2244d8d272bac729ed4; xq_a_token.sig=x0gT9jm6qnwd-ddLu66T3A8KiVA; xq_r_token=98f278457fc4e1e5eb0846e36a7296e642b8138a; xq_r_token.sig=2Uxv_DgYTcCjz7qx4j570JpNHIs; _ga=GA1.2.516718356.1534295265; _gid=GA1.2.1050085592.1534295265; u=301534295266356; device_id=f5c21e143ce8060c74a2de7cbcddf0b8; Hm_lvt_1db88642e346389874251b5a1eded6e3=1534295265,1534295722; Hm_lpvt_1db88642e346389874251b5a1eded6e3=1534295722',#'Host': 'xueqiu.com',#'Referer': 'https://xueqiu.com/','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',#'X-Requested-With': 'XMLHttpRequest',#'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}# urllib 的相关操作如下
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=-1&count=10&category=111'
#
# # request.Request
# req = request.Request(url, headers=headers)
#
# # 通过request 请求我们的雪球
# response = request.urlopen(req)
#
# res = response.read()
# ## 字符串, 需要转成dict/listresponse = requests.get(url, headers=headers)
# res = response.content
#print(res)
## 转化函数 res_dict = json.loads(res)
res_dict = json.loads(response.text)# print 这个res_dict
#print(res_dict)list_list = res_dict['list']
#print(list_list)
# 遍历 list_list
for list_item_dict in list_list:# list 列表内的一个item, 他是一个dictdata_str = list_item_dict['data']print(data_str)print('-'*50)

爬虫--雪球网爬取(requests 和 request 的两种方法)相关推荐

  1. day04 爬取豌豆荚app数据的两种方法

    今日内容:方法一 bs4爬取豌豆荚 爬取豌豆荚: 1.访问游戏主页 https://www.wandoujia.com/category/6001 2.点击查看更多,观察network内的请求 - 请 ...

  2. Python3爬取有道翻译的两种方法

    一. 破解参数加密 有道翻译的请求是post,携带一系列参数,直接F12刷新进行调试,如下图所示: 这是一个 post 请求,目标网址是 'http://fanyi.youdao.com/transl ...

  3. 【知识学习】C# List<T>取并集并去重的两种方法时间消耗比较

    C# List<T>取并集并去重的两种方法时间消耗比较 文章目录 C# List\取并集并去重的两种方法时间消耗比较 前言 一.两种方法 二.时间计算方法 1.Stopwatch 三.数据 ...

  4. 雪球网爬取上市公司信息(一):爬取上市公司代号

    条件:有一批5g相关公司,只知道公司名字或是简称,不知道公司是否上市以及股票代码,需要爬取公司信息. 网站:雪球网 思路:上传关键字,爬取搜索结果网页,将有结果的公司信息抓取下来并存入数据库 1.在雪 ...

  5. 雪球网爬取数据并存入数据库

    创建数据库连接 from urllib import request import json import pymysqlclass mysql_connect(object):# 初始化的构造函数d ...

  6. 关于Python爬取热搜的另一种方法

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.BeautifulSoup是什么? 二.使用步骤 1.引入库 2.读入数据 总结 前言 本文主要介绍使用Beaut ...

  7. git 拉取远程分支到本地(两种方法)

    By: Ailson Jack Date: 2019.10.13 个人博客:http://www.only2fire.com/ 本文在我博客的地址是:http://www.only2fire.com/ ...

  8. 【Python爬虫】从零开始爬取Sci-Hub上的论文(串行爬取)

    [Python爬虫]从零开始爬取Sci-Hub上的论文(串行爬取) 维护日志 项目简介 步骤与实践 STEP1 获取目标内容的列表 STEP2 利用开发者工具进行网页调研 2.1 提取文章链接和分页链 ...

  9. 爬虫篇——User-Agent爬取备用及存储

    爬虫篇--User-Agent爬取备用及存储 代码 代码 本文通过抓取常见的User-Agent(用户代理),将其写入列表并保存为json格式文件,且将代码进行了封装,方便以后抓取数据时动态的更新请求 ...

  10. Python-爬虫(Scrapy爬虫框架,爬取豆瓣读书和评分)

    文章目录 1.Scrapy注意点 2. Scrapy爬取豆瓣读书和评分 代码部分 数据定义items.py 爬虫部分spiders/book.py 数据存储部分pipelines.py 启动爬虫执行c ...

最新文章

  1. 基于特征码文件恢复工具magicrescue
  2. 英语单词 voltage simulation synthesize junction asynchronous mega optimize
  3. 【转】指令周期,机器周期,时钟周期,振荡周期有什么关系
  4. 学习笔记(50):Python实战编程-Frame
  5. Xamarin支持微软HoloLens混合现实开发
  6. java jolt tuxedo_java通过jolt调用tuxedo服务.xls
  7. jar打包 jar line too long 异常处理方法
  8. infoq 视频下载 [转老赵]
  9. Linux系统的优缺点
  10. mysql 创建用户并授权_教你MySQL-8.0.x数据库授权
  11. 2.2同步访临界区(Synchronizing Access to Critical Section)
  12. 免费响应式html模板,值得收藏的25款免费响应式网页模板
  13. 逆向学习1-[脱壳技术]/篇1
  14. 时间管理之-----《暗时间》-刘未鹏
  15. 贴片元器件与插件元器件的区别在哪?
  16. oracle数据库怎么导出dat文件_论将数据从数据库导出为dat格式
  17. python 包络线_如何简明易懂地说明数据包络线分析法(DEA)?
  18. 69期-Java SE-035_MySQL-6 存储过程、SQL练习 -doing
  19. python拼图_用python的PIL库轻松拼接一百张照片
  20. 【JAVAWEB开发】带你零基础学JAVA项目(二嗨租车项目篇)

热门文章

  1. 谷歌学术打不开的解决办法
  2. Matlab 绘制 BP 神经网络图
  3. 使用Python脚本进行批量造数据
  4. acer switch 10 linux,【AcerSwitch10E评测】拆开来用的电脑 Acer Switch 10E评测(全文)_Acer Switch 10E_笔记本评测-中关村在线...
  5. golang学习之go方法
  6. 数据库系统原理——实验四
  7. kali2020.4 root权限下无法启动自带浏览器解决办法
  8. 高可用、全集成、定制化,蚂蚁金服自动化测试如何演进
  9. 合天网安实验室sql注入实验一 WRITE UP
  10. Unity第一视角流血受伤受攻击屏幕流血效果