# -*- coding: utf-8 -*-

# @Time : 2019/11/5 23:18

# @Author : AForever

# @Site :

# @File : Spider_05.py

# @Software: PyCharm

# 处理json数据

from urllib import request

import json

def get_data():

url = "https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=400&page_start=0"

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36"

}

req = request.Request(url, headers=headers)

response = request.urlopen(req)

if response.getcode() == 200:

result = response.read()

# print(type(result)) # bytes类型

# print(result)

result = str(result, encoding="utf8")

print(result)

return result

def parse_data(html):

# 将字符串形式的json转换为dict字典

data = json.loads(html)

movies = data["subjects"]

for movie in movies:

print(movie["title"], movie["rate"])

if __name__ == "__main__":

# get_data()

parse_data(get_data())

原文地址:https://www.cnblogs.com/AForever01/p/11986622.html

python urllib.request 爬虫 数据处理-python爬虫之json数据处理相关推荐

  1. python urllib.request 爬虫 数据处理-运维学python之爬虫基础篇(二)urllib模块使用...

    1 何为爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引. ...

  2. python urllib.request 爬虫 数据处理-python 爬虫之 urllib库

    文章更新于:2020-03-02 注:代码来自老师授课用样例. 一.初识 urllib 库 在 python2.x 版本,urllib 与urllib2 是两个库,在 python3.x 版本,二者合 ...

  3. python urllib.request 爬虫 数据处理-python之爬虫(三) Urllib库的基本使用

    什么是Urllib Urllib是python内置的HTTP请求库 包括以下模块 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模 ...

  4. python urllib.request 爬虫 数据处理-Python爬虫学习之(二)| urllib进阶篇

    作者:xiaoyu 微信公众号:Python数据科学 知乎:Python数据分析师 前情回顾,urllib的基本用法 urllib库的基本组成 利用最简单的urlopen方法爬取网页html 利用Re ...

  5. python urllib.request 爬虫 数据处理-Python网络爬虫(基于urllib库的get请求页面)

    一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...

  6. python urllib.request 爬虫 数据处理-使用Python3.5写简单网络爬虫

    <一>用urllib库访问URL并采集网络数据 -1. 直接采集 发送请求,打开URL,打印传回的数据(html文件) - 2. 模拟真实浏览器访问 1)发送http头信息(header) ...

  7. python urllib.request 爬虫 数据处理-python爬虫1--urllib请求库之request模块

    urllib为python内置的HTTP请求库,包含四个模块: request:最基本的HTTP请求模块, 只需要传入URL和参数 error:异常处理模块 parse:工具模块,处理URL,拆分.解 ...

  8. python urllib.request 爬虫 数据处理-python爬虫 urllib模块url编码处理

    案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为"周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.s ...

  9. python urllib.request 爬虫 数据处理-python爬虫 urllib模块url编码处理详解

    案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为"周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.s ...

  10. python urllib发送post请求_python爬虫 urllib模块发起post请求过程解析

    urllib模块发起的POST请求 案例:爬取百度翻译的翻译结果 1.通过浏览器捉包工具,找到POST请求的url 针对ajax页面请求的所对应url获取,需要用到浏览器的捉包工具.查看百度翻译针对某 ...

最新文章

  1. 网络常用命令收藏与整理
  2. [密码学基础][每个信息安全博士生应该知道的52件事][Bristol52]46.Sigma协议正确性、公正性和零知识性
  3. html++标签页+界面,CSS+DIV实现多标签页面。
  4. java通过POI技术将html转成word
  5. 复旦邱锡鹏Lab提出:一个统一的面向基于Aspect的所有情感分析子任务的生成式方法...
  6. 如何在Mac上设置QLab工作区
  7. Linux kmalloc/kfree 源码解读
  8. 数据库设计-简化字典表
  9. java7 xp版下载64位,xp32位系统可用最高版本jdk64位系统win10 64位系统
  10. 转载:啤酒文化历史渊源
  11. python里的百分号_python中的百分号
  12. android空间深度清理,安卓手机垃圾深度清理技巧
  13. 蓝牙协议规范(射频、基带链路控制、链路管理)
  14. 连接查询之内连接(等值连接、非等值连接和自连接)
  15. 看动画理解「链表」实现LRU缓存淘汰算法
  16. 【置顶】资源分享【更新2022.10.17】
  17. TCP协议的通讯流程
  18. 使用 VSCode 编辑器来编译 Sass,自动生成对应的css
  19. java硬币兑换_java程序题:把一元钞票换成一分、二分、五分硬币(每种至少一枚),有哪些种换法...
  20. 视频编辑软件中滚动字幕如何能停下来

热门文章

  1. httpclient工具使用(org.apache.httpcomponents.httpclient)
  2. Leetcode 383 Ransom Note
  3. 360浏览器使用评价
  4. C#与西门子PLC通讯
  5. 细说angular Form addControl方法
  6. Readyfor4GB帮你的32位Win7用4G内存
  7. 【转】基本概念:过拟合、修剪、假正、假负
  8. 软件测试用python一般用来做什么-想要成为一个优秀的软件测试人员,应该学些什么?...
  9. python读取excel部分值存入另一个excel-python3读取excel文件只提取某些行某些列的值方法...
  10. 重庆python培训-重庆Python培训学校