用chorme(切换为安卓手机)到达豆瓣英美剧页面

搜索item得到json文件位置和requests请求url

爬虫中设置自己的header(要有referer,不然爬不到)并且删除多余的url

self.url_temp = "https://m.douban.com/rexxar/api/v2/subject_collection/tv_american/items?os=android&for_mobile=1&start={}&count=18&loc_id=108288&_"
self.headers = {"User-Agent": "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Mobile Safari/537.36","Referer":"https://m.douban.com/tv/american"}

代码

import requests
import jsonclass DoubanSpider:def __init__(self):self.url_temp = "https://m.douban.com/rexxar/api/v2/subject_collection/tv_american/items?os=android&for_mobile=1&start={}&count=18&loc_id=108288&_"self.headers = {"User-Agent": "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Mobile Safari/537.36","Referer":"https://m.douban.com/tv/american"}def pares_url(self,url): #发送请求print(url)response = requests.get(url,headers=self.headers)return response.content.decode()def get_content_list(self,json_str): #提取数据dict_ret = json.loads(json_str)#print(dict_ret)content_list = dict_ret["subject_collection_items"]return content_listdef save_content_list(self,content_list):#保存with open("douban.txt","a",encoding="utf-8") as f:for content in content_list:f.write(json.dumps(content,ensure_ascii=False))f.write("\n")#写入换行符print('保存成功')def run(self):#实现主要逻辑输出num = 0while True:#1.start_urlurl = self.url_temp.format(num)#2.发送请求,获取响应json_str = self.pares_url(url)#3.提取数据content_list = self.get_content_list(json_str)#4.保存self.save_content_list(content_list)if len(content_list)<18:break#5.构造下一页地址,循环num += 18if __name__ == "__main__":doubanspider = DoubanSpider()doubanspider.run()

爬虫练习--豆瓣英美剧爬虫相关推荐

  1. Python爬虫(5):豆瓣读书练手爬虫

    Python爬虫(5):豆瓣读书练手爬虫 我们在之前的文章中基本上掌握了Python爬虫的原理和方法,不知道大家有没有练习呢.今天我就来找一个简单的网页进行爬取,就当是给之前的兵书做一个实践.不然不就 ...

  2. python 爬取豆瓣的美剧

    pc版大概有500条记录,mobile大概是50部,只有热门的,所以少一点 url构造很简单,主要参数就是page_limit与page_start,每翻一页,start+=20即可,tag是&quo ...

  3. 优酷爱奇艺等已叫停引进海外剧:英美剧日本动漫皆受影响

    优酷爱奇艺等已叫停引进海外剧:英美剧日本动漫皆受影响 张朝阳表示,这次的美剧被禁只是个案,相信这"不代表总局对于美剧在中国整体策略的变化". 不过,记者从优酷.爱奇艺等多家视频网站 ...

  4. 良心推荐:看完这10部豆瓣高分美剧,英语水平提升几个Level!

    看美剧学英语是很多人的认知. 之所以选择从"电影"入手,最主要的原因是通过看英语原声电影学英语的那段经历,对他后来的发音和听说综合能力的提升起到了极大的作用. 电影中的是Real ...

  5. python3 --小爬虫(爬取美剧字幕)

    # !bin/usr/env python3 # coding=utf-8 import re import urllib.request from bs4 import BeautifulSoup' ...

  6. xhr get获取文件流下载文件_python爬虫实战——豆瓣电影get初体验

    影评许可证 公众号[2019]第22期 本栏目由"数据皮皮侠"独家呈献 专场 python爬虫实战--豆瓣电影get初体验 2019.10.28 / 早上7点场 / 免费 本期&q ...

  7. Python爬虫爬取美剧网站

    一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了. 但是,作为一个宅dia ...

  8. Python爬虫带你爬取美剧网站

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云,作者:哲洛不闹 一直有爱看美剧的习惯,一方面锻炼一下英语听力 ...

  9. python爬虫实战:爬取美剧网站

    一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了.但是,作为一个宅diao ...

最新文章

  1. mysql基础之视图
  2. Darwin Streaming Server服务器mp4文件点播返回”415 Unsupported Media Type“错误
  3. iOS中的UIView
  4. Thymeleaf一些标签的传字符串/message/消息
  5. 吉首大学2019年程序设计竞赛
  6. 5种成交话术,帮你多拿订单,挠到客户痒处,才有成交希望
  7. C#中upd分包与发送,已经实现全部代码
  8. 哈工大讯飞联合实验室发布法律领域ELECTRA预训练模型
  9. MySQL中的四种Key
  10. python计算圆环的面积_基于Python制作美观动态圆环图、饼图
  11. Asp.Net基础 - 6.Cookie + 7.Session原理
  12. Starting Programe
  13. Python基础学习笔记-第一章
  14. html+css+支付宝页面,HTML+CSS+JS简单实现支付宝付款界面效果
  15. css3 移动端video视频全屏,横屏展示,适配微信/打包成app
  16. PYNQ框架HLS开发流程备忘
  17. Windows10下安装Centos7系统及常见问题
  18. 设计模式-备忘录模式(快照模式)
  19. Unity3D网页插件
  20. jenkins邮件配置和邮件发送

热门文章

  1. 2020省赛总结与反思
  2. mybatis (高级映射 缓存 延迟加载)
  3. Mac无法开机?别着急看这里
  4. java毕业设计毕业论文答辩管理系统Mybatis+系统+数据库+调试部署
  5. ac2100 反弹shell无法粘贴_【1029精简稳定版OpenWrt】红米&小米AC2100|帕斯沃|多拨|SmartD...
  6. php禁用session和cookies,session与cookie的区别是什么?如果客户端禁用了cookie功能,将会对session有什么影响?...
  7. 文献翻译平台(自用)
  8. Java基础知识提炼与总结
  9. c语言一元多项式相加
  10. 室内地图导航系统基础功能与衍生服务详解