用chorme（切换为安卓手机）到达豆瓣英美剧页面

搜索item得到json文件位置和requests请求url

爬虫中设置自己的header（要有referer，不然爬不到）并且删除多余的url

self.url_temp = "https://m.douban.com/rexxar/api/v2/subject_collection/tv_american/items?os=android&for_mobile=1&start={}&count=18&loc_id=108288&_"
self.headers = {"User-Agent": "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Mobile Safari/537.36","Referer":"https://m.douban.com/tv/american"}

代码

import requests
import jsonclass DoubanSpider:def __init__(self):self.url_temp = "https://m.douban.com/rexxar/api/v2/subject_collection/tv_american/items?os=android&for_mobile=1&start={}&count=18&loc_id=108288&_"self.headers = {"User-Agent": "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Mobile Safari/537.36","Referer":"https://m.douban.com/tv/american"}def pares_url(self,url): #发送请求print(url)response = requests.get(url,headers=self.headers)return response.content.decode()def get_content_list(self,json_str): #提取数据dict_ret = json.loads(json_str)#print(dict_ret)content_list = dict_ret["subject_collection_items"]return content_listdef save_content_list(self,content_list):#保存with open("douban.txt","a",encoding="utf-8") as f:for content in content_list:f.write(json.dumps(content,ensure_ascii=False))f.write("\n")#写入换行符print('保存成功')def run(self):#实现主要逻辑输出num = 0while True:#1.start_urlurl = self.url_temp.format(num)#2.发送请求,获取响应json_str = self.pares_url(url)#3.提取数据content_list = self.get_content_list(json_str)#4.保存self.save_content_list(content_list)if len(content_list)<18:break#5.构造下一页地址,循环num += 18if __name__ == "__main__":doubanspider = DoubanSpider()doubanspider.run()

爬虫练习--豆瓣英美剧爬虫相关推荐

Python爬虫(5):豆瓣读书练手爬虫
Python爬虫(5):豆瓣读书练手爬虫我们在之前的文章中基本上掌握了Python爬虫的原理和方法,不知道大家有没有练习呢.今天我就来找一个简单的网页进行爬取,就当是给之前的兵书做一个实践.不然不就 ...
python 爬取豆瓣的美剧
pc版大概有500条记录,mobile大概是50部,只有热门的,所以少一点 url构造很简单,主要参数就是page_limit与page_start,每翻一页,start+=20即可,tag是&quo ...
优酷爱奇艺等已叫停引进海外剧：英美剧日本动漫皆受影响
优酷爱奇艺等已叫停引进海外剧:英美剧日本动漫皆受影响张朝阳表示,这次的美剧被禁只是个案,相信这"不代表总局对于美剧在中国整体策略的变化". 不过,记者从优酷.爱奇艺等多家视频网站 ...
良心推荐：看完这10部豆瓣高分美剧，英语水平提升几个Level！
看美剧学英语是很多人的认知. 之所以选择从"电影"入手,最主要的原因是通过看英语原声电影学英语的那段经历,对他后来的发音和听说综合能力的提升起到了极大的作用. 电影中的是Real ...
python3 --小爬虫（爬取美剧字幕）
# !bin/usr/env python3 # coding=utf-8 import re import urllib.request from bs4 import BeautifulSoup' ...
xhr get获取文件流下载文件_python爬虫实战——豆瓣电影get初体验
影评许可证公众号[2019]第22期本栏目由"数据皮皮侠"独家呈献专场 python爬虫实战--豆瓣电影get初体验 2019.10.28 / 早上7点场 / 免费本期&q ...
Python爬虫爬取美剧网站
一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了. 但是,作为一个宅dia ...
Python爬虫带你爬取美剧网站
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云,作者:哲洛不闹一直有爱看美剧的习惯,一方面锻炼一下英语听力 ...
python爬虫实战：爬取美剧网站
一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了.但是,作为一个宅diao ...

爬虫练习--豆瓣英美剧爬虫

用chorme（切换为安卓手机）到达豆瓣英美剧页面

搜索item得到json文件位置和requests请求url

爬虫中设置自己的header（要有referer，不然爬不到）并且删除多余的url

代码

爬虫练习--豆瓣英美剧爬虫相关推荐

最新文章

热门文章