爬取电影天堂电影详情和磁力链接

import requests
from lxml import etreeheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}base_url = 'https://www.dy2018.com'
detail_urls = []#  获取每部影片详情页面的url
def get_detail_urls(num):for i in range(1, num+1):if i == 1:url = base_url + '/html/gndy/dyzz/index.html'else:url = base_url + '/html/gndy/dyzz/index_%d.html' % iresponse = requests.get(url, headers=headers)result = response.content.decode('gbk')html = etree.HTML(result)urls = html.xpath("//table[@class='tbspan']//a/@href")for value in urls:detail_url = base_url + valuedetail_urls.append(detail_url)# 提取需要的数据
def parse_detail_page(url,movies):response = requests.get(url,headers=headers)result = response.content.decode('gbk')html = etree.HTML(result)details = html.xpath("//div[@id='Zoom']")movie = {}for detail in details:infos = detail.xpath(".//text()")for index,info in enumerate(infos):if info.startswith("◎片　　名"):title = info.replace("◎片　　名","").strip()movie['movie_name'] = titleelif info.startswith("◎年　　代"):year = info.replace("◎年　　代","").strip()movie['movie_year'] = yearelif info.startswith("◎产　　地"):address = info.replace("◎产　　地","").strip()movie['movie_address'] = addresselif info.startswith("◎类　　别"):category = info.replace("◎类　　别","").strip()movie['movie_category'] = categoryelif info.startswith("◎语　　言"):language = info.replace("◎语　　言", "").strip()movie['movie_language'] = languageelif info.startswith("◎豆瓣评分"):score = info.replace("◎豆瓣评分", "").strip()movie['douban_score'] = scoreelif info.startswith("◎导　　演"):director = info.replace("◎导　　演", "").strip()movie['movie_director'] = directorelif info.startswith("◎主　　演"):actor = info.replace("◎主　　演", "").strip()actors = []actors.append(actor)for x in range(index+1,len(infos)):       # 获取所有主演if infos[x].startswith("◎简　　介"):breakactor = infos[x].strip()actors.append(actor)movie['movie_actors'] = actorselif info.startswith("◎简　　介"):for x in range(index+1,index+3):intro = infos[x]movie['movie_intro'] = introdownload_url = html.xpath(".//td[@bgcolor='#fdfddf']//a/text()")for index,url in enumerate(download_url):if url.find("电影天堂"):del download_url[index]movie['download_url'] = download_urlmovies.append(movie)if __name__ == '__main__':movies = []num = int(input("请输入需要的爬取的页数："))get_detail_urls(num)for url in detail_urls:parse_detail_page(url,movies)for movie in movies:for key,value in movie.items():print(key + "：",end="")print(value)print()print()

爬取电影天堂电影详情和磁力链接相关推荐

爬取电影天堂电影列表和详情页
爬取电影天堂电影列表和详情页 import requests from lxml import etreebase_list_url = 'https://www.dytt8.net'headers ...
使用requests库和lxml解析爬取电影天堂电影信息
使用requests库获取电影天堂电影信息,将所有链接保存下来后可以使用迅雷批量下载.快速获得最新最全电影资源! 站点分析以电影天堂国内电影为例 http://www.ygdy8.net/html/ ...
python3爬虫：爬取电影天堂电影信息
python3爬虫:爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 from lxml import etree import requestsBASE_ ...
python爬电影天堂_python爬虫爬取电影天堂电影
python爬虫爬取电影天堂电影?本项目实现一个简单的爬虫,通过requests和BeautifulSoup爬取电影天堂电影信息,包括片名.年代.产地.类别.语言.海报链接和视频链接等内容.pytho ...
requests+xpath爬取电影天堂电影信息
电影天地网址:http://www.ygdy8.net/html/gndy/china/list_4_1.html 目标: 1.爬取电影天堂的国内电影一栏的所有电影的url 2.进入每个电影的url获 ...
python爬取电影天堂电影信息
from lxml import etree import requests # url='https://www.dytt8.net/html/gndy/dyzz/index.html' heade ...
如何利用 C# 爬取「猫眼电影：国内票房榜」及对应影片信息！
以前我写过一些爬取猫眼电影数据的图文: 如何利用 C# 爬取「猫眼电影专业版:票房」数据? 如何利用 C# 爬取「猫眼电影:热映口碑榜」及对应影片信息? 如何利用 C# 爬取「猫眼电影:最受期待榜」及 ...
python爬取豆瓣排行榜电影(静态爬取)(二次爬取)
目录 python爬取豆瓣排行榜电影(静态爬取) 获取网站url 获取网站headers get请求访问url BeautifulSoup解析网站爬取html数据完整代码 python爬取豆瓣排行 ...
爬取豆瓣TOP250电影的评分、评价人数、短评等信息，并在其保存在sql数据库中。
爬取目标爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在sql数据库中. 最终实现效果如图: 确定爬取的URL 爬取的网页地址为:https://movie.douban.com/ ...
剧荒不慌 | 手把手教你爬取+DIY豆瓣电影新榜单
作者 | 吹牛Z 来源 | 数据不吹牛(ID:shujubuchuiniu) 本文以豆瓣电影(非TOP250)为例,从数据爬取.清洗与分析三个维度入手,详解和还原数据爬取到分析的全链路.阅读全文大概需 ...

爬取电影天堂电影详情和磁力链接

爬取电影天堂电影详情和磁力链接相关推荐

最新文章

热门文章