爬取94神马网的电影信息

1.程序如下

import requests
from lxml import etree
import json
Base_download='http://www.9rmb.com'#后期每一电影的拼接基础
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}
def spider():base_url='http://www.9rmb.com/type/1/{}.html'#每一页电影的基础movies=[]for num in range(1,8):join_url=base_url.format(num)#进行电影地址的拼接detail_urls=get_detail_urls(join_url)#调用每一个电影的网址print(detail_urls)for urls in detail_urls:#对每一个电影进行提取movie=parse_detail_page(urls)movies.append(movie)print(movie)print(type(movie))#将获取到信息放入到文件中with open('11.txt','a',encoding='utf-8')as f:json.dump(movie,f,ensure_ascii=False)#最后一个为了获得是utf8f.write('\n')
def get_detail_urls(urls):#蒋电影网页中的每一电影连接获取到并返回给调用函数r1=requests.get(url=urls,headers=headers)r1_element=etree.HTML(r1.text)detail_url=r1_element.xpath('//div[@class="movie-item"]/a/@href')detail_urls=map(lambda url:Base_download+url,detail_url)#得到一个生成器return detail_urls
def parse_detail_page(urls):#进行电影目的的获取movie={}resp=requests.get(urls,headers=headers).content.decode('utf-8','ignore')resp_element=etree.HTML(resp)title=resp_element.xpath('//div[@class="col-md-12"]/h1/text()')[0]#获取电影名称movie['title']=titlemain_actors=resp_element.xpath('//td[@id="casts"]/text()')[0]movie['actors']=main_actors#获取电影演员coutry=resp_element.xpath('//tr[4]/td[2]/text()')[0]movie['country']=coutry#获取电影的国家evaluate=resp_element.xpath('//a[@class="score"]/text()')[0]movie['evaluate']=evaluate #获取电影评价return movie
if __name__=='__main__':spider()f=open('11.txt','w',encoding='utf-8')f.close()

编写过程参考了：
https://blog.csdn.net/qq_43515464/article/details/102969930?

爬取94神马网的电影信息相关推荐

python爬虫教程：Scrapy框架爬取Boss直聘网Python职位信息的源码
今天小编就为大家分享一篇关于Scrapy框架爬取Boss直聘网Python职位信息的源码,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧分析使用Crawl ...
爬取豆瓣评分前50的电影信息
文章目录项目描述内容模块代码区运行测试项目描述根据豆瓣评分排名,获取豆瓣评分前50的电影信息.主要包括:电影名称.电影评分.评价人数和电影短评信息,并存储到本地表格文件. 内容模块使用r ...
Scrapy框架爬取Boss直聘网Python职位信息的源码
分析使用CrawlSpider结合LinkExtractor和Rule爬取网页信息 LinkExtractor用于定义链接提取规则,一般使用allow参数即可 LinkExtractor(allow ...
Scrapy框架学习 - 爬取Boss直聘网Python职位信息
分析使用CrawlSpider结合LinkExtractor和Rule爬取网页信息 LinkExtractor用于定义链接提取规则,一般使用allow参数即可 LinkExtractor(allow ...
从IMDB上爬取MovieLens数据集中的详细电影信息
文章目录基于协同过滤的电影推荐系统数据集 HTML页面分析爬虫代码运行时间百度网盘链接基于协同过滤的电影推荐系统用这个数据集实现了一个小型的电影推荐网站,GitHub代码数据集数据集 ...
Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...
爬去豆瓣网中电影信息并保存到本地目录当中
爬取豆瓣网中电影信息并保存到本地目录当中读者可以根据源代码来设计自己的爬虫,url链接不能通用,由于源代码中后续查找筛选中有不同类或者标签名,仅供参考,另外推荐b站上一个老师,叫路飞学城IT的,讲的 ...
如何利用 C# 爬取「中国图书网 - 计算机与互联网图书销量榜」！
每周一,我们会爬取「京东」.「当当」.「互动出版网」和「中国图书网」的图书7日销量数据并做一份榜单,已经持续一段时间了,从后台阅读量的统计数据来看,对辅助大家选购计算机类书籍还是有帮助的.如果大家对这 ...
Python爬虫爬取豆瓣TOP250和网易云歌单
python爬虫(网易云)笔记 @(python学习) 先推荐看一下b站的视频链接如下:https://www.bilibili.com/video/BV12E411A7ZQ?from=search& ...

爬取94神马网的电影信息

爬取94神马网的电影信息相关推荐

最新文章

热门文章