1.程序如下

import requests
from lxml import etree
import json
Base_download='http://www.9rmb.com'#后期每一电影的拼接基础
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}
def spider():base_url='http://www.9rmb.com/type/1/{}.html'#每一页电影的基础movies=[]for num in range(1,8):join_url=base_url.format(num)#进行电影地址的拼接detail_urls=get_detail_urls(join_url)#调用每一个电影的网址print(detail_urls)for urls in detail_urls:#对每一个电影进行提取movie=parse_detail_page(urls)movies.append(movie)print(movie)print(type(movie))#将获取到信息放入到文件中with open('11.txt','a',encoding='utf-8')as f:json.dump(movie,f,ensure_ascii=False)#最后一个为了获得是utf8f.write('\n')
def get_detail_urls(urls):#蒋电影网页中的每一电影连接获取到并返回给调用函数r1=requests.get(url=urls,headers=headers)r1_element=etree.HTML(r1.text)detail_url=r1_element.xpath('//div[@class="movie-item"]/a/@href')detail_urls=map(lambda url:Base_download+url,detail_url)#得到一个生成器return detail_urls
def parse_detail_page(urls):#进行电影目的的获取movie={}resp=requests.get(urls,headers=headers).content.decode('utf-8','ignore')resp_element=etree.HTML(resp)title=resp_element.xpath('//div[@class="col-md-12"]/h1/text()')[0]#获取电影名称movie['title']=titlemain_actors=resp_element.xpath('//td[@id="casts"]/text()')[0]movie['actors']=main_actors#获取电影演员coutry=resp_element.xpath('//tr[4]/td[2]/text()')[0]movie['country']=coutry#获取电影的国家evaluate=resp_element.xpath('//a[@class="score"]/text()')[0]movie['evaluate']=evaluate #获取电影评价return movie
if __name__=='__main__':spider()f=open('11.txt','w',encoding='utf-8')f.close()

编写过程参考了:
https://blog.csdn.net/qq_43515464/article/details/102969930?

爬取94神马网的电影信息相关推荐

  1. python爬虫教程:Scrapy框架爬取Boss直聘网Python职位信息的源码

    今天小编就为大家分享一篇关于Scrapy框架爬取Boss直聘网Python职位信息的源码,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧 分析 使用Crawl ...

  2. 爬取豆瓣评分前50的电影信息

    文章目录 项目描述 内容模块 代码区 运行测试 项目描述 根据豆瓣评分排名,获取豆瓣评分前50的电影信息.主要包括:电影名称.电影评分.评价人数和电影短评信息,并存储到本地表格文件. 内容模块 使用r ...

  3. Scrapy框架爬取Boss直聘网Python职位信息的源码

    分析 使用CrawlSpider结合LinkExtractor和Rule爬取网页信息 LinkExtractor用于定义链接提取规则,一般使用allow参数即可 LinkExtractor(allow ...

  4. Scrapy框架学习 - 爬取Boss直聘网Python职位信息

    分析 使用CrawlSpider结合LinkExtractor和Rule爬取网页信息 LinkExtractor用于定义链接提取规则,一般使用allow参数即可 LinkExtractor(allow ...

  5. 从IMDB上爬取MovieLens数据集中的详细电影信息

    文章目录 基于协同过滤的电影推荐系统 数据集 HTML页面分析 爬虫代码 运行时间 百度网盘链接 基于协同过滤的电影推荐系统 用这个数据集实现了一个小型的电影推荐网站,GitHub代码 数据集 数据集 ...

  6. Java爬虫系列之实战:爬取酷狗音乐网 TOP500 的歌曲(附源码)

    在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...

  7. 爬去豆瓣网中电影信息并保存到本地目录当中

    爬取豆瓣网中电影信息并保存到本地目录当中 读者可以根据源代码来设计自己的爬虫,url链接不能通用,由于源代码中后续查找筛选中有不同类或者标签名,仅供参考,另外推荐b站上一个老师,叫路飞学城IT的,讲的 ...

  8. 如何利用 C# 爬取「中国图书网 - 计算机与互联网图书销量榜」!

    每周一,我们会爬取「京东」.「当当」.「互动出版网」和「中国图书网」的图书7日销量数据并做一份榜单,已经持续一段时间了,从后台阅读量的统计数据来看,对辅助大家选购计算机类书籍还是有帮助的.如果大家对这 ...

  9. Python爬虫爬取豆瓣TOP250和网易云歌单

    python爬虫(网易云)笔记 @(python学习) 先推荐看一下b站的视频链接如下:https://www.bilibili.com/video/BV12E411A7ZQ?from=search& ...

最新文章

  1. 【分布式】分布式事务解决方案概述
  2. C# 中特性(Attribute)的使用简介
  3. mysql+odbc+ado_MFC ado+mysql+odbc技术分享
  4. C/C++ 线程三种并发方式比较(传统互斥量加锁方式, no lock不加锁的方式, 原子函数方式)
  5. BeginnersBook Perl 教程
  6. java私有方法单元测试_如何通过java反射的方式对java私有方法进行单元测试
  7. instanceof 和 构造函数
  8. Linux下make -j加快编译速度
  9. 工信部强化车联网安全监管、上云可有效阻止勒索攻击|全球网络安全热点
  10. 使用vue构建一个可视化大数据平台
  11. win10下安装 迅雷精简版,提示阻止此应用
  12. python全栈马哥_马哥Python全栈+爬虫+高端自动化,资源教程下载
  13. 复合梯形公式C语言程序,C语言复合梯形公式实现定积分
  14. gtx1060 能用catia软件吗_性能炸天!资深IT大叔详测Precision 7730工作站
  15. Ubuntu设置Root用户开机启动
  16. html css 画梯形,css怎么画梯形?
  17. 天猫精灵使用体验之一——天猫精灵初体验
  18. 瑞萨单片机CS+ for CC 与Renesas Flash Programme软件的使用-学习记录
  19. Go学习笔记_环境搭建
  20. linux部署的Oracle 11G数据库创建实例

热门文章

  1. ligerui 表格滚动条放在表格里,固定表头
  2. chrome控制台设置网页自动刷新
  3. 展讯7731C_M Android6.0 充电指示灯实现(一)------关机充电实现【转】
  4. 不服来试试,Excel中被吹上天的Ctrl+E,到底有多厉害?
  5. 宋体测试液晶屏测试小程序
  6. 【算法竞赛模板】二分图(染色法、匈牙利法)
  7. VxWorks 引导程序(BIOS/BootLoader/Bootrom)
  8. 【Midjourney实操】逼真到颤抖!保姆级教程教生成效果炸裂的图片
  9. 经典排序算法学习笔记二——快速排序
  10. IE6、IE7、IE8之IE多版本共存的几种方法(转)