用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序
抓取豆瓣电影(http://movie.douban.com/nowplaying/chengdu/)中的正在热映前12部电影,并按照评分排序,保存至txt文件
1 #coding=utf-8 2 from selenium import webdriver 3 import unittest 4 from time import sleep 5 6 class DoubanMovie(unittest.TestCase): 7 8 def setUp(self): 9 self.dr = webdriver.Chrome() 10 self.top_movie_list = self.get_douban_movies_top12() 11 self.movie = self.get_movie_top12_file() 12 13 def get_douban_movies_top12(self): 14 '''获取豆瓣电影成都地区正在上映的前12部电影名字及评分''' 15 self.dr.get("https://movie.douban.com/nowplaying/chengdu/") 16 sleep(3) 17 movie_list = []#定义空list为后面存放电影名字和电影评分作准备 18 i = 0 19 while i < 60: #12*5=60 20 movie_name = self.dr.find_elements_by_css_selector('.lists li')[i].get_attribute('data-title')#定位电影名字 21 movie_grand = self.dr.find_elements_by_css_selector('.lists li')[i].get_attribute('data-score')#定位电影评分 22 movie_list.append([movie_name,movie_grand])#向空list追加插入获取的电影名字和电影评分 23 i += 5 #每个电影的li标签间隔为5个 24 movie_list.sort(key=lambda x:x[1], reverse=True)#利用sort中key方法来根据电影评分高到低对所获取的电影进行排序(movie_list = sorted(movie_list, key=lambda movie: movic[1], reverse=True) # sort by movie_grand 倒序) 25 return movie_list 26 27 def get_movie_top12_file(self): 28 self.file_title = '豆瓣电影成都地区正在上映的前12部电影' 29 self.file = open(self.file_title + '.txt', 'wb') 30 for item in self.top_movie_list: 31 self.file.write(('电影名字:' + item[0] + ' ' + '电影评分:' + item[1] + '\n').encode('utf-8')) 32 self.file.close() 33 34 def test_movie(self): 35 pass 36 print("获取完毕") 37 38 def tearDown(self): 39 self.dr.quit() 40 41 if __name__ == '__main__': 42 unittest.main()
注:电影中暂无评分记为0分。
转载于:https://www.cnblogs.com/cnkemi/p/6172126.html
用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序相关推荐
- python爬取豆瓣读书_用python+selenium抓取豆瓣读书中最受关注图书并按照评分排序...
抓取豆瓣读书中的(http://book.douban.com/)最受关注图书,按照评分排序,并保存至txt文件中,需要抓取书籍的名称,作者,评分,体裁和一句话评论 方法一:#coding=utf-8 ...
- 编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法
这篇文章主要介绍了编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法,用到了Python的urllib和urllib2模块,需要的朋友可以参考下 抓取豆瓣电影TOP100 一.分析豆瓣top ...
- python,抓取豆瓣电影,再也不用担心没有看不了的电影了
1. 豆瓣抓站流程 分析url特征(菜鸟阶段) 对需要抓取的数据设计正则表达式 处理HTML中一些特征字符,换行符等 注意异常的处理和字符编码的处理 2. 实现的功能 简单的实现了抓取豆瓣电影Top1 ...
- [Python] python + selenium 抓取 京东商品数据(商品名称,售价,店铺,分类,订单信息,好评率,评论等)
目录 一.环境 二.简介 三.京东网页分析 1.获取商品信息入口--商品列表链接获取 2.获取商品信息入口--商品详情链接获取 3.商品详情获取 4.商品评论获取 四.代码实现 五.运行结果 六.结语 ...
- 【Python_006】Python爬虫抓取豆瓣电影影评
写在前面: 我在上一篇博客中[Python_005]利用jieba及wordcloud生成词频及词云图 ,为了测试切词和词云图的效果,从豆瓣爬了电影的100条短评,本篇博客就来分享一下如何爬豆瓣影评 ...
- Python selenium抓取微博内容的示例代码
Selenium简介与安装 Selenium是什么? Selenium也是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE. ...
- python爬携程_用python selenium抓取携程信息
最近在学习selenium,遇到一个很奇怪的问题,debug了半天还是没弄明白,我是在测试抓取携程网站的机票信息 我的代码: # -*- coding: utf-8 -*- from selenium ...
- Python+selenium 抓取美团单页接口数据里的用户评论和用户名称以及打分数据
一.原理 selenium的原理很简单,就是模拟人对浏览器的操作,人是怎么操作的,在编写代码时就以这个为逻辑来进行编写.编写起来很是简单,并且也能够很容易纠错. 缺点是,速度比较慢,抓取起来耗时,并且 ...
- python爬取携程网游记_网页爬虫 - 用python selenium抓取携程信息
问 题 最近在学习selenium,遇到一个很奇怪的问题,debug了半天还是没弄明白,我是在测试抓取携程网站的机票信息 我的代码: # -*- coding: utf-8 -*- from sele ...
最新文章
- 透彻理解高斯核函数背后的哲学思想与数学思想
- 报告解读 | 智能技术“核聚变”催生智能经济,将拉动十万亿市场
- error LNK1104: 无法打开文件“ComService.lib”
- python从入门到精通视频-python从入门到精通视频(大全60集)
- excel 中一些单词的意思
- Mysql 中转换表的引擎
- 复合选择器-链接伪类选择器(HTML、CSS)
- MVC4 Action
- Hadoop HA详解
- Tomcat配置监听80端口、配置虚拟主机、日志
- 深度Linux与永中集成Office相聚在未来
- “github中文版”来了,这个神器一键帮你汉化
- 黑群晖DSM 6.1网卡支持列表
- C++sort函数使用(成绩排名)
- 中文维基百科数据爬取与预处理
- Git使用小记——复制粘贴快捷键的修改
- 基于Java的图书管理系统(附源码和课件)
- perl学习笔记-----------------------(8)
- PHP网页的工作原理
- python爬虫可视化web展示_python爬虫可视化——小龙虾
热门文章
- Ubuntu 20.04安装Unreal 4.24
- 最新超多制作模板的姓氏头像生成器小程序源码
- HDU - 3091
- 达梦数据库,备份目录冲突
- MFC PictureControl 空间实现GIF图片的动态显示
- 微软MSDN webcast 视频课程下载
- linux set命令详解
- 华为云位置服务器,gps云位置服务器
- IOS resign error: dyld: Library not loaded: @rpath/libswift_stdlib_core.dylib
- jQuery的toggle