用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序

抓取豆瓣电影(http://movie.douban.com/nowplaying/chengdu/)中的正在热映前12部电影，并按照评分排序，保存至txt文件

 1 #coding=utf-8
 2 from selenium import webdriver
 3 import unittest
 4 from time import sleep
 5
 6 class DoubanMovie(unittest.TestCase):
 7
 8     def setUp(self):
 9         self.dr = webdriver.Chrome()
10         self.top_movie_list = self.get_douban_movies_top12()
11         self.movie = self.get_movie_top12_file()
12
13     def get_douban_movies_top12(self):
14         '''获取豆瓣电影成都地区正在上映的前12部电影名字及评分'''
15         self.dr.get("https://movie.douban.com/nowplaying/chengdu/")
16         sleep(3)
17         movie_list = []#定义空list为后面存放电影名字和电影评分作准备
18         i = 0
19         while i < 60:  #12*5=60
20             movie_name = self.dr.find_elements_by_css_selector('.lists li')[i].get_attribute('data-title')#定位电影名字
21             movie_grand = self.dr.find_elements_by_css_selector('.lists li')[i].get_attribute('data-score')#定位电影评分
22             movie_list.append([movie_name,movie_grand])#向空list追加插入获取的电影名字和电影评分
23             i += 5 #每个电影的li标签间隔为5个
24         movie_list.sort(key=lambda x:x[1], reverse=True)#利用sort中key方法来根据电影评分高到低对所获取的电影进行排序(movie_list = sorted(movie_list, key=lambda movie: movic[1], reverse=True)   # sort by movie_grand 倒序)
25         return movie_list
26
27     def get_movie_top12_file(self):
28         self.file_title = '豆瓣电影成都地区正在上映的前12部电影'
29         self.file = open(self.file_title + '.txt', 'wb')
30         for item in self.top_movie_list:
31             self.file.write(('电影名字:' + item[0] + '  ' + '电影评分:' + item[1] + '\n').encode('utf-8'))
32         self.file.close()
33
34     def test_movie(self):
35         pass
36         print("获取完毕")
37
38     def tearDown(self):
39         self.dr.quit()
40
41 if __name__ == '__main__':
42     unittest.main()

注：电影中暂无评分记为0分。

转载于:https://www.cnblogs.com/cnkemi/p/6172126.html

用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序相关推荐

python爬取豆瓣读书_用python+selenium抓取豆瓣读书中最受关注图书并按照评分排序...
抓取豆瓣读书中的(http://book.douban.com/)最受关注图书,按照评分排序,并保存至txt文件中,需要抓取书籍的名称,作者,评分,体裁和一句话评论方法一:#coding=utf-8 ...
编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法
这篇文章主要介绍了编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法,用到了Python的urllib和urllib2模块,需要的朋友可以参考下抓取豆瓣电影TOP100 一.分析豆瓣top ...
python，抓取豆瓣电影，再也不用担心没有看不了的电影了
1. 豆瓣抓站流程分析url特征(菜鸟阶段) 对需要抓取的数据设计正则表达式处理HTML中一些特征字符,换行符等注意异常的处理和字符编码的处理 2. 实现的功能简单的实现了抓取豆瓣电影Top1 ...
[Python] python + selenium 抓取京东商品数据（商品名称，售价，店铺，分类，订单信息，好评率，评论等）
目录一.环境二.简介三.京东网页分析 1.获取商品信息入口--商品列表链接获取 2.获取商品信息入口--商品详情链接获取 3.商品详情获取 4.商品评论获取四.代码实现五.运行结果六.结语 ...
【Python_006】Python爬虫抓取豆瓣电影影评
写在前面: 我在上一篇博客中[Python_005]利用jieba及wordcloud生成词频及词云图 ,为了测试切词和词云图的效果,从豆瓣爬了电影的100条短评,本篇博客就来分享一下如何爬豆瓣影评 ...
Python selenium抓取微博内容的示例代码
Selenium简介与安装 Selenium是什么? Selenium也是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE. ...
python爬携程_用python selenium抓取携程信息
最近在学习selenium,遇到一个很奇怪的问题,debug了半天还是没弄明白,我是在测试抓取携程网站的机票信息我的代码: # -*- coding: utf-8 -*- from selenium ...
Python+selenium 抓取美团单页接口数据里的用户评论和用户名称以及打分数据
一.原理 selenium的原理很简单,就是模拟人对浏览器的操作,人是怎么操作的,在编写代码时就以这个为逻辑来进行编写.编写起来很是简单,并且也能够很容易纠错. 缺点是,速度比较慢,抓取起来耗时,并且 ...
python爬取携程网游记_网页爬虫 - 用python selenium抓取携程信息
问题最近在学习selenium,遇到一个很奇怪的问题,debug了半天还是没弄明白,我是在测试抓取携程网站的机票信息我的代码: # -*- coding: utf-8 -*- from sele ...

用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序

用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序相关推荐

最新文章

热门文章