python爬取豆瓣电影top250并保存为xlsx_批量抓取豆瓣电影TOP250数据

Python 3.3 & tablib模块

豆瓣电影TOP250地址：http://movie.douban.com/top250?format=text

1.[代码]批量抓取豆瓣电影数据并导出为Excel格式

#!/usr/bin/env python

import urllib.request

from bs4 import BeautifulSoup

mylist = []

print(u'豆瓣电影TOP250:\n 序号 \t 影片名\t 评分\t 评价人数\t 评价')

def crawl(url):

headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

req = urllib.request.Request(url, headers=headers)

page = urllib.request.urlopen(req, timeout=60)

contents = page.read()

soup = BeautifulSoup(contents)

for tag in soup.find_all('div', class_='item'):

try:

m_order = int(tag.find('em', class_='').get_text())

m_name = tag.span.get_text()

m_rating_score = float(tag.find('div', class_='star').em.get_text())

m_rating_num = tag.find('div', class_='star').span.next_sibling.next_sibling.get_text()

m_comments = tag.find("span", class_="inq").get_text()

except AttributeError:

print("%s %s %s %s %s" % (m_order, m_name, m_rating_score, m_rating_num, "NO COMMENTS"))

mylist.append((m_order, m_name, m_rating_score, m_rating_num, "NO COMMENTS"))

else:

print("%s %s %s %s %s" % (m_order, m_name, m_rating_score, m_rating_num, m_comments))

mylist.append((m_order, m_name, m_rating_score, m_rating_num, m_comments))

pagenumber = []

for i in range(10):

page_number = 25*i

pagenumber.append(page_number)

pagelist = list(map(str, pagenumber))

BASE_URL = 'http://movie.douban.com/top250?start='

LAST_URL = '&filter=&type='

for url in [ BASE_URL + MID_URL + LAST_URL for MID_URL in pagelist ]:

crawl(url)

import tablib

headers = ('m_order', 'm_name', 'm_rating_score', 'm_rating_num', 'm_comments')

mylist = tablib.Dataset(*mylist, headers=headers)

print(mylist.csv)

with open('D:\doubanmovielist.xlsx', 'wb') as f:

f.write(mylist.xlsx)

2.[图片] python截图.jpg

python爬取豆瓣电影top250并保存为xlsx_批量抓取豆瓣电影TOP250数据相关推荐

python爬关键词百度指数_详解python3百度指数抓取实例
百度指数抓取,再用图像识别得到指数前言: 土福曾说,百度指数很难抓,在淘宝上面是20块1个关键字: 哥那么叼的人怎么会被他吓到,于是乎花了零零碎碎加起来大约2天半搞定,在此鄙视一下土福安装的库很多 ...
python爬去新浪微博_Python 爬虫如何机器登录新浪微博并抓取内容？
啊喂,你们不要只收藏不点赞啊 = = 稍微更新一下,多说两句. 虽然爬取移动端比较简单,但是爬一点难的东西对身体好对吧. 总结一下这个模拟登陆涉及的东西: 1.用户名经过base64加密. 2.输入用 ...
拼多多上货助手如何批量抓取商品上传？
拼多多上传商品方面要注意什么呢?很多商家在上传商品时没有刻意的注意商品的sku.标题等设立,导致商品在后期受到平台的处罚.下架.权重降低等情况的出现,是什么原因导致商品在后期受到处罚呢?一方面是商品的 ...
python find()效率_基于python分别采用同步与异步（协程）方式抓取时光网TOP100电影...
欢迎各位小哥哥小姐姐阅读本的文章,对大家学习有帮助,请点赞加关注哦!!!!!!!!!! 您的点赞和关注将是我持续更新的动力呢.^v^ 有不懂的问题可以私聊我哦! 如题,同步运行就是python按照代码 ...
Python利用bs4批量抓取网页图片并下载保存至本地
Python利用bs4批量抓取网页图片并下载保存至本地使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...
python爬取新浪微博数据中心_Python爬虫框架Scrapy实战之批量抓取招聘信息
网络爬虫抓取特定网站网页的html数据,但是一个网站有上千上万条数据,我们不可能知道网站网页的url地址,所以,要有个技巧去抓取网站的所有html页面.Scrapy是纯Python实现的爬虫框架,用户 ...
python批量读取图片并批量保存_Python爬虫：批量抓取花瓣网高清美图并保存
原标题:Python爬虫:批量抓取花瓣网高清美图并保存昨天看到了不错的图片分享网--花瓣,里面的图片质量还不错,所以利用selenium+xpath我把它的妹子的栏目下爬取了下来,以图片栏目名称给文 ...
python爬取图片并以二进制方式保存到本地
本篇主要介绍python 爬取图片并以二进制形式保存到本地这回爬取的是一个写真图片网站,上面有一个365日365枚照片写真写真图片网站链接明确目标,爬取每一页的20张图片,循环生成没一页的url ...
python数据库抓取并保存_python:微信消息抓取、转发和数据库存储及源码
前言 python的强大在于丰富的类库,经常会看到几行代码就可以实现非常强大的功能.它可以做爬虫.AI.自动化测试.小工具(抢票.抓包.微信消息抓取)等等. 本次我们来讲讲怎么来抓取微信消息?抓取微信 ...
Python+Selenium自动搜索基金业协会指定企业名单，抓取指定信息并保存到数据库...
Python+Selenium自动搜索基金业协会指定企业名单,抓取指定信息并保存到数据库.网址https://gs.amac.org.cn/amac-infodisc/res/pof/manager/ ...

python爬取豆瓣电影top250并保存为xlsx_批量抓取豆瓣电影TOP250数据

python爬取豆瓣电影top250并保存为xlsx_批量抓取豆瓣电影TOP250数据相关推荐

最新文章

热门文章