python爬取豆瓣电影top250并保存为xlsx_批量抓取豆瓣电影TOP250数据
Python 3.3 & tablib模块
豆瓣电影TOP250地址:http://movie.douban.com/top250?format=text
1.[代码]批量抓取豆瓣电影数据并导出为Excel格式
#!/usr/bin/env python
import urllib.request
from bs4 import BeautifulSoup
mylist = []
print(u'豆瓣电影TOP250:\n 序号 \t 影片名\t 评分\t 评价人数\t 评价')
def crawl(url):
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
req = urllib.request.Request(url, headers=headers)
page = urllib.request.urlopen(req, timeout=60)
contents = page.read()
soup = BeautifulSoup(contents)
for tag in soup.find_all('div', class_='item'):
try:
m_order = int(tag.find('em', class_='').get_text())
m_name = tag.span.get_text()
m_rating_score = float(tag.find('div', class_='star').em.get_text())
m_rating_num = tag.find('div', class_='star').span.next_sibling.next_sibling.get_text()
m_comments = tag.find("span", class_="inq").get_text()
except AttributeError:
print("%s %s %s %s %s" % (m_order, m_name, m_rating_score, m_rating_num, "NO COMMENTS"))
mylist.append((m_order, m_name, m_rating_score, m_rating_num, "NO COMMENTS"))
else:
print("%s %s %s %s %s" % (m_order, m_name, m_rating_score, m_rating_num, m_comments))
mylist.append((m_order, m_name, m_rating_score, m_rating_num, m_comments))
pagenumber = []
for i in range(10):
page_number = 25*i
pagenumber.append(page_number)
pagelist = list(map(str, pagenumber))
BASE_URL = 'http://movie.douban.com/top250?start='
LAST_URL = '&filter=&type='
for url in [ BASE_URL + MID_URL + LAST_URL for MID_URL in pagelist ]:
crawl(url)
import tablib
headers = ('m_order', 'm_name', 'm_rating_score', 'm_rating_num', 'm_comments')
mylist = tablib.Dataset(*mylist, headers=headers)
print(mylist.csv)
with open('D:\doubanmovielist.xlsx', 'wb') as f:
f.write(mylist.xlsx)
2.[图片] python截图.jpg
python爬取豆瓣电影top250并保存为xlsx_批量抓取豆瓣电影TOP250数据相关推荐
- python爬关键词百度指数_详解python3百度指数抓取实例
百度指数抓取,再用图像识别得到指数 前言: 土福曾说,百度指数很难抓,在淘宝上面是20块1个关键字: 哥那么叼的人怎么会被他吓到,于是乎花了零零碎碎加起来大约2天半搞定,在此鄙视一下土福 安装的库很多 ...
- python爬去新浪微博_Python 爬虫如何机器登录新浪微博并抓取内容?
啊喂,你们不要只收藏不点赞啊 = = 稍微更新一下,多说两句. 虽然爬取移动端比较简单,但是爬一点难的东西对身体好对吧. 总结一下这个模拟登陆涉及的东西: 1.用户名经过base64加密. 2.输入用 ...
- 拼多多上货助手如何批量抓取商品上传?
拼多多上传商品方面要注意什么呢?很多商家在上传商品时没有刻意的注意商品的sku.标题等设立,导致商品在后期受到平台的处罚.下架.权重降低等情况的出现,是什么原因导致商品在后期受到处罚呢?一方面是商品的 ...
- python find()效率_基于python分别采用同步与异步(协程)方式抓取时光网TOP100电影...
欢迎各位小哥哥小姐姐阅读本的文章,对大家学习有帮助,请点赞加关注哦!!!!!!!!!! 您的点赞和关注将是我持续更新的动力呢.^v^ 有不懂的问题可以私聊我哦! 如题,同步运行就是python按照代码 ...
- Python利用bs4批量抓取网页图片并下载保存至本地
Python利用bs4批量抓取网页图片并下载保存至本地 使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...
- python爬取新浪微博数据中心_Python爬虫框架Scrapy实战之批量抓取招聘信息
网络爬虫抓取特定网站网页的html数据,但是一个网站有上千上万条数据,我们不可能知道网站网页的url地址,所以,要有个技巧去抓取网站的所有html页面.Scrapy是纯Python实现的爬虫框架,用户 ...
- python批量读取图片并批量保存_Python爬虫:批量抓取花瓣网高清美图并保存
原标题:Python爬虫:批量抓取花瓣网高清美图并保存 昨天看到了不错的图片分享网--花瓣,里面的图片质量还不错,所以利用selenium+xpath我把它的妹子的栏目下爬取了下来,以图片栏目名称给文 ...
- python爬取图片并以二进制方式保存到本地
本篇主要介绍python 爬取图片并以二进制形式保存到本地 这回爬取的是一个写真图片网站,上面有一个365日365枚照片写真 写真图片网站链接 明确目标,爬取每一页的20张图片,循环生成没一页的url ...
- python数据库抓取并保存_python:微信消息抓取、转发和数据库存储及源码
前言 python的强大在于丰富的类库,经常会看到几行代码就可以实现非常强大的功能.它可以做爬虫.AI.自动化测试.小工具(抢票.抓包.微信消息抓取)等等. 本次我们来讲讲怎么来抓取微信消息?抓取微信 ...
- Python+Selenium自动搜索基金业协会指定企业名单,抓取指定信息并保存到数据库...
Python+Selenium自动搜索基金业协会指定企业名单,抓取指定信息并保存到数据库.网址https://gs.amac.org.cn/amac-infodisc/res/pof/manager/ ...
最新文章
- oracle网站wget下载
- pygame的字体画不出来_5毛钱的圆珠笔画的?每一幅都是大师之作,网友:为何我画不出来...
- 2.2. php://stdin php://stdout
- JUC锁框架——CyclicBarrier
- oracle 按月累计求和,SQL Cumulative Sum累积求和
- 浏览器angent分析工具
- 使用 Vue.js 和 Flask 实现全栈单页面应用
- r.java自动删除变量_比较变量并删除一个最低值R [关闭]
- Matlab与Access数据库的连接
- 20个免费的SEO网站分析工具
- Django 上传图片存储到数据库中
- 基于STM32的RC522模块读写数据块以及电子钱包充值扣款系统的设计
- stl如果开o2_Flow-3D地形模型处理
- 酒店行业如何借助无线认证提高营销能力
- macOS 下菜单栏图标管理操作教程
- 线性回归、logistic回归、广义线性模型——斯坦福CS229机器学习个人总结(一)
- matlab 莫比乌斯曲面,神奇的莫比乌斯带,只有一个曲面可以无限循环
- 2021年工业机器人行业研究报告
- 光流文件(.flo)转图像
- 乔布斯-遗失的访谈中英双文版-尘封十余年的伟大遇见!