Python 3.3 & tablib模块

豆瓣电影TOP250地址:http://movie.douban.com/top250?format=text

1.[代码]批量抓取豆瓣电影数据并导出为Excel格式

#!/usr/bin/env python

import urllib.request

from bs4 import BeautifulSoup

mylist = []

print(u'豆瓣电影TOP250:\n 序号 \t 影片名\t 评分\t 评价人数\t 评价')

def crawl(url):

headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

req = urllib.request.Request(url, headers=headers)

page = urllib.request.urlopen(req, timeout=60)

contents = page.read()

soup = BeautifulSoup(contents)

for tag in soup.find_all('div', class_='item'):

try:

m_order = int(tag.find('em', class_='').get_text())

m_name = tag.span.get_text()

m_rating_score = float(tag.find('div', class_='star').em.get_text())

m_rating_num = tag.find('div', class_='star').span.next_sibling.next_sibling.get_text()

m_comments = tag.find("span", class_="inq").get_text()

except AttributeError:

print("%s %s %s %s %s" % (m_order, m_name, m_rating_score, m_rating_num, "NO COMMENTS"))

mylist.append((m_order, m_name, m_rating_score, m_rating_num, "NO COMMENTS"))

else:

print("%s %s %s %s %s" % (m_order, m_name, m_rating_score, m_rating_num, m_comments))

mylist.append((m_order, m_name, m_rating_score, m_rating_num, m_comments))

pagenumber = []

for i in range(10):

page_number = 25*i

pagenumber.append(page_number)

pagelist = list(map(str, pagenumber))

BASE_URL = 'http://movie.douban.com/top250?start='

LAST_URL = '&filter=&type='

for url in [ BASE_URL + MID_URL + LAST_URL for MID_URL in pagelist ]:

crawl(url)

import tablib

headers = ('m_order', 'm_name', 'm_rating_score', 'm_rating_num', 'm_comments')

mylist = tablib.Dataset(*mylist, headers=headers)

print(mylist.csv)

with open('D:\doubanmovielist.xlsx', 'wb') as f:

f.write(mylist.xlsx)

2.[图片] python截图.jpg

python爬取豆瓣电影top250并保存为xlsx_批量抓取豆瓣电影TOP250数据相关推荐

  1. python爬关键词百度指数_详解python3百度指数抓取实例

    百度指数抓取,再用图像识别得到指数 前言: 土福曾说,百度指数很难抓,在淘宝上面是20块1个关键字: 哥那么叼的人怎么会被他吓到,于是乎花了零零碎碎加起来大约2天半搞定,在此鄙视一下土福 安装的库很多 ...

  2. python爬去新浪微博_Python 爬虫如何机器登录新浪微博并抓取内容?

    啊喂,你们不要只收藏不点赞啊 = = 稍微更新一下,多说两句. 虽然爬取移动端比较简单,但是爬一点难的东西对身体好对吧. 总结一下这个模拟登陆涉及的东西: 1.用户名经过base64加密. 2.输入用 ...

  3. 拼多多上货助手如何批量抓取商品上传?

    拼多多上传商品方面要注意什么呢?很多商家在上传商品时没有刻意的注意商品的sku.标题等设立,导致商品在后期受到平台的处罚.下架.权重降低等情况的出现,是什么原因导致商品在后期受到处罚呢?一方面是商品的 ...

  4. python find()效率_基于python分别采用同步与异步(协程)方式抓取时光网TOP100电影...

    欢迎各位小哥哥小姐姐阅读本的文章,对大家学习有帮助,请点赞加关注哦!!!!!!!!!! 您的点赞和关注将是我持续更新的动力呢.^v^ 有不懂的问题可以私聊我哦! 如题,同步运行就是python按照代码 ...

  5. Python利用bs4批量抓取网页图片并下载保存至本地

    Python利用bs4批量抓取网页图片并下载保存至本地 使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...

  6. python爬取新浪微博数据中心_Python爬虫框架Scrapy实战之批量抓取招聘信息

    网络爬虫抓取特定网站网页的html数据,但是一个网站有上千上万条数据,我们不可能知道网站网页的url地址,所以,要有个技巧去抓取网站的所有html页面.Scrapy是纯Python实现的爬虫框架,用户 ...

  7. python批量读取图片并批量保存_Python爬虫:批量抓取花瓣网高清美图并保存

    原标题:Python爬虫:批量抓取花瓣网高清美图并保存 昨天看到了不错的图片分享网--花瓣,里面的图片质量还不错,所以利用selenium+xpath我把它的妹子的栏目下爬取了下来,以图片栏目名称给文 ...

  8. python爬取图片并以二进制方式保存到本地

    本篇主要介绍python 爬取图片并以二进制形式保存到本地 这回爬取的是一个写真图片网站,上面有一个365日365枚照片写真 写真图片网站链接 明确目标,爬取每一页的20张图片,循环生成没一页的url ...

  9. python数据库抓取并保存_python:微信消息抓取、转发和数据库存储及源码

    前言 python的强大在于丰富的类库,经常会看到几行代码就可以实现非常强大的功能.它可以做爬虫.AI.自动化测试.小工具(抢票.抓包.微信消息抓取)等等. 本次我们来讲讲怎么来抓取微信消息?抓取微信 ...

  10. Python+Selenium自动搜索基金业协会指定企业名单,抓取指定信息并保存到数据库...

    Python+Selenium自动搜索基金业协会指定企业名单,抓取指定信息并保存到数据库.网址https://gs.amac.org.cn/amac-infodisc/res/pof/manager/ ...

最新文章

  1. oracle网站wget下载
  2. pygame的字体画不出来_5毛钱的圆珠笔画的?每一幅都是大师之作,网友:为何我画不出来...
  3. 2.2. php://stdin php://stdout
  4. JUC锁框架——CyclicBarrier
  5. oracle 按月累计求和,SQL Cumulative Sum累积求和
  6. 浏览器angent分析工具
  7. 使用 Vue.js 和 Flask 实现全栈单页面应用
  8. r.java自动删除变量_比较变量并删除一个最低值R [关闭]
  9. Matlab与Access数据库的连接
  10. 20个免费的SEO网站分析工具
  11. Django 上传图片存储到数据库中
  12. 基于STM32的RC522模块读写数据块以及电子钱包充值扣款系统的设计
  13. stl如果开o2_Flow-3D地形模型处理
  14. 酒店行业如何借助无线认证提高营销能力
  15. macOS 下菜单栏图标管理操作教程
  16. 线性回归、logistic回归、广义线性模型——斯坦福CS229机器学习个人总结(一)
  17. matlab 莫比乌斯曲面,神奇的莫比乌斯带,只有一个曲面可以无限循环
  18. 2021年工业机器人行业研究报告
  19. 光流文件(.flo)转图像
  20. 乔布斯-遗失的访谈中英双文版-尘封十余年的伟大遇见!

热门文章

  1. 小学五年级计算机课评课,小学生信息技术课《复制与变换》评课稿
  2. 电容器原理和计算公式及电容单位换算
  3. EXCEL常用函数总结
  4. MTK6589抓取Log,VM_Log,pcm data,寄存器抓取方法
  5. 主板检测卡c5_用诊断卡 搞定主板故障
  6. 折腾黑苹果——重装10.10.3 传统BIOS+MBR+变色龙 引导方案
  7. 使用docker搭建couchbase集群
  8. 360文件粉碎机_顽固性文件删除不了怎么办
  9. 僵尸进程以及如何处理僵尸进程
  10. Neural Entity Linking综述【详细版】