1,豆瓣电影----用的BeautifulSoup里的soup对象的select方法

import urllib2
import re
from bs4 import BeautifulSoup
html=urllib2.urlopen('http://movie.douban.com/top250?format=text').read()
soup=BeautifulSoup(html,'html.parser')
h1=soup.select('#content > h1')
print h1[0].text
name=soup.select('.article > ol > li > .item > .info > .hd > a > span:nth-of-type(1)')
comment=soup.select('.article > ol > li > .item > .info > .bd > .star > .rating_num')
p=soup.select('.article > ol > li > .item > .info > .bd > .star > span')
people=[]
link=soup.select('.article > ol > li > .item > .info > .hd > a')
for i in range(len(p)+1):if i%4==0:if i!=0:people.append(p[i-1])
for i in range(len(name)):str1 = unicode(name[i].text).encode('utf-8')str2=unicode(people[i].text).encode('utf-8')str3=unicode(link[i].get('href')).encode('utf-8')print("%s\t%.1lf\t%s\t%s\n"%(str1,float(comment[i].text),str2,str3))

输出结果,只爬取了第一页的

豆瓣电影TOP250
肖申克的救赎  9.6 833497人评价   https://movie.douban.com/subject/1292052/这个杀手不太冷    9.4 799617人评价   https://movie.douban.com/subject/1295644/霸王别姬   9.5 596009人评价   https://movie.douban.com/subject/1291546/阿甘正传   9.4 684789人评价   https://movie.douban.com/subject/1292720/美丽人生   9.5 398161人评价   https://movie.douban.com/subject/1292063/千与千寻   9.2 636550人评价   https://movie.douban.com/subject/1291561/辛德勒的名单 9.4 368296人评价   https://movie.douban.com/subject/1295124/泰坦尼克号  9.2 630035人评价   https://movie.douban.com/subject/1292722/盗梦空间   9.2 737747人评价   https://movie.douban.com/subject/3541415/机器人总动员 9.3 484276人评价   https://movie.douban.com/subject/2131459/海上钢琴师  9.2 582046人评价   https://movie.douban.com/subject/1292001/三傻大闹宝莱坞    9.1 648663人评价   https://movie.douban.com/subject/3793023/忠犬八公的故事    9.2 435451人评价   https://movie.douban.com/subject/3011091/放牛班的春天 9.2 436182人评价   https://movie.douban.com/subject/1291549/大话西游之大圣娶亲  9.2 469645人评价   https://movie.douban.com/subject/1292213/教父 9.2 332416人评价   https://movie.douban.com/subject/1291841/龙猫 9.1 404287人评价   https://movie.douban.com/subject/1291560/楚门的世界  9.0 433695人评价   https://movie.douban.com/subject/1292064/乱世佳人   9.2 263216人评价   https://movie.douban.com/subject/1300267/天堂电影院  9.1 301028人评价   https://movie.douban.com/subject/1291828/当幸福来敲门 8.9 522002人评价   https://movie.douban.com/subject/1849031/触不可及   9.1 353854人评价   https://movie.douban.com/subject/6786002/搏击俱乐部  9.0 394147人评价   https://movie.douban.com/subject/1292000/十二怒汉   9.3 164634人评价   https://movie.douban.com/subject/1293182/熔炉 9.2 235536人评价   https://movie.douban.com/subject/5912992/

,2,豆瓣书本

import urllib
import urllib2
import re
from bs4 import BeautifulSoup
url=["https://book.douban.com/top250","https://book.douban.com/top250?start=25","https://book.douban.com/top250?start=50"] #三页
for j in url:h=urllib2.urlopen(j).read()s=BeautifulSoup(h,'html.parser')imgre=re.compile(r'<img src="(https://img\d.doubanio.com/spic/.+?)" ')imglist1=re.findall(imgre,h)imglist2=s.select('.item > td > a > img')bname=s.select('.item > td:nth-of-type(2) > .pl2 > a')people=s.select('.item > td:nth-of-type(2) > .pl')rate=s.select('.item > td:nth-of-type(2) > div > .rating_nums')comment=s.select('.item > td:nth-of-type(2) > div > span:nth-of-type(3)')p1=[]p2=[]for i in range(len(people)):str=unicode(people[i].text).encode('utf-8')str1=str.split('/')[0]str2=str.split('/')[1]p1.append(str1)p2.append(str2)c=[]for i in comment:str=unicode(i.text).encode('utf-8')str=str.strip("(")str=str.strip(")")c.append(str)for i in range(len(bname)):print unicode(bname[i].text).encode('utf-8')+p1[i]+"  "+p2[i]+"\n"+unicode(rate[i].text).encode('utf-8')+c[i]x=1for i in imglist1:images=urllib.urlretrieve(i,"D:\lj\image\ldc\%s.jpg"%x)x+=1

关于爬取豆瓣电影和豆瓣书本的图片相关推荐

  1. python爬虫-爬取爱情公寓电影(2018)豆瓣短评并数据分析

    说起这部电影,我本人并没有看,其实原先是想为了情怀看一下,但是好友用亲身经历告诉我看来会后悔的,又去看了看豆瓣评分,史无前例的,,,低. 出于兴趣就爬取一下这部电影在豆瓣上的短评,并且用词云分析一下. ...

  2. 记第一天使用node做爬虫——爬取猫眼电影票房总榜以及指定电影的豆瓣评论前200条

    首先,我是一个做前端的应届生,今天朋友想让我帮忙爬取猫眼电影票房总榜的数据,但是我之前一点都没接触过爬虫,但我还是说:okk,我试试: 然后试试就逝世,各种坑接踵而来: 提前声明:这篇文章暂时只是获取 ...

  3. 爬取豆瓣电影Top 250的海报图片以及相关信息

    该项目大致分为以下步骤: 使用 requests库 获取页面 使用 lxml库 和 XPath 解析页面 爬取电影海报图片 使用 pandas库 将电影的相关信息存储为csv文件 添加循环,保存所有图 ...

  4. python爬取豆瓣短评_爬取并简单分析豆瓣电影短评

    导语 利用Python爬取并简单分析豆瓣电影短评. 说起来挺逗的,去年爬豆瓣短评的时候还是可以爬个几万条数据的,昨天我还想着终于可以起个唬人的标题了,什么爬取了xxx电影的xxx万条数据. 于是昨晚写 ...

  5. 爬取80s电影列表和豆瓣评分

    使用多线程抓取80s的电影列表和电影的豆瓣评分 # -*- coding: utf-8 -*- # File : 用resquests爬取80s电影列表.py # Author: HuXianyong ...

  6. 使用Python爬取不同类别的豆瓣电影简介

    使用Python爬取不同类别的豆瓣电影简介 之前做过一点文本分类的工作,从豆瓣上爬取了不同类别的数千条电影的简介. 爬取目标 我们爬取的目标是 豆瓣影视,打开豆瓣网,随便点击一部电影,即可看到电影的介 ...

  7. python自动爬取更新电影网站_Python爬虫之—微信实时爬取电影咨询

    本文将介绍如何使用爬虫在微信对话中实现实时的电影咨询爬取功能,希望和大家一起来分享" 1. 撩妹起源 俗话说的好:少壮不撩妹,长大徒伤悲啊! 说的很对,但是在这个撩妹的时代,要想成功把到妹, ...

  8. Scrapy爬取1908电影网电影数据

    Scrapy爬取1908电影网电影数据 最初是打算直接从豆瓣上爬电影数据的,但编写完一直出现403错误,查了查是豆瓣反爬虫导致了,加了headers也还是一直出现错误,无奈只能转战1908电影网了. ...

  9. Spider(网络蜘蛛)之ajax爬取douban电影排行和kfc门店数据

    爬前注意: 首先douban的接口请求方式是get简单一点.寻找规律可以爬取数据: kfc的接口方式是post,data所需要parse.urlencode(data).encode('utf-8') ...

  10. python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》

    前言 作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...

最新文章

  1. 系统运维|IIS的日志设置
  2. Python 3.5将支持Async/Await异步编程
  3. apt-get update 出现E: Could not get lock /var/lib/apt/lists/lock问题的解决
  4. python使用matplotlib画图,绘制三维、二维曲线。设置字体大小以及坐标系间距等
  5. Visual Studio 2005 快捷键
  6. 'SVN更新' has encountered a problem :An internal error occurred during: svn错误
  7. [转自 Flyingis]Geometry 对象浅析
  8. 去除aspx生成的页面最开始的空行
  9. ubuntu下安装opensips
  10. php yii把pdf转成图片,yii实现图片上传及缩略图生成的方法
  11. [转]如何设置win7一直以管理员身份运行
  12. boot客户管理系统源码_「计算机毕设」基于SpringBoot开发的仓库管理系统
  13. 语音识别技术突飞猛进 终有一天将超过人
  14. 启动gis管理器显示无法启动服务器,mapgis狗不能启动,提示是服务器启动失败,是怎么回事?...
  15. 如何查看文件md5值
  16. 四川婚姻登记捷宇SC10T高拍仪技术规格说明书
  17. React子组件给父组件传值
  18. 鸿蒙DevEco Studio 无法下载Gradle问题
  19. linux内核源码 github,GitHub - groot2013/Linux-0.11code: 这是Linux0.11内核源代码
  20. Kafka不丢失数据与不重复消费数据

热门文章

  1. python数据精度_python数字精度
  2. macbook重装系统 选择方案_MAC-重新安装系统的四种方法
  3. Python之win7环境下安装python3
  4. 个人网站的制作,维护,推广,营销
  5. 程序江湖:第二章 初生牛犊不怕虎
  6. web咸鱼自救攻略--typescript的类没有你想象中的那么难
  7. 東京音頭 (东京音头) 歌词翻译
  8. 基于SSM框架的毕业设计管理系统 毕业设计-附源码211633
  9. Java学习笔记(24)——正则表达式
  10. Error Domain=AVFoundationErrorDomain Code=-11841 (null) timeRange 和 duration 不一致