关于爬取豆瓣电影和豆瓣书本的图片

1，豆瓣电影----用的BeautifulSoup里的soup对象的select方法

import urllib2
import re
from bs4 import BeautifulSoup
html=urllib2.urlopen('http://movie.douban.com/top250?format=text').read()
soup=BeautifulSoup(html,'html.parser')
h1=soup.select('#content > h1')
print h1[0].text
name=soup.select('.article > ol > li > .item > .info > .hd > a > span:nth-of-type(1)')
comment=soup.select('.article > ol > li > .item > .info > .bd > .star > .rating_num')
p=soup.select('.article > ol > li > .item > .info > .bd > .star > span')
people=[]
link=soup.select('.article > ol > li > .item > .info > .hd > a')
for i in range(len(p)+1):if i%4==0:if i!=0:people.append(p[i-1])
for i in range(len(name)):str1 = unicode(name[i].text).encode('utf-8')str2=unicode(people[i].text).encode('utf-8')str3=unicode(link[i].get('href')).encode('utf-8')print("%s\t%.1lf\t%s\t%s\n"%(str1,float(comment[i].text),str2,str3))

输出结果，只爬取了第一页的

豆瓣电影TOP250
肖申克的救赎  9.6 833497人评价   https://movie.douban.com/subject/1292052/这个杀手不太冷    9.4 799617人评价   https://movie.douban.com/subject/1295644/霸王别姬   9.5 596009人评价   https://movie.douban.com/subject/1291546/阿甘正传   9.4 684789人评价   https://movie.douban.com/subject/1292720/美丽人生   9.5 398161人评价   https://movie.douban.com/subject/1292063/千与千寻   9.2 636550人评价   https://movie.douban.com/subject/1291561/辛德勒的名单 9.4 368296人评价   https://movie.douban.com/subject/1295124/泰坦尼克号  9.2 630035人评价   https://movie.douban.com/subject/1292722/盗梦空间   9.2 737747人评价   https://movie.douban.com/subject/3541415/机器人总动员 9.3 484276人评价   https://movie.douban.com/subject/2131459/海上钢琴师  9.2 582046人评价   https://movie.douban.com/subject/1292001/三傻大闹宝莱坞    9.1 648663人评价   https://movie.douban.com/subject/3793023/忠犬八公的故事    9.2 435451人评价   https://movie.douban.com/subject/3011091/放牛班的春天 9.2 436182人评价   https://movie.douban.com/subject/1291549/大话西游之大圣娶亲  9.2 469645人评价   https://movie.douban.com/subject/1292213/教父 9.2 332416人评价   https://movie.douban.com/subject/1291841/龙猫 9.1 404287人评价   https://movie.douban.com/subject/1291560/楚门的世界  9.0 433695人评价   https://movie.douban.com/subject/1292064/乱世佳人   9.2 263216人评价   https://movie.douban.com/subject/1300267/天堂电影院  9.1 301028人评价   https://movie.douban.com/subject/1291828/当幸福来敲门 8.9 522002人评价   https://movie.douban.com/subject/1849031/触不可及   9.1 353854人评价   https://movie.douban.com/subject/6786002/搏击俱乐部  9.0 394147人评价   https://movie.douban.com/subject/1292000/十二怒汉   9.3 164634人评价   https://movie.douban.com/subject/1293182/熔炉 9.2 235536人评价   https://movie.douban.com/subject/5912992/

,2，豆瓣书本

import urllib
import urllib2
import re
from bs4 import BeautifulSoup
url=["https://book.douban.com/top250","https://book.douban.com/top250?start=25","https://book.douban.com/top250?start=50"] #三页
for j in url:h=urllib2.urlopen(j).read()s=BeautifulSoup(h,'html.parser')imgre=re.compile(r'<img src="(https://img\d.doubanio.com/spic/.+?)" ')imglist1=re.findall(imgre,h)imglist2=s.select('.item > td > a > img')bname=s.select('.item > td:nth-of-type(2) > .pl2 > a')people=s.select('.item > td:nth-of-type(2) > .pl')rate=s.select('.item > td:nth-of-type(2) > div > .rating_nums')comment=s.select('.item > td:nth-of-type(2) > div > span:nth-of-type(3)')p1=[]p2=[]for i in range(len(people)):str=unicode(people[i].text).encode('utf-8')str1=str.split('/')[0]str2=str.split('/')[1]p1.append(str1)p2.append(str2)c=[]for i in comment:str=unicode(i.text).encode('utf-8')str=str.strip("(")str=str.strip(")")c.append(str)for i in range(len(bname)):print unicode(bname[i].text).encode('utf-8')+p1[i]+"  "+p2[i]+"\n"+unicode(rate[i].text).encode('utf-8')+c[i]x=1for i in imglist1:images=urllib.urlretrieve(i,"D:\lj\image\ldc\%s.jpg"%x)x+=1

关于爬取豆瓣电影和豆瓣书本的图片相关推荐

python爬虫-爬取爱情公寓电影(2018)豆瓣短评并数据分析
说起这部电影,我本人并没有看,其实原先是想为了情怀看一下,但是好友用亲身经历告诉我看来会后悔的,又去看了看豆瓣评分,史无前例的,,,低. 出于兴趣就爬取一下这部电影在豆瓣上的短评,并且用词云分析一下. ...
记第一天使用node做爬虫——爬取猫眼电影票房总榜以及指定电影的豆瓣评论前200条
首先,我是一个做前端的应届生,今天朋友想让我帮忙爬取猫眼电影票房总榜的数据,但是我之前一点都没接触过爬虫,但我还是说:okk,我试试: 然后试试就逝世,各种坑接踵而来: 提前声明:这篇文章暂时只是获取 ...
爬取豆瓣电影Top 250的海报图片以及相关信息
该项目大致分为以下步骤: 使用 requests库获取页面使用 lxml库和 XPath 解析页面爬取电影海报图片使用 pandas库将电影的相关信息存储为csv文件添加循环,保存所有图 ...
python爬取豆瓣短评_爬取并简单分析豆瓣电影短评
导语利用Python爬取并简单分析豆瓣电影短评. 说起来挺逗的,去年爬豆瓣短评的时候还是可以爬个几万条数据的,昨天我还想着终于可以起个唬人的标题了,什么爬取了xxx电影的xxx万条数据. 于是昨晚写 ...
爬取80s电影列表和豆瓣评分
使用多线程抓取80s的电影列表和电影的豆瓣评分 # -*- coding: utf-8 -*- # File : 用resquests爬取80s电影列表.py # Author: HuXianyong ...
使用Python爬取不同类别的豆瓣电影简介
使用Python爬取不同类别的豆瓣电影简介之前做过一点文本分类的工作,从豆瓣上爬取了不同类别的数千条电影的简介. 爬取目标我们爬取的目标是豆瓣影视,打开豆瓣网,随便点击一部电影,即可看到电影的介 ...
python自动爬取更新电影网站_Python爬虫之—微信实时爬取电影咨询
本文将介绍如何使用爬虫在微信对话中实现实时的电影咨询爬取功能,希望和大家一起来分享" 1. 撩妹起源俗话说的好:少壮不撩妹,长大徒伤悲啊! 说的很对,但是在这个撩妹的时代,要想成功把到妹, ...
Scrapy爬取1908电影网电影数据
Scrapy爬取1908电影网电影数据最初是打算直接从豆瓣上爬电影数据的,但编写完一直出现403错误,查了查是豆瓣反爬虫导致了,加了headers也还是一直出现错误,无奈只能转战1908电影网了. ...
Spider(网络蜘蛛)之ajax爬取douban电影排行和kfc门店数据
爬前注意: 首先douban的接口请求方式是get简单一点.寻找规律可以爬取数据: kfc的接口方式是post,data所需要parse.urlencode(data).encode('utf-8') ...
python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》
前言作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...

关于爬取豆瓣电影和豆瓣书本的图片

关于爬取豆瓣电影和豆瓣书本的图片相关推荐

最新文章

热门文章