豆瓣电影Top250——电影详细

闲得无聊去爬了一下豆瓣的Top250电影信息

代码如下，直接可以运行，

import requests
from lxml import etree
from bs4 import BeautifulSoup
s = requests.Session()
for id in range(0, 251, 25): url = 'https://movie.douban.com/top250/?start=' + str(id)+ '&filter='r = s.get(url)r.encoding = 'utf-8'# print(r.content)root = etree.HTML(r.content)       #解析为HTML文档items = root.xpath('//ol/li/div[@class="item"]')      #主要信息的xpath路径for item in items:title = item.xpath('./div[@class="info"]//a/span[@class="title"]/text()')name = title[0].encode('gb2312', 'ignore').decode('gb2312')try:            #为了解决中文名，不合编码continue跳过english = title[1]except:continueother = item.xpath('./div[@class="info"]//a/span[@class="other"]/text()')author = other[0].encode('gb2312', 'ignore').decode('gb2312')# rank = item.xpath('./div[@class="pic"]/em/text()')[0]rating = item.xpath('.//div[@class="bd"]//span[@class="rating_num"]/text()')[0]direct = item.xpath('./div[@class="info"]/div[2]/p/text()')[0]direcs = str(direct)dire = direcs.lstrip()print(name,english,author,rating)print(dire)print('\n')

豆瓣电影Top250——电影详细相关推荐

Python爬虫小白教程（二）—— 爬取豆瓣评分TOP250电影
文章目录前言安装bs4库网站分析获取页面爬取页面页面分析其他页面爬虫系列前言经过上篇博客Python爬虫小白教程(一)-- 静态网页抓取后我们已经知道如何抓取一个静态的页面了,现在 ...
python爬虫豆瓣网TOP250电影海报图片
最近打算用爬虫爬取一些资料,主要是图片来扩充数据库先用一些文字信息练手还是第三方的requests好用呢,比python自带的urllib 好用呢 import requests from bs4 ...
爬取豆瓣电影 Top250 电影并存储到 Excel 表中
文章目录一.前期准备二.代码一.前期准备观察网页 url 或者通过最下面的分页审查元素: 发现规律,0-25-50...递增,以此确定爬取 page 页码确定爬取的内容名称.图片.排名.评 ...
Python爬虫实战 | (3) 爬取豆瓣电影Top250
在本篇博客中,我们将使用requests+正则表达式来爬取豆瓣电影TOP250电影榜单,获取每部电影的序号.片名.导演.编剧.主演.类型.制作国家/地区.语言.上映日期.片长.又名.豆瓣评分和剧情简介 ...
基于R语言revest包的网络爬虫对豆瓣网TOP250的电影特征的抓取
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 本文我们会用R来爬取豆瓣网上2017年最热门电影的一些 ...
豆瓣电影TOP250抓取
全部代码以及分析见GitHub:https://github.com/dta0502/douban-top250 本文是Python爬取豆瓣的top250电影的分析和实现,具体是将电影的标题.电影描述 ...
豆瓣Top250电影数据分析报告
我的其他数据分析报告:求职指南--数据分析职位解析 [Python3]Requests+正则表达式+multiprocessing爬虫并存入MySQL数据库一.分析背景及目的豆瓣对Top250电影 ...
python爬虫爬取豆瓣top250电影影评
信息系统课程项目,小组准备做一个电影推荐系统,自己选了觉得很有趣的资源模块,需要获取电影的评价资源等信息.花了大约一周看Web Scraping with Python这本书,对爬虫有了大体但是初略的 ...
Python获取TOP250电影的英文名、港台名、导演、主演、上映年份、电影分类及评分
<Python网络爬虫:从入门到实践>3.4.3自我实践题: 获取豆瓣网上TOP250电影的英文名.港台名.导演.主演.上映年份.电影分类及评分. 学习嘛,就费了点劲自己试了一下,挺耽误时 ...

豆瓣电影Top250——电影详细

豆瓣电影Top250——电影详细相关推荐

最新文章

热门文章