闲得无聊去爬了一下豆瓣的Top250电影信息

代码如下,直接可以运行,

import requests
from lxml import etree
from bs4 import BeautifulSoup
s = requests.Session()
for id in range(0, 251, 25): url = 'https://movie.douban.com/top250/?start=' + str(id)+ '&filter='r = s.get(url)r.encoding = 'utf-8'# print(r.content)root = etree.HTML(r.content)       #解析为HTML文档items = root.xpath('//ol/li/div[@class="item"]')      #主要信息的xpath路径for item in items:title = item.xpath('./div[@class="info"]//a/span[@class="title"]/text()')name = title[0].encode('gb2312', 'ignore').decode('gb2312')try:            #为了解决中文名,不合编码continue跳过english = title[1]except:continueother = item.xpath('./div[@class="info"]//a/span[@class="other"]/text()')author = other[0].encode('gb2312', 'ignore').decode('gb2312')# rank = item.xpath('./div[@class="pic"]/em/text()')[0]rating = item.xpath('.//div[@class="bd"]//span[@class="rating_num"]/text()')[0]direct = item.xpath('./div[@class="info"]/div[2]/p/text()')[0]direcs = str(direct)dire = direcs.lstrip()print(name,english,author,rating)print(dire)print('\n')

豆瓣电影Top250——电影详细相关推荐

  1. Python爬虫小白教程(二)—— 爬取豆瓣评分TOP250电影

    文章目录 前言 安装bs4库 网站分析 获取页面 爬取页面 页面分析 其他页面 爬虫系列 前言 经过上篇博客Python爬虫小白教程(一)-- 静态网页抓取后我们已经知道如何抓取一个静态的页面了,现在 ...

  2. python爬虫豆瓣网TOP250电影海报图片

    最近打算用爬虫爬取一些资料,主要是图片来扩充数据库 先用一些文字信息练手 还是第三方的requests好用呢,比python自带的urllib 好用呢 import requests from bs4 ...

  3. 爬取豆瓣电影 Top250 电影并存储到 Excel 表中

    文章目录 一.前期准备 二.代码 一.前期准备 观察网页 url 或者通过最下面的分页审查元素: 发现规律,0-25-50...递增,以此确定爬取 page 页码 确定爬取的内容 名称.图片.排名.评 ...

  4. Python爬虫实战 | (3) 爬取豆瓣电影Top250

    在本篇博客中,我们将使用requests+正则表达式来爬取豆瓣电影TOP250电影榜单,获取每部电影的序号.片名.导演.编剧.主演.类型.制作国家/地区.语言.上映日期.片长.又名.豆瓣评分和剧情简介 ...

  5. 基于R语言revest包的网络爬虫对豆瓣网TOP250的电影特征的抓取

    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 本文我们会用R来爬取豆瓣网上2017年最热门电影的一些 ...

  6. 豆瓣电影TOP250抓取

    全部代码以及分析见GitHub:https://github.com/dta0502/douban-top250 本文是Python爬取豆瓣的top250电影的分析和实现,具体是将电影的标题.电影描述 ...

  7. 豆瓣Top250电影数据分析报告

    我的其他数据分析报告:求职指南--数据分析职位解析 [Python3]Requests+正则表达式+multiprocessing爬虫并存入MySQL数据库 一.分析背景及目的 豆瓣对Top250电影 ...

  8. python爬虫爬取豆瓣top250电影影评

    信息系统课程项目,小组准备做一个电影推荐系统,自己选了觉得很有趣的资源模块,需要获取电影的评价资源等信息.花了大约一周看Web Scraping with Python这本书,对爬虫有了大体但是初略的 ...

  9. Python获取TOP250电影的英文名、港台名、导演、主演、上映年份、电影分类及评分

    <Python网络爬虫:从入门到实践>3.4.3自我实践题: 获取豆瓣网上TOP250电影的英文名.港台名.导演.主演.上映年份.电影分类及评分. 学习嘛,就费了点劲自己试了一下,挺耽误时 ...

最新文章

  1. prototype.js 1.4版开发者手册
  2. Java Hibernate模板 学习总结
  3. 岗位内推 | 微软亚洲互联网工程院自然语言处理组招聘
  4. OpenGL基础38:数据存储
  5. Linux-CentOS上一些快捷键的使用
  6. P2420 让我们异或吧 (树链剖分,异或前缀和)
  7. Selenium爬虫 -- 使用Selenium爬取数据时,网页切换之后原先获取的元素变量失效的问题
  8. 拓端tecdat|R语言、SAS潜类别(分类)轨迹模型LCTM分析体重指数 (BMI)数据可视化
  9. [转]如何在NIOS II中读写EPCS剩余空间
  10. android系统更新原理简介
  11. 这世上没有末路,你从不曾孤独
  12. 最受玩家喜爱的十大游戏IP类型,你最喜欢哪个?
  13. 通过exif.js简单处理手机照片拍摄图片旋转问题
  14. ubuntu14 teamviewer使用
  15. linux服务器拷机测试,服务器拷机使用方法
  16. 机房动环设备集中监控数据运维云平台解决方案
  17. JavaScript 动态数据处理
  18. 股票预测数据与真实数据对比图(八)2021/07/16
  19. php日期去掉分秒,Phpcms教程:解决内容页去掉发布时间的小时,分秒问题
  20. CP1H通过RS232连电脑上的威伦EB8000在线模拟

热门文章

  1. 【Python】绘制股票K线图(烛状图)并增加成交量和移动平均线(详细简单)
  2. 破解IT公司高管频繁离职的密码
  3. LeNet:Handwritten Digit Recognition with a Back-Propagation Network
  4. 求助:电压跟随器的输入电压问题
  5. 20175316盛茂淞 2018-2019-2《Java程序设计》第4周学习总结
  6. 阿里 oracle 时间戳,阿里巴巴的骄傲,合伙人刘振飞回忆,OceanBase十年时间登上巅峰...
  7. fico RMA部署规则时,jdk过期报错
  8. 《python数据挖掘》实战篇
  9. Python+CLIP,令人惊叹的个性艺术表达
  10. 智能家居价格昂贵?只能说你知道的太少——平价的智能家居方案