使用bs4爬取豆瓣250

import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}
def get_urls(url):   # 获取子页面的 urlresp = requests.get(url,headers=headers)html = resp.textsoup = BeautifulSoup(html,'lxml')lis = soup.find('ol',class_='grid_view').find_all('li')detail_urls = []for li in lis:urls = li.find('a')['href']detail_urls.append(urls)return detail_urlsdef get_data(url,f):resp = requests.get(url,headers=headers)html = resp.textsoup = BeautifulSoup(html,'lxml')name = list(soup.find('h1').stripped_strings)name = ''.join(name)director = list(soup.find('div', id='info').find('span', class_='attrs').stripped_strings)actor = list(soup.find('span', class_='actor').find('span', class_='attrs').stripped_strings)f.write('{},{},{}\n'.format(name, ''.join(director), ''.join(actor)))  # 将列表元素组合def main():base_url = 'https://movie.douban.com/top250?start={}&filter='  # 根据换页的关系,用来换页with open('Top250.csv','a',encoding='utf-8') as f:for x in range(0,251,25):url = base_url.format(x)detail_urls = get_urls(url)for detail_url in detail_urls:get_data(detail_url,f)if __name__ == '__main__':main()

确实比xpath简单(不过我选择xpath),,在正则之前好好复习几天吧。。。

Python随记(27)bs4爬取豆瓣250相关推荐

  1. python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片,分别保存到csv文件和文件夹中

    python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和图片,分别保存到csv文件和文件夹中. 爬取的数据包括每个电影的电影名 , 导演 ,演员 ,评分,推荐语,年份,国家,类型. py如果 ...

  2. python爬虫(一)爬取豆瓣电影排名前50名电影的信息

    python爬虫(一)爬取豆瓣电影排名前50名电影的信息 在Python爬虫中,我们可以使用beautifulsoup对网页进行解析. 我们可以使用它来爬取豆瓣电影排名前50名的电影的详细信息,例如排 ...

  3. Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除)

    Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除) import requests from bs4 import BeautifulSoup import ti ...

  4. Python爬虫入门 | 7 分类爬取豆瓣电影,解决动态加载问题

      比如我们今天的案例,豆瓣电影分类页面.根本没有什么翻页,需要点击"加载更多"新的电影信息,前面的黑科技瞬间被秒--   又比如知乎关注的人列表页面:   我复制了其中两个人昵称 ...

  5. Python借助爬虫Requests+BS4爬取人民教育出版社义务教育下学期课本(二)

    文章目录 思路梳理 封装函数 重要提示 系列文章 思路梳理 我们打开网页,可以看到这其中有许多链接,我们可以查看一下网页源代码,可以看到如我们所期盼的一样,这里有许多的链接,我们只需要把链接爬取出来就 ...

  6. Python借助爬虫Requests+BS4爬取人民教育出版社义务教育下学期课本(一)

    经过一晚上的休息,我已经重新从阴影中站了起来,并重新发现了一个人性化的网站,一起来看看这个网站吧 来到了人民教育出版社的官网,一看,顿时晕眩三秒,我昨天的努力不都白费了吗,只得重新打起精神,研究一下这 ...

  7. python采用requests+bs4爬取豆瓣top250电影信息

    爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...

  8. Python简单爬虫(以爬取豆瓣高分图书为例)

    前言 浏览器或程序的一次请求,网站服务器的一次响应,就构成一次网络爬虫行为. 一个爬虫通常通过爬虫包完成请求HTML,通过解析包完成HTML解析和存储. 爬虫分类: 全网爬虫 爬取整个互联网,需要定制 ...

  9. Python爬虫如何实用xpath爬取豆瓣音乐

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  10. 使用request和re爬取豆瓣250排行榜信息

    1.1 请求 请求,也就是由客户端发出,可以分成4部分:请求方法.请求的网址.请求头.请求体. 常见的请求方法有两种:GET和POST. 在浏览器里直接输入URL然后回车,这就发起了一个GET请求,请 ...

最新文章

  1. 微信样式组件遇到的小坑
  2. boost::hana::detail::any_of用法的测试程序
  3. JVM调优 dump文件怎么生成和分析
  4. 由Qt中qApp想到的(这是单例模式么???)
  5. 今年圣诞,麋鹿第一次请假
  6. ASP.NET中Request.ApplicationPath、Request.FilePath、Request.Path、.Request.MapPath、Server.MapPath的区别
  7. 设计模式(二)--里氏替换原则(Java的继承规范)
  8. 超强计算机病毒代码,木马编程 之超强服务... 附代码 原创.
  9. R语言中与矩阵相关的所有操作(上)
  10. 面向过程编程与面向对象编程
  11. 【android-音视频】listview中播放音频,实现音频时长的倒计时,暂停,切换。
  12. 如何购买腾讯云学生服务器
  13. 小米手机第三方卡刷软件_小米手机MIUI卡刷图文教程
  14. windows无法启动计算机上,windows无法启动解决方法汇总
  15. warning: #61-D: integer operation result is out of range
  16. 2022 年十大绩效考核技巧
  17. leetcode(力扣) 718. 最长重复子数组 1143. 最长公共子序列 1035. 不相交的线 (动态规划)
  18. 谷歌拼音输入法的安全漏洞
  19. echarts3 使用((绘制各种图表,地图))
  20. SLAM算法VINS-MONO安装运行介绍

热门文章

  1. Cadence学习之路:什么是PCB工艺的正片与负片
  2. javascript 代码技巧 (四) —— javascript获取坐标/滚动/宽高/距离
  3. [4G5G专题-50]:物理层-数字波束赋型Beamforming及其数学原理
  4. centos7 Rsync服务端和windows cwRsync实现数据同步(增量备份)
  5. 在Windows 10 64 位机器上安装Debug
  6. scrum敏捷开发、敏捷测试,快速迭代实践
  7. 用ArcGIS对图像进行地理配准
  8. Android 通过应用设置系统日期和时间的方法
  9. Element UI 中国省市区级联数据
  10. 强连通分量入门——Trajan算法