Python随记（27）bs4爬取豆瓣250

使用bs4爬取豆瓣250

import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}
def get_urls(url):   # 获取子页面的 urlresp = requests.get(url,headers=headers)html = resp.textsoup = BeautifulSoup(html,'lxml')lis = soup.find('ol',class_='grid_view').find_all('li')detail_urls = []for li in lis:urls = li.find('a')['href']detail_urls.append(urls)return detail_urlsdef get_data(url,f):resp = requests.get(url,headers=headers)html = resp.textsoup = BeautifulSoup(html,'lxml')name = list(soup.find('h1').stripped_strings)name = ''.join(name)director = list(soup.find('div', id='info').find('span', class_='attrs').stripped_strings)actor = list(soup.find('span', class_='actor').find('span', class_='attrs').stripped_strings)f.write('{},{},{}\n'.format(name, ''.join(director), ''.join(actor)))  # 将列表元素组合def main():base_url = 'https://movie.douban.com/top250?start={}&filter='  # 根据换页的关系，用来换页with open('Top250.csv','a',encoding='utf-8') as f:for x in range(0,251,25):url = base_url.format(x)detail_urls = get_urls(url)for detail_url in detail_urls:get_data(detail_url,f)if __name__ == '__main__':main()

确实比xpath简单（不过我选择xpath），，在正则之前好好复习几天吧。。。

Python随记（27）bs4爬取豆瓣250相关推荐

python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片，分别保存到csv文件和文件夹中
python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和图片,分别保存到csv文件和文件夹中. 爬取的数据包括每个电影的电影名 , 导演 ,演员 ,评分,推荐语,年份,国家,类型. py如果 ...
python爬虫（一）爬取豆瓣电影排名前50名电影的信息
python爬虫(一)爬取豆瓣电影排名前50名电影的信息在Python爬虫中,我们可以使用beautifulsoup对网页进行解析. 我们可以使用它来爬取豆瓣电影排名前50名的电影的详细信息,例如排 ...
Python爬虫菜鸟入门，爬取豆瓣top250电影（自己学习，如有侵权，请联系我删除）
Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除) import requests from bs4 import BeautifulSoup import ti ...
Python爬虫入门 | 7 分类爬取豆瓣电影，解决动态加载问题
比如我们今天的案例,豆瓣电影分类页面.根本没有什么翻页,需要点击"加载更多"新的电影信息,前面的黑科技瞬间被秒-- 又比如知乎关注的人列表页面: 我复制了其中两个人昵称 ...
Python借助爬虫Requests+BS4爬取人民教育出版社义务教育下学期课本（二）
文章目录思路梳理封装函数重要提示系列文章思路梳理我们打开网页,可以看到这其中有许多链接,我们可以查看一下网页源代码,可以看到如我们所期盼的一样,这里有许多的链接,我们只需要把链接爬取出来就 ...
Python借助爬虫Requests+BS4爬取人民教育出版社义务教育下学期课本（一）
经过一晚上的休息,我已经重新从阴影中站了起来,并重新发现了一个人性化的网站,一起来看看这个网站吧来到了人民教育出版社的官网,一看,顿时晕眩三秒,我昨天的努力不都白费了吗,只得重新打起精神,研究一下这 ...
python采用requests+bs4爬取豆瓣top250电影信息
爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...
Python简单爬虫（以爬取豆瓣高分图书为例）
前言浏览器或程序的一次请求,网站服务器的一次响应,就构成一次网络爬虫行为. 一个爬虫通常通过爬虫包完成请求HTML,通过解析包完成HTML解析和存储. 爬虫分类: 全网爬虫爬取整个互联网,需要定制 ...
Python爬虫如何实用xpath爬取豆瓣音乐
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
使用request和re爬取豆瓣250排行榜信息
1.1 请求请求,也就是由客户端发出,可以分成4部分:请求方法.请求的网址.请求头.请求体. 常见的请求方法有两种:GET和POST. 在浏览器里直接输入URL然后回车,这就发起了一个GET请求,请 ...

Python随记（27）bs4爬取豆瓣250

使用bs4爬取豆瓣250

Python随记（27）bs4爬取豆瓣250相关推荐

最新文章

热门文章