小菜鸟的第一个爬虫：豆瓣爬取电影信息

爬取页面：
【2016年国内公映电影排期】

#!/usr/bin/env python
# -*- coding=utf-8 -*-import urllib.request
import re
import time
import os
from bs4 import BeautifulSoup
def get_html(url):  #通过url获取网页内容result = urllib.request.urlopen(url)return result.read()# save_file(result.read(), 'thefile.txt')
def get_movie_all(html):     #通过soup提取到每个电影的全部信息，以list返回soup = BeautifulSoup(html,'html.parser')movie_list = soup.find_all('div', class_='bd doulist-subject')return movie_list
def get_one_movie(movie):result = []  # 用于存储提取出来的电影信息soup_all = BeautifulSoup(str(movie), 'html.parser')title = soup_all.find_all('div', class_='title')soup_title = BeautifulSoup(str(title[0]), 'html.parser')for line in soup_title.stripped_strings:  # 对获取到的<a>里的内容进行提取result.append(line)# num = soup_all.find_all('span', class_='rating_nums')# 加入电影评分num = soup_all.find_all('span')result.append(num[1].string)# 加入abstractinfo = soup_all.find_all('div', class_='abstract')soup_info = BeautifulSoup(str(info[0]), 'html.parser')result_str = ""for line in soup_info.stripped_strings:  # 对获取到的<div>里的内容进行提取result_str = result_str +" "+ lineresult.append(result_str)return result  # 返回获取到的结果def save(text,file_name):with open(file_name,'ab') as f:texts = str.encode(text)f.write(texts)if __name__=='__main__':url = 'https://www.douban.com/doulist/3516235/?start=0&sort=seq&sub_type='html = get_html(url)movie_list = get_movie_all(html)for movie in movie_list:result = get_one_movie(movie)text = '电影名：'+result[0]+'   '+'评分：'+result[1]+'    '+result[2]+'\n'save(text,'movie.txt')

只爬取了第一页的内容，参考这位大神的代码
毕竟小白开始学习是要从模仿开始的嘛~~思路懂了又自己敲了一遍。
慢慢来吧，相信自己不是废物┭┮﹏┭┮
相关待看
豆瓣电影TOP250爬取

小菜鸟的第一个爬虫：豆瓣爬取电影信息相关推荐

菜鸟Python实战-03爬虫之爬取数据
最近想学习一下爬虫所以参考了一下网上的代码,并加以理解和整理,好记性不如烂笔头吧. 以下代码的目标网站是豆瓣电影:https://movie.douban.com/top250?start=%22( ...
python3爬虫：爬取电影天堂电影信息
python3爬虫:爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 from lxml import etree import requestsBASE_ ...
Node.js 爬虫爬取电影信息
Node.js 爬虫爬取电影信息本文地址:https://blog.csdn.net/weixin_45580251/article/details/107669713 爬取的是1905电影网的信息 ...
python爬取电影信息并插入至MySQL数据库
在上篇博文中,博主使用python爬取了豆瓣电影的影片信息,接下来,博主考虑到在之前做的JavaWeb电影院项目中需要向数据库中一个个的插入影片数据,十分的繁琐,那么在使用了python爬虫后,这个操 ...
第三课、《爬取电影信息》
<爬取电影信息> 1.准备工作 2.分析网页 1.打开网页 2.选取2019年的电影并分析其网页链接 3.分析ajax包的链接 (1)查看ajax包是否内容正确 (2)分析ajax包的链接 ...
爬虫入门案例——爬取电影信息
综述:先介绍开发环境,在介绍从豆瓣电影上面爬取电影的电影名称,电影信息,电影剧照等信息,最终效果是以电影名称为文件夹名,文件夹包含一个txt文件和许多张剧照.如下图所示1是电影名,2是电影信息,3是各 ...
python实战-HTML形式爬虫-批量爬取电影下载链接
文章目录一.前言二.思路 1.网站返回内容 2.url分页结构 3.子页面访问形式 4.多种下载链接判断三.具体代码的实现四.总结一.前言喜欢看片的小伙伴,肯定想打造属于自己的私人影院 ...
Python爬虫之爬取车票信息
Python爬虫之爬取所有火车站的站台信息前面我写过一篇关于火车站站台的查询,这篇基于站台的查询写火车车票余额信息查询-- 一.信息获取: 获取请求地址: 在浏览器菜单中找到Web开发者模式,打开网 ...
基于SpringBoot框架Wbe Magic爬虫框架爬取招聘信息项目（1）
涉及的技术点:SpringBoot框架.Web Magic爬⾍框架.MySQL.mybatis. 使用语言:Java. 使用工具:idea. 本篇文章主要讲解搭建项目以及如何将页面数据输出打印到i ...

小菜鸟的第一个爬虫：豆瓣爬取电影信息

小菜鸟的第一个爬虫：豆瓣爬取电影信息相关推荐

最新文章

热门文章