python爬虫基础爬取猫眼电影

爬取猫眼电影排行榜第一页

import requests
from requests.exceptions import RequestException
from sqlalchemy import create_engine
from lxml import etree
import pandas as pd
import numpy as npurl = 'https://maoyan.com/board/4'
try:headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36'}response=requests.get(url,headers=headers)if response.status_code==200:response=response.text
except RequestException:print("错误")html_1=etree.HTML(response)
movie_sorce_1=html_1.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[2]/p/i[1]/text()')
movie_sorce_2=html_1.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[2]/p/i[2]/text()')
movie_sorce=[]
for i in range(10):movie_sorce.append(movie_sorce_1[i]+movie_sorce_2[i])movie_title=html_1.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/a/@title')
movie_actor=html_1.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[2]/text()')
movie_time=html_1.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[3]/text()')data_1=[]
for i in range(10):data = {}data['title']=movie_title[i]data['sorce']=movie_sorce[i]data['actor']=movie_actor[i].strip()data['time']=movie_time[i]data_1.append(data)
print(data_1)
file=pd.DataFrame(data_1)
engine = create_engine("mysql+pymysql://root:password@localhost:3306/data?charset=utf8")
pd.io.sql.to_sql(file, 'maoyan', engine, schema=data, if_exists='append')

总结：随手写的，希望大佬放过，可以添加循环实现多页爬取，这里就懒得加了。。。

最后：我是小白，不要喷我啊

python爬虫基础爬取猫眼电影相关推荐

python爬虫，爬取猫眼电影1（正则表达式）
本文用正则.xpath.beautifulsoup.css.pyquery几种不同的方式,爬取猫眼电影.只是记录过程.比较乱. 猫眼电影现在也添加了一些反爬虫机制,如果直接用requests可能会40 ...
【Python爬虫】爬取猫眼电影票房
题记本文旨在记录爬取猫眼电影国内票房榜单的过程,以及对脚本内字体文件反爬函数的说明. 环境系统: Windows 10 Python版本: Python 3.7 爬取时间: 2019.3.19 难 ...
【Python爬虫】爬取猫眼电影排行榜并存放至csv文件
在进行本节实战之前,希望您对requests库以及正则表达式有所了解. 运行平台:windows **Python版本: Python3.x ** 一.依赖库的安装在本节实战之前,请确保已经正确安装 ...
Python全栈开发-Python爬虫-05 爬取猫眼电影榜单信息
爬取猫眼电影榜单信息(翻页) 一. 获取url及headers 首先进入猫眼电影首页: 猫眼电影之后点击菜单栏的榜单并在下面选择 TOP100榜接着右击检查并刷新界面,在Network中找到4 ...
python爬虫，爬取猫眼电影2（xpath和bs4）
接着上面的. 使用xpath提取信息,虽然python很多库,比如beautifulsoup,也有很多功能,比如查找节点,添加删除节点.但是个人感觉对爬虫来说,最重要的还是提取信息,当然,顺利的提取信 ...
python战反爬虫：爬取猫眼电影数据 (一）（Requests, BeautifulSoup, MySQLdb,re等库)
姓名:隋顺意博客:Sui_da_xia 微信名:世界上的霸主本篇文章未涉及猫眼反爬,主要介绍爬取无反爬内容,战反爬内容请去 python战反爬虫:爬取猫眼电影数据 (二)(Requests, Be ...
python战反爬虫：爬取猫眼电影数据 (二）（Requests, BeautifulSoup, MySQLdb,re等库)
姓名:隋顺意博客:Sui_da_xia 微信名:世界上的霸主本文主要介绍破解反爬,可以先去上一篇观看爬取无反爬内容 python战反爬虫:爬取猫眼电影数据 (一)(Requests, Beauti ...
python战反爬虫：爬取猫眼电影数据 (一）
非常荣幸邀请到赛迪人工智能大赛(简称AI世青赛)全球总决赛银奖的获得者隋顺意小朋友为本公众号投稿,隋小朋友虽然小小年纪,但编程能力已经比大多数大学生强非常多了,欢迎大家关注,捧场. 姓名:隋顺意 ...
python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250
用Python爬虫实现爬取豆瓣电影Top250 #爬取豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...

python爬虫基础爬取猫眼电影

爬取猫眼电影排行榜第一页

python爬虫基础爬取猫眼电影相关推荐

最新文章

热门文章