python爬虫基础爬取猫眼电影
爬取猫眼电影排行榜第一页
import requests
from requests.exceptions import RequestException
from sqlalchemy import create_engine
from lxml import etree
import pandas as pd
import numpy as npurl = 'https://maoyan.com/board/4'
try:headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36'}response=requests.get(url,headers=headers)if response.status_code==200:response=response.text
except RequestException:print("错误")html_1=etree.HTML(response)
movie_sorce_1=html_1.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[2]/p/i[1]/text()')
movie_sorce_2=html_1.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[2]/p/i[2]/text()')
movie_sorce=[]
for i in range(10):movie_sorce.append(movie_sorce_1[i]+movie_sorce_2[i])movie_title=html_1.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/a/@title')
movie_actor=html_1.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[2]/text()')
movie_time=html_1.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[3]/text()')data_1=[]
for i in range(10):data = {}data['title']=movie_title[i]data['sorce']=movie_sorce[i]data['actor']=movie_actor[i].strip()data['time']=movie_time[i]data_1.append(data)
print(data_1)
file=pd.DataFrame(data_1)
engine = create_engine("mysql+pymysql://root:password@localhost:3306/data?charset=utf8")
pd.io.sql.to_sql(file, 'maoyan', engine, schema=data, if_exists='append')
总结:随手写的,希望大佬放过,可以添加循环实现多页爬取,这里就懒得加了。。。
最后:我是小白,不要喷我啊
python爬虫基础爬取猫眼电影相关推荐
- python爬虫,爬取猫眼电影1(正则表达式)
本文用正则.xpath.beautifulsoup.css.pyquery几种不同的方式,爬取猫眼电影.只是记录过程.比较乱. 猫眼电影现在也添加了一些反爬虫机制,如果直接用requests可能会40 ...
- 【Python爬虫】爬取猫眼电影票房
题记 本文旨在记录爬取猫眼电影国内票房榜单的过程,以及对脚本内字体文件反爬函数的说明. 环境 系统: Windows 10 Python版本: Python 3.7 爬取时间: 2019.3.19 难 ...
- 【Python爬虫】爬取猫眼电影排行榜并存放至csv文件
在进行本节实战之前,希望您对requests库以及正则表达式有所了解. 运行平台:windows **Python版本: Python3.x ** 一.依赖库的安装 在本节实战之前,请确保已经正确安装 ...
- Python全栈开发-Python爬虫-05 爬取猫眼电影榜单信息
爬取猫眼电影榜单信息(翻页) 一. 获取url及headers 首先进入猫眼电影首页: 猫眼电影 之后点击菜单栏的 榜单 并在下面选择 TOP100榜 接着右击检查并刷新界面,在Network中找到4 ...
- python爬虫,爬取猫眼电影2(xpath和bs4)
接着上面的. 使用xpath提取信息,虽然python很多库,比如beautifulsoup,也有很多功能,比如查找节点,添加删除节点.但是个人感觉对爬虫来说,最重要的还是提取信息,当然,顺利的提取信 ...
- python战反爬虫:爬取猫眼电影数据 (一)(Requests, BeautifulSoup, MySQLdb,re等库)
姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本篇文章未涉及猫眼反爬,主要介绍爬取无反爬内容,战反爬内容请去 python战反爬虫:爬取猫眼电影数据 (二)(Requests, Be ...
- python战反爬虫:爬取猫眼电影数据 (二)(Requests, BeautifulSoup, MySQLdb,re等库)
姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本文主要介绍破解反爬,可以先去上一篇观看爬取无反爬内容 python战反爬虫:爬取猫眼电影数据 (一)(Requests, Beauti ...
- python战反爬虫:爬取猫眼电影数据 (一)
非常荣幸邀请到 赛迪人工智能大赛(简称AI世青赛)全球总决赛银奖的获得者 隋顺意 小朋友为本公众号投稿,隋小朋友虽然小小年纪,但编程能力已经比大多数大学生强非常多了,欢迎大家关注,捧场. 姓名:隋顺意 ...
- python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250
用Python爬虫实现爬取豆瓣电影Top250 #爬取 豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...
最新文章
- 2021年人工神经网络第四次作业 - 第三题Cifar10
- C#不要再使用Npoi啦,使用MiniExcel操作Excel文件更快更高效!
- Animate.css介绍
- python selenium T3
- 【Machine Learning 四】设置机器学习可用的Matlab编程分配环境
- 来自1976,Hinton写的第一篇论文火了:胶囊网络,是40年前的胶囊?
- php header是什么,学习猿地-php header什么意思
- 怎么用百度搜索php网站,PHP简单获取网站百度搜索和搜狗搜索收录量的方法
- STM32F207核心版的LwIP例程的心得
- python矩阵乘法代码_python3 单行代码实现矩阵相乘
- matlab 动平衡,运用labview和matlab混合编程实现转子动平衡的测试与控制
- Java 数组的三种创建方法
- 基金投资基本常识【狂神说】
- 我的世界java无法连接服务器_java - 无法连接到Minecraft服务器 - SO中文参考 - www.soinside.com...
- 哈工程和杭电计算机,哈工程算名校吗?为什么说千万别来哈工程?
- Python学习(十一)Python标识符命名规范
- 互联网行业外包公司和自主研发公司的区别
- Matlab的Notebook软件工具设置及程序运行
- 滴滴助力 2020 中国开源年会 暨 阿帕奇中国路演
- Redis相关命令及使用场景介绍
热门文章
- sql语句中where 1=1的作用
- 职称计算机xp系统试题,2015年职称计算机WindowsXP测试题及答案
- ajaxSubmitDemo
- ios pod的使用遇到 library not found for -lPods
- 深入分析linux内核的内存分配函数devm_kzalloc
- 点击查看全部图片(类似头条效果)
- C语言蓝桥杯刷题:成绩统计
- 无需越狱,iPhone修改应用通知气泡颜色
- 关于印发《湖南省首版次软件产品认定管理办法》的通知
- Linux系统常见错误***error*** (zip#Write) sorry, your system doesn t appear to have the zip pgm