爬取猫眼电影排行榜第一页

import requests
from requests.exceptions import RequestException
from sqlalchemy import create_engine
from lxml import etree
import pandas as pd
import numpy as npurl = 'https://maoyan.com/board/4'
try:headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36'}response=requests.get(url,headers=headers)if response.status_code==200:response=response.text
except RequestException:print("错误")html_1=etree.HTML(response)
movie_sorce_1=html_1.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[2]/p/i[1]/text()')
movie_sorce_2=html_1.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[2]/p/i[2]/text()')
movie_sorce=[]
for i in range(10):movie_sorce.append(movie_sorce_1[i]+movie_sorce_2[i])movie_title=html_1.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/a/@title')
movie_actor=html_1.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[2]/text()')
movie_time=html_1.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[3]/text()')data_1=[]
for i in range(10):data = {}data['title']=movie_title[i]data['sorce']=movie_sorce[i]data['actor']=movie_actor[i].strip()data['time']=movie_time[i]data_1.append(data)
print(data_1)
file=pd.DataFrame(data_1)
engine = create_engine("mysql+pymysql://root:password@localhost:3306/data?charset=utf8")
pd.io.sql.to_sql(file, 'maoyan', engine, schema=data, if_exists='append')


总结:随手写的,希望大佬放过,可以添加循环实现多页爬取,这里就懒得加了。。。

最后:我是小白,不要喷我啊

python爬虫基础爬取猫眼电影相关推荐

  1. python爬虫,爬取猫眼电影1(正则表达式)

    本文用正则.xpath.beautifulsoup.css.pyquery几种不同的方式,爬取猫眼电影.只是记录过程.比较乱. 猫眼电影现在也添加了一些反爬虫机制,如果直接用requests可能会40 ...

  2. 【Python爬虫】爬取猫眼电影票房

    题记 本文旨在记录爬取猫眼电影国内票房榜单的过程,以及对脚本内字体文件反爬函数的说明. 环境 系统: Windows 10 Python版本: Python 3.7 爬取时间: 2019.3.19 难 ...

  3. 【Python爬虫】爬取猫眼电影排行榜并存放至csv文件

    在进行本节实战之前,希望您对requests库以及正则表达式有所了解. 运行平台:windows **Python版本: Python3.x ** 一.依赖库的安装 在本节实战之前,请确保已经正确安装 ...

  4. Python全栈开发-Python爬虫-05 爬取猫眼电影榜单信息

    爬取猫眼电影榜单信息(翻页) 一. 获取url及headers 首先进入猫眼电影首页: 猫眼电影 之后点击菜单栏的 榜单 并在下面选择 TOP100榜 接着右击检查并刷新界面,在Network中找到4 ...

  5. python爬虫,爬取猫眼电影2(xpath和bs4)

    接着上面的. 使用xpath提取信息,虽然python很多库,比如beautifulsoup,也有很多功能,比如查找节点,添加删除节点.但是个人感觉对爬虫来说,最重要的还是提取信息,当然,顺利的提取信 ...

  6. python战反爬虫:爬取猫眼电影数据 (一)(Requests, BeautifulSoup, MySQLdb,re等库)

    姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本篇文章未涉及猫眼反爬,主要介绍爬取无反爬内容,战反爬内容请去 python战反爬虫:爬取猫眼电影数据 (二)(Requests, Be ...

  7. python战反爬虫:爬取猫眼电影数据 (二)(Requests, BeautifulSoup, MySQLdb,re等库)

    姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本文主要介绍破解反爬,可以先去上一篇观看爬取无反爬内容 python战反爬虫:爬取猫眼电影数据 (一)(Requests, Beauti ...

  8. python战反爬虫:爬取猫眼电影数据 (一)

    非常荣幸邀请到 赛迪人工智能大赛(简称AI世青赛)全球总决赛银奖的获得者 隋顺意 小朋友为本公众号投稿,隋小朋友虽然小小年纪,但编程能力已经比大多数大学生强非常多了,欢迎大家关注,捧场. 姓名:隋顺意 ...

  9. python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250

    用Python爬虫实现爬取豆瓣电影Top250 #爬取 豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...

最新文章

  1. 2021年人工神经网络第四次作业 - 第三题Cifar10
  2. C#不要再使用Npoi啦,使用MiniExcel操作Excel文件更快更高效!
  3. Animate.css介绍
  4. python selenium T3
  5. 【Machine Learning 四】设置机器学习可用的Matlab编程分配环境
  6. 来自1976,Hinton写的第一篇论文火了:胶囊网络,是40年前的胶囊?
  7. php header是什么,学习猿地-php header什么意思
  8. 怎么用百度搜索php网站,PHP简单获取网站百度搜索和搜狗搜索收录量的方法
  9. STM32F207核心版的LwIP例程的心得
  10. python矩阵乘法代码_python3 单行代码实现矩阵相乘
  11. matlab 动平衡,运用labview和matlab混合编程实现转子动平衡的测试与控制
  12. Java 数组的三种创建方法
  13. 基金投资基本常识【狂神说】
  14. 我的世界java无法连接服务器_java - 无法连接到Minecraft服务器 - SO中文参考 - www.soinside.com...
  15. 哈工程和杭电计算机,哈工程算名校吗?为什么说千万别来哈工程?
  16. Python学习(十一)Python标识符命名规范
  17. 互联网行业外包公司和自主研发公司的区别
  18. Matlab的Notebook软件工具设置及程序运行
  19. 滴滴助力 2020 中国开源年会 暨 阿帕奇中国路演
  20. Redis相关命令及使用场景介绍

热门文章

  1. sql语句中where 1=1的作用
  2. 职称计算机xp系统试题,2015年职称计算机WindowsXP测试题及答案
  3. ajaxSubmitDemo
  4. ios pod的使用遇到 library not found for -lPods
  5. 深入分析linux内核的内存分配函数devm_kzalloc
  6. 点击查看全部图片(类似头条效果)
  7. C语言蓝桥杯刷题:成绩统计
  8. 无需越狱,iPhone修改应用通知气泡颜色
  9. 关于印发《湖南省首版次软件产品认定管理办法》的通知
  10. Linux系统常见错误***error*** (zip#Write) sorry, your system doesn t appear to have the zip pgm