Python3爬取影片入库

1、服务器说明

[root@openshift maoyan]# cat /etc/redhat-release

CentOS Linux release 7.4.1708 (Core)

[root@openshift maoyan]# python -V

Python 3.6.3 :: Anaconda, Inc.

2、爬取电影入库

首页页面分地址分析

子页面数据获取,四个字段的数据写入,

3、mysql数据库连接

import pymysql

pymysql.install_as_MySQLdb()

class Sql(object):

conn = pymysql.connect(

host="127.0.0.1",

port=3306,

user='root',

passwd='123456',

db="movies",

charset="utf8"

)

4、源代码编写

[root@openshift maoyan]# cat maoyan2.py

# coding:utf-8

import requests,os,sys,django

from bs4 import BeautifulSoup

import re,urllib

import pymysql

pymysql.install_as_MySQLdb()

import datetime

headers = {

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Accept-Encoding':'gzip, deflate, sdch',

'Accept-Language':'zh-CN,zh;q=0.8',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'Host':'maoyan.com',

'Upgrade-Insecure-Requests':'1',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

class Sql(object):

conn = pymysql.connect(

host="127.0.0.1",

port=3306,

user='root',

passwd='123456',

db="movies",

charset="utf8"

)

url = 'http://maoyan.com/films?showType=3'

#url = 'https://maoyan.com/films?showType=3&offset=30'

wbdata = requests.get(url,headers=headers)

soup = BeautifulSoup(wbdata.content,'html5lib')

movie_list = soup.select('div.movie-item > a')

for movie in movie_list:

m_url = 'http://maoyan.com' + movie.get('href')

m_data = requests.get(m_url,headers=headers)

m_soup = BeautifulSoup(m_data.content,'html5lib')

name = m_soup.select_one('div.movie-brief-container > h3.name').get_text()

movie_cate = m_soup.select("div.movie-brief-container > ul > li")[0].get_text()

release_date = m_soup.select("div.movie-brief-container > ul > li")[2].get_text()[0:10]

movie_img = m_soup.select_one('div.avatar-shadow > img').get('src')

created = datetime.datetime.now()

viewd = 1

cur = conn.cursor()

cur.execute("insert into userscore_movie(name,movie_cate,viewed,created,release_date,movie_img) VALUES('%s','%s','%d','%s','%s','%s')" %(name,movie_cate,viewd,created,release_date,movie_img))

print('正在爬取电影: '+name)

cur.close()

conn.commit()

Sql()

5、执行脚本,爬取数据过程

6、数据库查看

自此,完成了Python3爬取影片入库过程。

转载于:https://www.cnblogs.com/sunnyyangwang/p/10394458.html

Python3爬取影片入库相关推荐

  1. Python3爬取企查查网站的企业年表并存入MySQL

    Python3爬取企查查网站的企业年表并存入MySQL 本篇博客的主要内容:爬取企查查网站的企业年报数据,存到mysql中,为了方便记录,分成两个模块来写: 第一个模块是爬取数据+解析数据,并将数据存 ...

  2. Python2 Python3 爬取赶集网租房信息,带源码分析

    *之前偶然看了某个腾讯公开课的视频,写的爬取赶集网的租房信息,这几天突然想起来,于是自己分析了一下赶集网的信息,然后自己写了一遍,写完又用用Python3重写了一遍.之中也遇见了少许的坑.记一下.算是 ...

  3. python3爬取百度图片

    python3爬取百度图片 最终目的:能通过输入关键字进行搜索,爬取相应的图片存储到本地或者数据库 首先打开百度图片的网站,搜索任意一个关键字,比如说:水果,得到如下的界面 分析: 1.百度图片搜索结 ...

  4. Python3爬取国家统计局官网2019年全国所有城市(2020年更新)

    Python3爬取国家统计局官网2019年全国所有城市(2020年更新) 一级城市爬取 一级城市爬取 由于最近需要用到所有城市的数据,故从统计局爬取19年的一级城市数据 import random i ...

  5. python3爬取巨潮资讯网站年报数据

    python3爬取巨潮资讯网站年报数据 2018年年底巨潮资讯http://www.cninfo.com.cn改版了,之前实习生从网上找的脚本不能用了,因此重新修改了下爬取脚本.最初脚本的原链接忘了, ...

  6. 使用python3 爬取豆瓣电影热映和即将上映

    使用python3爬取都摆即将上映和正在热映的电影,代码如下 直接使用bs4获取页面,使用css 获取到对应的信息后,使用字符串拼接的方式,将正在热映和即将上映的信息拼接出来并写入到html页面中,在 ...

  7. Python3 爬取豆瓣电影信息

    原文链接: Python3 爬取豆瓣电影信息 上一篇: python3 爬取电影信息 下一篇: neo4j 查询 豆瓣api https://developers.douban.com/wiki/?t ...

  8. python3爬取数据_python3爬取巨潮资讯网站年报数据

    python3爬取巨潮资讯网站年报数据 2018年年底巨潮资讯http://www.cninfo.com.cn改版了,之前实习生从网上找的脚本不能用了,因此重新修改了下爬取脚本.最初脚本的原链接忘了, ...

  9. python3爬取巨潮资讯网的年报数据

    python3爬取巨潮资讯网的年报数据 前期准备: 需要用到的库: 完整代码: 前期准备: 巨潮资讯网有反爬虫机制,所以先打开巨潮资讯网的年报板块,看看有什么解决办法. 巨潮咨询年报板块 可以通过这样 ...

最新文章

  1. 影像锐化工具_如何以及为什么要进行工具改造:花在锐化斧头上的时间永远不会浪费...
  2. dock run mysql v3_docker run mysql成功,但是3306端口不通?
  3. 为最快动脉线诊断 铁科院联合第四范式完成高铁智能化巡检应用
  4. ⅰcp经济模型_干货!来自清华小哥哥的全家桶教程——手把手教你在本地构建 Nervos AppChain...
  5. 【飞秋】微软简化Visual Studio 非程序员也能开发软件
  6. 通过里程碑式管理,控制软件项目管理进度
  7. 安川机器人梯形图指令(一)
  8. 二进制、十六进制转换表
  9. 国内FRM证书福利政策大全
  10. 华为nova6开启开发者模式,连接USB
  11. ISTQB TM考点总结
  12. 全球电动汽车充电标准最详解析
  13. 语言有很多类型,你知道吗?【静态/动态编译语言、弱/强类型语言】
  14. 理论基础篇 -- 【计算机网络通关29讲笔记】
  15. UOJ#414. 【APIO2018】新家
  16. H3C配置远程登录(console、telnet、ssh)
  17. 项目二:使用交换机构建简单局域网——使用交换机构建局域网
  18. ThinkPadT550加装ssd
  19. Oracle 从入门到精通系列 - 前言
  20. solidworks flexnet server服务无法启动解决方案:

热门文章

  1. JS 基础知识点及常考面试题(二)
  2. 一起来玩树莓派--解决官方docker源安装失败的问题
  3. foxpro mysql_将Visual Foxpro连接到MySql数据库
  4. spring IOC 装配一个bean
  5. [Contest]2017 ACM/ICPC Asia Regional Shenyang Online(01 03 07 09 10 11待补)
  6. 11-散列1 电话聊天狂人
  7. 使用FlashFXP V3.8烈火汉化绿色版软件连接Linux
  8. MFCButton Memory leak(内存泄露问题)
  9. 利用strut2标签自动生成form前端验证代码
  10. mysql数据库导出导入设置编码