Python3爬取影片入库
Python3爬取影片入库
1、服务器说明
[root@openshift maoyan]# cat /etc/redhat-release
CentOS Linux release 7.4.1708 (Core)
[root@openshift maoyan]# python -V
Python 3.6.3 :: Anaconda, Inc.
2、爬取电影入库
首页页面分地址分析
子页面数据获取,四个字段的数据写入,
3、mysql数据库连接
import pymysql
pymysql.install_as_MySQLdb()
class Sql(object):
conn = pymysql.connect(
host="127.0.0.1",
port=3306,
user='root',
passwd='123456',
db="movies",
charset="utf8"
)
4、源代码编写
[root@openshift maoyan]# cat maoyan2.py
# coding:utf-8
import requests,os,sys,django
from bs4 import BeautifulSoup
import re,urllib
import pymysql
pymysql.install_as_MySQLdb()
import datetime
headers = {
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate, sdch',
'Accept-Language':'zh-CN,zh;q=0.8',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'Host':'maoyan.com',
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
class Sql(object):
conn = pymysql.connect(
host="127.0.0.1",
port=3306,
user='root',
passwd='123456',
db="movies",
charset="utf8"
)
url = 'http://maoyan.com/films?showType=3'
#url = 'https://maoyan.com/films?showType=3&offset=30'
wbdata = requests.get(url,headers=headers)
soup = BeautifulSoup(wbdata.content,'html5lib')
movie_list = soup.select('div.movie-item > a')
for movie in movie_list:
m_url = 'http://maoyan.com' + movie.get('href')
m_data = requests.get(m_url,headers=headers)
m_soup = BeautifulSoup(m_data.content,'html5lib')
name = m_soup.select_one('div.movie-brief-container > h3.name').get_text()
movie_cate = m_soup.select("div.movie-brief-container > ul > li")[0].get_text()
release_date = m_soup.select("div.movie-brief-container > ul > li")[2].get_text()[0:10]
movie_img = m_soup.select_one('div.avatar-shadow > img').get('src')
created = datetime.datetime.now()
viewd = 1
cur = conn.cursor()
cur.execute("insert into userscore_movie(name,movie_cate,viewed,created,release_date,movie_img) VALUES('%s','%s','%d','%s','%s','%s')" %(name,movie_cate,viewd,created,release_date,movie_img))
print('正在爬取电影: '+name)
cur.close()
conn.commit()
Sql()
5、执行脚本,爬取数据过程
6、数据库查看
自此,完成了Python3爬取影片入库过程。
转载于:https://www.cnblogs.com/sunnyyangwang/p/10394458.html
Python3爬取影片入库相关推荐
- Python3爬取企查查网站的企业年表并存入MySQL
Python3爬取企查查网站的企业年表并存入MySQL 本篇博客的主要内容:爬取企查查网站的企业年报数据,存到mysql中,为了方便记录,分成两个模块来写: 第一个模块是爬取数据+解析数据,并将数据存 ...
- Python2 Python3 爬取赶集网租房信息,带源码分析
*之前偶然看了某个腾讯公开课的视频,写的爬取赶集网的租房信息,这几天突然想起来,于是自己分析了一下赶集网的信息,然后自己写了一遍,写完又用用Python3重写了一遍.之中也遇见了少许的坑.记一下.算是 ...
- python3爬取百度图片
python3爬取百度图片 最终目的:能通过输入关键字进行搜索,爬取相应的图片存储到本地或者数据库 首先打开百度图片的网站,搜索任意一个关键字,比如说:水果,得到如下的界面 分析: 1.百度图片搜索结 ...
- Python3爬取国家统计局官网2019年全国所有城市(2020年更新)
Python3爬取国家统计局官网2019年全国所有城市(2020年更新) 一级城市爬取 一级城市爬取 由于最近需要用到所有城市的数据,故从统计局爬取19年的一级城市数据 import random i ...
- python3爬取巨潮资讯网站年报数据
python3爬取巨潮资讯网站年报数据 2018年年底巨潮资讯http://www.cninfo.com.cn改版了,之前实习生从网上找的脚本不能用了,因此重新修改了下爬取脚本.最初脚本的原链接忘了, ...
- 使用python3 爬取豆瓣电影热映和即将上映
使用python3爬取都摆即将上映和正在热映的电影,代码如下 直接使用bs4获取页面,使用css 获取到对应的信息后,使用字符串拼接的方式,将正在热映和即将上映的信息拼接出来并写入到html页面中,在 ...
- Python3 爬取豆瓣电影信息
原文链接: Python3 爬取豆瓣电影信息 上一篇: python3 爬取电影信息 下一篇: neo4j 查询 豆瓣api https://developers.douban.com/wiki/?t ...
- python3爬取数据_python3爬取巨潮资讯网站年报数据
python3爬取巨潮资讯网站年报数据 2018年年底巨潮资讯http://www.cninfo.com.cn改版了,之前实习生从网上找的脚本不能用了,因此重新修改了下爬取脚本.最初脚本的原链接忘了, ...
- python3爬取巨潮资讯网的年报数据
python3爬取巨潮资讯网的年报数据 前期准备: 需要用到的库: 完整代码: 前期准备: 巨潮资讯网有反爬虫机制,所以先打开巨潮资讯网的年报板块,看看有什么解决办法. 巨潮咨询年报板块 可以通过这样 ...
最新文章
- 影像锐化工具_如何以及为什么要进行工具改造:花在锐化斧头上的时间永远不会浪费...
- dock run mysql v3_docker run mysql成功,但是3306端口不通?
- 为最快动脉线诊断 铁科院联合第四范式完成高铁智能化巡检应用
- ⅰcp经济模型_干货!来自清华小哥哥的全家桶教程——手把手教你在本地构建 Nervos AppChain...
- 【飞秋】微软简化Visual Studio 非程序员也能开发软件
- 通过里程碑式管理,控制软件项目管理进度
- 安川机器人梯形图指令(一)
- 二进制、十六进制转换表
- 国内FRM证书福利政策大全
- 华为nova6开启开发者模式,连接USB
- ISTQB TM考点总结
- 全球电动汽车充电标准最详解析
- 语言有很多类型,你知道吗?【静态/动态编译语言、弱/强类型语言】
- 理论基础篇 -- 【计算机网络通关29讲笔记】
- UOJ#414. 【APIO2018】新家
- H3C配置远程登录(console、telnet、ssh)
- 项目二:使用交换机构建简单局域网——使用交换机构建局域网
- ThinkPadT550加装ssd
- Oracle 从入门到精通系列 - 前言
- solidworks flexnet server服务无法启动解决方案:
热门文章
- JS 基础知识点及常考面试题(二)
- 一起来玩树莓派--解决官方docker源安装失败的问题
- foxpro mysql_将Visual Foxpro连接到MySql数据库
- spring IOC 装配一个bean
- [Contest]2017 ACM/ICPC Asia Regional Shenyang Online(01 03 07 09 10 11待补)
- 11-散列1 电话聊天狂人
- 使用FlashFXP V3.8烈火汉化绿色版软件连接Linux
- MFCButton Memory leak(内存泄露问题)
- 利用strut2标签自动生成form前端验证代码
- mysql数据库导出导入设置编码