爬取猫眼电影TOP100(http://maoyan.com/board/4?offset=90)

1). 爬取内容: 电影名称,主演, 上映时间,图片url地址保存到mariadb数据库中;

2). 所有的图片保存到本地/mnt/maoyan/电影名.png

代码:

import re

import pymysql as mysql

from urllib import request

from urllib.request import urlopen

u = 'root'

p = 'root'

d = 'python'

sql = 'insert into maoyan_top100 values(%s,%s,%s,%s,%s)'

url = 'http://maoyan.com/board/4?offset='

pattern = r'

[\s\S]*?board-index.*?>(\d+)[\s\S]*?[\s]*(.*?)[\s]*?[\s\S]*?releasetime">[\s]*(.*?)[\s]*?'

myAgent = "Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0"

conn = mysql.connect(user=u, passwd=p, db=d, charset='utf8', autocommit=True)

cur = conn.cursor()

def write_to_mysql(item):

cur.executemany(sql,item)

def save_picture(rank,img_url,film_name):

img_content = urlopen(img_url).read()

img_name = 'maoyan_images/'+rank+'_'+film_name+'.jpg'

with open(img_name,'wb') as f:

f.write(img_content)

def main():

for i in range(10):

page_url = url+str(i*10)

myrequest = request.Request(page_url, headers={'User-Agent': myAgent})

page_content = urlopen(myrequest).read().decode('utf-8')

items = re.findall(pattern,page_content)

# [('1', 'http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c', '霸王别姬', '主演:张国荣,张丰毅,巩俐', '上映时间:1993-01-01')...]

write_to_mysql(items)

for item in items:

save_picture(item[0],item[1],item[2])

if __name__ == '__main__':

main()

爬取结果:

1)保存海报图片

2)数据库数据

python爬虫猫眼电影票房_python爬取猫眼电影top100排行榜相关推荐

  1. python爬虫入门练习:BeautifulSoup爬取猫眼电影TOP100排行榜,pandas保存本地excel文件

    传送门:[python爬虫入门练习]正则表达式爬取猫眼电影TOP100排行榜,openpyxl保存本地excel文件 对于上文使用的正则表达式匹配网页内容,的确是有些许麻烦,替换出现任何的差错都会导致 ...

  2. 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  3. Python爬虫实战案例一:爬取猫眼电影

    背景 笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信息,所以爬取猫眼电影数据进行补充.关于爬虫的 ...

  4. python怎么爬取电影海报_Python 爬取猫眼数据分析《无名之辈》为何能逆袭成黑马?...

    原标题:Python 爬取猫眼数据分析<无名之辈>为何能逆袭成黑马? 作者 | 罗昭成 责编 | 唐小引 出品 | CSDN(ID:CSDNNews) 最近几天,有部国产电影因好评及口碑传 ...

  5. python爬取豆瓣电影评论_python 爬取豆瓣电影评论,并进行词云展示及出现的问题解决办法...

    def getHtml(url): """获取url页面""" headers = {'User-Agent':'Mozilla/5.0 ( ...

  6. python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)

    ''' 爬取豆瓣电影排行榜 设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: 模块 ...

  7. python 柱状图上显示字体_Python爬取百部电影数据,我发现了这个惊人真相!

    2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...

  8. python爬虫有道词典_Python爬取有道词典,有道的反爬很难吗?也就这样啊!

    前言 大家好 ​ 最近python爬虫有点火啊,啥python爬取马保国视频--我也来凑个热闹,今天我们来试着做个翻译软件--不是不是,说错了,今天我们来试着提交翻译内容并爬取翻译结果 主要内容 PS ...

  9. python爬虫知乎图片_python 爬取知乎图片

    先上完整代码 1 importrequests2 importtime3 importdatetime4 importos5 importjson6 importuuid7 from pyquery ...

最新文章

  1. Vml+Dhtml:制作一个应用渐变颜色效果不错的进度条
  2. 有关进行单元测试的时候,不去调本地代码去掉dubbo上的服务
  3. HALCON检测字符日期
  4. javascript 获取应用程序根路径
  5. js数组操作各种方法
  6. CODE[VS] 3411 洪水
  7. 5 SD配置-企业结构-定义-定义销售组
  8. python-演练-数据排除-从学生得分中去除题目源中并不存在的题
  9. mysql 在查询语句返回的列中包含一列表示该条记录在整个结果集中的行号
  10. linux导出日志命令_Linux中的导出命令
  11. 灯珠电路图_LED灯盘的实际电路到底长啥样,LDE灯珠又怎样检测?
  12. 海南移动IPTV——使用的小Tips
  13. 计算机怎么查文件打印记录表,打印机打印文件历史记录如何查看
  14. 高中计算机会考教案,高中信息技术会考模拟试题讲课教案.pdf
  15. html文字居中单词,html文字居中
  16. C++/openCV修改视频分辨率
  17. input file选择图片后预览 单图和多图
  18. 转型之路之Excel单元格按数值显示带背景颜色进度条
  19. 《计算机网络实验教程》——验证性实验
  20. docker redis安装使用

热门文章

  1. iOS13 sign in with Apple客户端接入遇到的一些问题
  2. 使用命令行强制注销远程登录用户
  3. 屠龙勇士最后都变成了恶龙吗?是!不然你以为恶龙是哪来的?
  4. Mysql数据库 | SQL语句解析『下篇』
  5. iOS相册、拍照、iCloud使用
  6. HDU2072单词数
  7. k8s多节点仪表盘(web界面 ) dashboard 部署 与 谷歌浏览器访问仪表盘问题
  8. both and和both of 得用法 和区别
  9. 个人Ubuntu安装配置
  10. selectpicker 清空选项_boostrap selectpicker 用法