Python2.7Mac OS

抓取的是电影天堂里面最新电影的页面。链接地址: http://www.dytt8.net/html/gndy/dyzz/index.html

获取页面的中电影详情页链接

import urllib2

import os

import re

import string

# 电影URL集合

movieUrls = []

# 获取电影列表

def queryMovieList():

url = 'http://www.dytt8.net/html/gndy/dyzz/index.html'

conent = urllib2.urlopen(url)

conent = conent.read()

conent = conent.decode('gb2312','ignore').encode('utf-8','ignore')

pattern = re.compile ('

.*?>

'+

'(.*?)

',re.S)

items = re.findall(pattern,conent)

str = ''.join(items)

pattern = re.compile ('(.*?).*?

(.*?)',re.S)

news = re.findall(pattern, str)

for j in news:

movieUrls.append('http://www.dytt8.net'+j[0])

抓取详情页中的电影数据

def queryMovieInfo(movieUrls):

for index, item in enumerate(movieUrls):

print('电影URL: ' + item)

conent = urllib2.urlopen(item)

conent = conent.read()

conent = conent.decode('gb2312','ignore').encode('utf-8','ignore')

movieName = re.findall(r'

(.*?)

', conent, re.S)

if (len(movieName) > 0):

movieName = movieName[0] + ""

# 截取名称

movieName = movieName[movieName.find("《") + 3:movieName.find("》")]

else:

movieName = ""

print("电影名称: " + movieName.strip())

movieContent = re.findall(r'

(.*?)',conent , re.S)

pattern = re.compile('

  • (.*?)', re.S)

movieDate = re.findall(pattern,movieContent[0])

if (len(movieDate) > 0):

movieDate = movieDate[0].strip() + ''

else:

movieDate = ""

print("电影发布时间: " + movieDate[-10:])

pattern = re.compile('

(.*?)

movieInfo = re.findall(pattern, movieContent[0])

if (len(movieInfo) > 0):

movieInfo = movieInfo[0]+''

# 删除
标签

movieInfo = movieInfo.replace("
","")

# 根据 ◎ 符号拆分

movieInfo = movieInfo.split('◎')

else:

movieInfo = ""

print("电影基础信息: ")

for item in movieInfo:

print(item)

# 电影海报

pattern = re.compile('', re.S)

movieImg = re.findall(pattern,movieContent[0])

if (len(movieImg) > 0):

movieImg = movieImg[0]

else:

movieImg = ""

print("电影海报: " + movieImg)

pattern = re.compile('

.*?', re.S)

movieDownUrl = re.findall(pattern,movieContent[0])

if (len(movieDownUrl) > 0):

movieDownUrl = movieDownUrl[0]

else:

movieDownUrl = ""

print("电影下载地址:" + movieDownUrl + "")

print("------------------------------------------------\n\n\n")

执行抓取

if __name__=='__main__':

print("开始抓取电影数据");

queryMovieList()

print(len(movieUrls))

queryMovieInfo(movieUrls)

print("结束抓取电影数据")

总结

学好正则表达式很重要,很重要,很重要!!!! Python的语法好有感觉, 对比Java …

python下载电影_Python抓取电影天堂电影信息的代码相关推荐

  1. python找房源_python抓取链家房源信息(二)

    试着用scrapy将之前写的抓取链家网信息的重新写了写 然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了 类似于这样的问题,并且抓取不到信息 2017-03-28 17:52: ...

  2. Python爬虫项目:抓取智联招聘信息

    来自https://mp.weixin.qq.com/s/0SzLGqv2p0-IWSN3r8bOHA ''' Python爬虫之五:抓取智联招聘基础版 该文件运行后会产生一个代码,保存在这个Pyth ...

  3. python+requests+re匹配抓取猫眼上映电影信息

    python+requests抓取猫眼中上映电影,re正则匹配获取对应电影的排名,图片地址,片名,主演及上映时间和评分 import requests import re, json def get_ ...

  4. 如何抓取BT天堂电影数据

    晚上休息,想弄两部好看的电影看看, 找了半天没找到想看的, 想到之前有个人爬知乎的用户数据,突发奇想, 没事把BT天堂的电影信息爬下来,下次阔以直接查数据库. 只能说闲的蛋疼,哈哈,还能码下代码  ^ ...

  5. python喜马拉雅收费_python抓取喜马拉雅免费专辑

    老规矩,先上代码 import requests import os import urllib # json文件地址 json_url = "https://www.ximalaya.co ...

  6. python内容目标_python抓取一个页面的目标网址,然后抓取目标网址里的内容

    这次测试的是招聘页面 https://www.liepin.com/zhaopin/?key=python 目标是先抓取到里面各个公司职位介绍的链接,然后在根据链接抓取到里面根据职位的介绍. 代码如下 ...

  7. python行业中性_Python抓取分析淘宝连衣裙数据,128元真的是低价人群分界线吗?...

    1.我是一个低价人群用户 上周发表文章<一个匿名用户的淘宝"连衣裙"大观>后,交流群里面很热闹地讨论了起来,小伙伴们都在秀自己的淘宝连衣裙搜索价格,相较于小伙伴们搜索出 ...

  8. python大众点评霸王餐_python抓取大众点评商户信息

    数据说明: 本次爬取大众点评共8个字段信息,包括: 商户名字, 口味评分, 环境评分,服务评分,人均价格,评论数量,地址,商户星级 然后把数据存入excel表格 一 .首页部分 我们可以看到有很多分类 ...

  9. python 京东 价格_python抓取京东商品价格

    本文介绍两种抓取价格的方法 1.读取接口获取价格 scrapy等等..简单 2.基于模拟浏览器读取页面抓取selenium 简单 京东商品价格目前是基于api接口获取然后通过js进行数值初始化 一.基 ...

最新文章

  1. php删除目录下的所有文件和目录
  2. python logging命令注入_整理后的手动注入脚本命令
  3. mfc怎么计算字符串宽度_Python基础之好玩的字符串格式化f-string格式
  4. python 比较列表相邻元素(找相同或去重)
  5. oracle的imp和exp
  6. python精要(81)-collections容器类型(1)-统计相同的值
  7. spring boot+shiro中使用@RequiresRoles不生效,访问报错404
  8. NodeJS通过ffi调用DLL
  9. C#弹窗提示并自动关闭方法
  10. JavaScript DOM编程艺术(第2版) 笔记
  11. Spring源码分析-如何获取Bean对象
  12. 明年起网剧可参评白玉兰奖 你期待哪部网剧上榜?
  13. Typora+PicGo+Gitee 图床配置
  14. 开课吧Java课堂:Transient和volatile修饰符如何运用
  15. php 12小时,使用php怎么将12小时制转换为24小时制
  16. python爬虫网页图片并保存到本地
  17. 从复杂指令系统到精简指令系统
  18. Node mongoose 结尾总结
  19. Lightroom Classic 教程,如何在 Lightroom 中更高效的获取快速提示?
  20. phython基础之数据类型和变量

热门文章

  1. 真正可用的获取任意进程的内存使用率 和任务管理器一模一样
  2. 复正弦信号、实数信号的DFT
  3. 哈工大人工智能暑期课实践项目——手写体识别四则运算(项目计划)
  4. 报表在linux下部署后中文变成小方块
  5. 腾讯视频采集规则+发布模块(基于火车头全站采集与发布站点教程)
  6. php序顶部导航,页面上下滚动改变顶部导航的定位方式
  7. ios html 编码转换,IOS中编码转换方法(转)
  8. 如何降低APP运营成本?
  9. 中年转行,拥抱互联网(上)
  10. java文件后缀_关于java文件扩展名认识