import requests
from lxml import etreeheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}base_url = 'https://www.dy2018.com'
detail_urls = []#  获取每部影片详情页面的url
def get_detail_urls(num):for i in range(1, num+1):if i == 1:url = base_url + '/html/gndy/dyzz/index.html'else:url = base_url + '/html/gndy/dyzz/index_%d.html' % iresponse = requests.get(url, headers=headers)result = response.content.decode('gbk')html = etree.HTML(result)urls = html.xpath("//table[@class='tbspan']//a/@href")for value in urls:detail_url = base_url + valuedetail_urls.append(detail_url)# 提取需要的数据
def parse_detail_page(url,movies):response = requests.get(url,headers=headers)result = response.content.decode('gbk')html = etree.HTML(result)details = html.xpath("//div[@id='Zoom']")movie = {}for detail in details:infos = detail.xpath(".//text()")for index,info in enumerate(infos):if info.startswith("◎片  名"):title = info.replace("◎片  名","").strip()movie['movie_name'] = titleelif info.startswith("◎年  代"):year = info.replace("◎年  代","").strip()movie['movie_year'] = yearelif info.startswith("◎产  地"):address = info.replace("◎产  地","").strip()movie['movie_address'] = addresselif info.startswith("◎类  别"):category = info.replace("◎类  别","").strip()movie['movie_category'] = categoryelif info.startswith("◎语  言"):language = info.replace("◎语  言", "").strip()movie['movie_language'] = languageelif info.startswith("◎豆瓣评分"):score = info.replace("◎豆瓣评分", "").strip()movie['douban_score'] = scoreelif info.startswith("◎导  演"):director = info.replace("◎导  演", "").strip()movie['movie_director'] = directorelif info.startswith("◎主  演"):actor = info.replace("◎主  演", "").strip()actors = []actors.append(actor)for x in range(index+1,len(infos)):       # 获取所有主演if infos[x].startswith("◎简  介"):breakactor = infos[x].strip()actors.append(actor)movie['movie_actors'] = actorselif info.startswith("◎简  介"):for x in range(index+1,index+3):intro = infos[x]movie['movie_intro'] = introdownload_url = html.xpath(".//td[@bgcolor='#fdfddf']//a/text()")for index,url in enumerate(download_url):if url.find("电影天堂"):del download_url[index]movie['download_url'] = download_urlmovies.append(movie)if __name__ == '__main__':movies = []num = int(input("请输入需要的爬取的页数:"))get_detail_urls(num)for url in detail_urls:parse_detail_page(url,movies)for movie in movies:for key,value in movie.items():print(key + ":",end="")print(value)print()print()

爬取电影天堂电影详情和磁力链接相关推荐

  1. 爬取电影天堂电影列表和详情页

    爬取电影天堂电影列表和详情页 import requests from lxml import etreebase_list_url = 'https://www.dytt8.net'headers ...

  2. 使用requests库和lxml解析爬取电影天堂电影信息

    使用requests库获取电影天堂电影信息,将所有链接保存下来后可以使用迅雷批量下载.快速获得最新最全电影资源! 站点分析 以电影天堂国内电影为例 http://www.ygdy8.net/html/ ...

  3. python3爬虫:爬取电影天堂电影信息

    python3爬虫:爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 from lxml import etree import requestsBASE_ ...

  4. python爬电影天堂_python爬虫爬取电影天堂电影

    python爬虫爬取电影天堂电影?本项目实现一个简单的爬虫,通过requests和BeautifulSoup爬取电影天堂电影信息,包括片名.年代.产地.类别.语言.海报链接和视频链接等内容.pytho ...

  5. requests+xpath爬取电影天堂电影信息

    电影天地网址:http://www.ygdy8.net/html/gndy/china/list_4_1.html 目标: 1.爬取电影天堂的国内电影一栏的所有电影的url 2.进入每个电影的url获 ...

  6. python爬取电影天堂电影信息

    from lxml import etree import requests # url='https://www.dytt8.net/html/gndy/dyzz/index.html' heade ...

  7. 如何利用 C# 爬取「猫眼电影:国内票房榜」及对应影片信息!

    以前我写过一些爬取猫眼电影数据的图文: 如何利用 C# 爬取「猫眼电影专业版:票房」数据? 如何利用 C# 爬取「猫眼电影:热映口碑榜」及对应影片信息? 如何利用 C# 爬取「猫眼电影:最受期待榜」及 ...

  8. python爬取豆瓣排行榜电影(静态爬取)(二次爬取)

    目录 python爬取豆瓣排行榜电影(静态爬取) 获取网站url 获取网站headers get请求访问url BeautifulSoup解析网站 爬取html数据 完整代码 python爬取豆瓣排行 ...

  9. 爬取豆瓣TOP250电影的评分、评价人数、短评等信息,并在其保存在sql数据库中。

    爬取目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在sql数据库中. 最终实现效果如图: 确定爬取的URL 爬取的网页地址为:https://movie.douban.com/ ...

  10. 剧荒不慌 | 手把手教你爬取+DIY豆瓣电影新榜单

    作者 | 吹牛Z 来源 | 数据不吹牛(ID:shujubuchuiniu) 本文以豆瓣电影(非TOP250)为例,从数据爬取.清洗与分析三个维度入手,详解和还原数据爬取到分析的全链路.阅读全文大概需 ...

最新文章

  1. 深度学习--TensorFlow(6)神经网络 -- 拟合线性函数非线性函数
  2. 常用排序算法之——堆排序
  3. 具名元祖--namedtuple
  4. 寻找重复的子树 Find Duplicate Subtrees
  5. Git学习笔记—Git Flow
  6. 全局中断_实时性迷思(3)——80%时间屏蔽了中断,实时性还有救么?
  7. 为什么要娶就娶电力女?!
  8. 《统一沟通-微软-实战》-6-部署-5-边缘服务器-2012-07-12-1
  9. 1208: [HNOI2004]宠物收养所
  10. 16.UNIX 环境高级编程--网络IPC:套接字
  11. H5页面原生gps 定位获取经纬度
  12. 电脑硬盘损坏如何修复?自己动手就能解决
  13. 安卓程序员需要什么证书
  14. babel-polyfill解决vue框架项目IE无法打开问题
  15. 大数据就业前景如何?马云曾经说过大数据是未来顶峰时代应验了
  16. 微型计算机2019年度金奖产品,【MC 2019年度评选获奖产品展播】华硕/ROG DIY精品斩获多个大奖...
  17. 常用的画流程图工具和脑图工具
  18. 推迟上市的网易云,逃不开在线音乐市场的“白刃战”
  19. 2020 中国软件 100 强,腾讯第二、阿里第三,第一是谁呢?你们公司上榜了吗?...
  20. 鸿蒙时代实力排名,鸿蒙时期神魔不敢进入四大禁区,九天银河上榜,第一堪称黑暗禁地...

热门文章

  1. python条形码生成_python3转换code128条形码
  2. 射雕里的丘处机,与五绝的差距究竟有多大?
  3. [JAVA-2] JAVA运行机制和IDE下载
  4. 我的世界java版如何装mod_Java版 Mod(模组)API下载 | Mod安装教程 [1.13.2-1.2.5]
  5. 红外感应电子测温枪方案开发
  6. 12.12 极值问题
  7. CAS-KG——实体识别
  8. 西门子消防主机FC18/720海上风电厂项目的联网方式
  9. lstrip在python中是什么意思_“男怕属鸡,女怕属羊”,是什么意思?有什么讲究吗?...
  10. vue项目设置全局字体样式font-family