#!/usr/bin/python
#coding=UTF-8
import sys
import urllib2
import os
import chardet
from bs4 import BeautifulSoup
reload(sys)
sys.setdefaultencoding("utf-8")#从电影html页面中获取视频下载地址
def get_movie_download_url(html):soup=BeautifulSoup(html,'html.parser')fixed_html=soup.prettify()td=soup.find('td',attrs={'style':'WORD-WRAP: break-word'})url_a=td.find('a')url_a=url_a.stringreturn url_a#从电影html页面中获取电影标题
def get_movie_title(html):soup=BeautifulSoup(html,'html.parser')fixed_html=soup.prettify()title=soup.find('h1')title=title.stringreturn title#访问url,返回html页面
def get_html(url):req=urllib2.Request(url)req.add_header('User-Agent','Mozilla/5.0')response=urllib2.urlopen(url)html=response.read()return html#从电影列表页,获取电影的url,拼接好,存到列表后返回
def get_movie_list(url):m_list = []html = get_html(url)soup=BeautifulSoup(html,'html.parser')fixed_html=soup.prettify()a_urls=soup.find_all('a',attrs={'class':'ulink'})host = "http://www.ygdy8.net"for a_url in a_urls:m_url=a_url.get('href')m_list.append(host+m_url)return m_list#存入txt文件
def file_edit(wr_str):f1 = open(r'e:\down_load_url.txt','a')f1.write(wr_str)f1.close()#传入电影url的列表集合,获取下载地址,并写入文件
def write_to_txt(a_urls):for a_url in a_urls:html=get_html(a_url)html=html.decode('GBK')write_title=get_movie_title(html)write_url=get_movie_download_url(html)file_edit(write_title+"\n")file_edit(write_url+"\n")file_edit("\n")#传入页数,返回这几页的url列表
def get_pages_url(num):urls_list = []url="http://www.ygdy8.net/html/gndy/dyzz/list_23_"for n in range(1,num+1):new_url = url+str(n)+".html"urls_list.append(new_url)return urls_listif __name__=='__main__':pages = 2 #打算爬取几页电影p_url = get_pages_url(pages)for i in p_url:write_to_txt(get_movie_list(i))#执行写入print "done"

python 爬取电影下载链接相关推荐

  1. python实战-HTML形式爬虫-批量爬取电影下载链接

    文章目录 一.前言 二.思路 1.网站返回内容 2.url分页结构 3.子页面访问形式 4.多种下载链接判断 三.具体代码的实现 四.总结 一.前言   喜欢看片的小伙伴,肯定想打造属于自己的私人影院 ...

  2. 使用python爬取电影下载地址并使用transmissionrpc下载

    说明 python练手,爬取电影天堂的新电影,获取到磁力链接,输出到日志文件,使用transmissionrpc下载, 涉及知识点: 1.python 操作mongodBD,参考文档 2.Beauti ...

  3. Python小工具-电影天堂爬取电影下载链接

    import requests import bs4# 获取单独的url def movie_info(url):'''内容标签:<div id="Zoom">下载链接 ...

  4. python爬取电影天堂的下载链接

    python爬取电影天堂dytt8的下载链接 电影天堂下载链接都是magnet的,搞下来想下就下没有广告 建一个main.py 一个一个挨着去爬肯定慢啊,建一个多线程的去爬 mui.py 多线程有可能 ...

  5. Python简单爬取电影磁力链接

    Python简单爬取电影磁力链接 网页的链接:http://www.ygdy8.net/html/gndy/dyzz/list_23_2.html 打开你想要的电影:http://www.ygdy8. ...

  6. Python爬取De下载站相关代码

    Python爬取De下载站相关代码,因为没有设置代理,所以爬到800页左右就被干掉了,后续要加上 import urllib.request import bs4 import re import t ...

  7. python代码示例下载-python爬取音频下载的示例代码

    抓取"xmly"鬼故事音频 import json # 在这个url,音频链接为JSON动态生成,所以用到了json模块 import requests headers = { & ...

  8. Python 爬取电影天堂top最新电影

    Python爬虫有他无可比拟的优势:语法简单,经常几十行代码就能轻松解决问题,相比于JAVA,C,PHP;第三方库丰富,Python强大而又丰富的第三方库使他几乎可以无所不能.今天我们就来用用Pyth ...

  9. python爬取电影天堂新片精品模块电影列表,并用迅雷下载

    python版本是3.6.5,上代码: # 爬取电影天堂 from selenium import webdriver import requests from bs4 import Beautifu ...

最新文章

  1. placeholder
  2. “microsoft ace oledb 12.0 未注册”疑云
  3. Mapper 接口无法注入或Invalid bound statement (not found)
  4. tensorflow版本升级后的各种方法问题
  5. 网易数帆发布轻舟低代码平台2.0,聚焦中等复杂度企业级应用
  6. 主机ping不通Virtualbox里的虚拟机
  7. 20组免费的用户界面图标,开发者必备
  8. 找到MVC框架中前端URL与后端同步的解决方案
  9. 专业零售商行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
  10. NOIP模拟赛20161016R1
  11. (转)比特币有了定价模型?过去四年94%的价格波动可由此解释
  12. 教女朋友学会用ESP8266实现wifi杀手——有固件
  13. 高通Spectra 2xx中GTM LTM的tuning重点
  14. 30个Kafka常见错误小集合
  15. SQL Server 配置管理器中Browser灰色无法启动解决办法
  16. 【ROS入门学习05|自定义话题消息,并且编程实现publisher和subscriber】
  17. [蓝帽杯2020第四届 线上赛]Soitgoes
  18. html css 导航 左右滑动效果代码,HTML+CSS/CSS3实现滑动下拉导航栏
  19. 【车检预约系统定制专家(安赢车服) 原创】:为什么我们需要车检预约系统?
  20. MATLAB---数字图像基础1

热门文章

  1. 幽灵行动断点量子计算机30秒,游戏新消息:幽灵行动断点BETA公测时间公布中字版真人宣传片...
  2. net 基于asp.net的计算机网络课程题库考试系统
  3. 《Android 应用案例开发大全(第3版)》——第2章,第2.5节辅助绘制类
  4. 通信计算机发展前景,计算机通信技术发展及前景分析.doc
  5. 2022:股票程序化交易实战2022Q2
  6. python urllib2 下载文件_urllib2下载文件
  7. java swing界面跳转_java按钮实现页面跳转
  8. 消息称苹果iMac Pro将于2022年现身,而不是今年年底
  9. QQ名片赞数量查询工具 易语言源码
  10. 题目11:古典问题:有一对兔子,从出生后第 3 个月起每个月都生一对兔子,小兔子长到第三个月 后每个月又生一对兔子,假如兔子都不死,问每个月的兔子总数为多少?