python 爬取电影下载链接
#!/usr/bin/python
#coding=UTF-8
import sys
import urllib2
import os
import chardet
from bs4 import BeautifulSoup
reload(sys)
sys.setdefaultencoding("utf-8")#从电影html页面中获取视频下载地址
def get_movie_download_url(html):soup=BeautifulSoup(html,'html.parser')fixed_html=soup.prettify()td=soup.find('td',attrs={'style':'WORD-WRAP: break-word'})url_a=td.find('a')url_a=url_a.stringreturn url_a#从电影html页面中获取电影标题
def get_movie_title(html):soup=BeautifulSoup(html,'html.parser')fixed_html=soup.prettify()title=soup.find('h1')title=title.stringreturn title#访问url,返回html页面
def get_html(url):req=urllib2.Request(url)req.add_header('User-Agent','Mozilla/5.0')response=urllib2.urlopen(url)html=response.read()return html#从电影列表页,获取电影的url,拼接好,存到列表后返回
def get_movie_list(url):m_list = []html = get_html(url)soup=BeautifulSoup(html,'html.parser')fixed_html=soup.prettify()a_urls=soup.find_all('a',attrs={'class':'ulink'})host = "http://www.ygdy8.net"for a_url in a_urls:m_url=a_url.get('href')m_list.append(host+m_url)return m_list#存入txt文件
def file_edit(wr_str):f1 = open(r'e:\down_load_url.txt','a')f1.write(wr_str)f1.close()#传入电影url的列表集合,获取下载地址,并写入文件
def write_to_txt(a_urls):for a_url in a_urls:html=get_html(a_url)html=html.decode('GBK')write_title=get_movie_title(html)write_url=get_movie_download_url(html)file_edit(write_title+"\n")file_edit(write_url+"\n")file_edit("\n")#传入页数,返回这几页的url列表
def get_pages_url(num):urls_list = []url="http://www.ygdy8.net/html/gndy/dyzz/list_23_"for n in range(1,num+1):new_url = url+str(n)+".html"urls_list.append(new_url)return urls_listif __name__=='__main__':pages = 2 #打算爬取几页电影p_url = get_pages_url(pages)for i in p_url:write_to_txt(get_movie_list(i))#执行写入print "done"
python 爬取电影下载链接相关推荐
- python实战-HTML形式爬虫-批量爬取电影下载链接
文章目录 一.前言 二.思路 1.网站返回内容 2.url分页结构 3.子页面访问形式 4.多种下载链接判断 三.具体代码的实现 四.总结 一.前言 喜欢看片的小伙伴,肯定想打造属于自己的私人影院 ...
- 使用python爬取电影下载地址并使用transmissionrpc下载
说明 python练手,爬取电影天堂的新电影,获取到磁力链接,输出到日志文件,使用transmissionrpc下载, 涉及知识点: 1.python 操作mongodBD,参考文档 2.Beauti ...
- Python小工具-电影天堂爬取电影下载链接
import requests import bs4# 获取单独的url def movie_info(url):'''内容标签:<div id="Zoom">下载链接 ...
- python爬取电影天堂的下载链接
python爬取电影天堂dytt8的下载链接 电影天堂下载链接都是magnet的,搞下来想下就下没有广告 建一个main.py 一个一个挨着去爬肯定慢啊,建一个多线程的去爬 mui.py 多线程有可能 ...
- Python简单爬取电影磁力链接
Python简单爬取电影磁力链接 网页的链接:http://www.ygdy8.net/html/gndy/dyzz/list_23_2.html 打开你想要的电影:http://www.ygdy8. ...
- Python爬取De下载站相关代码
Python爬取De下载站相关代码,因为没有设置代理,所以爬到800页左右就被干掉了,后续要加上 import urllib.request import bs4 import re import t ...
- python代码示例下载-python爬取音频下载的示例代码
抓取"xmly"鬼故事音频 import json # 在这个url,音频链接为JSON动态生成,所以用到了json模块 import requests headers = { & ...
- Python 爬取电影天堂top最新电影
Python爬虫有他无可比拟的优势:语法简单,经常几十行代码就能轻松解决问题,相比于JAVA,C,PHP;第三方库丰富,Python强大而又丰富的第三方库使他几乎可以无所不能.今天我们就来用用Pyth ...
- python爬取电影天堂新片精品模块电影列表,并用迅雷下载
python版本是3.6.5,上代码: # 爬取电影天堂 from selenium import webdriver import requests from bs4 import Beautifu ...
最新文章
- placeholder
- “microsoft ace oledb 12.0 未注册”疑云
- Mapper 接口无法注入或Invalid bound statement (not found)
- tensorflow版本升级后的各种方法问题
- 网易数帆发布轻舟低代码平台2.0,聚焦中等复杂度企业级应用
- 主机ping不通Virtualbox里的虚拟机
- 20组免费的用户界面图标,开发者必备
- 找到MVC框架中前端URL与后端同步的解决方案
- 专业零售商行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
- NOIP模拟赛20161016R1
- (转)比特币有了定价模型?过去四年94%的价格波动可由此解释
- 教女朋友学会用ESP8266实现wifi杀手——有固件
- 高通Spectra 2xx中GTM LTM的tuning重点
- 30个Kafka常见错误小集合
- SQL Server 配置管理器中Browser灰色无法启动解决办法
- 【ROS入门学习05|自定义话题消息,并且编程实现publisher和subscriber】
- [蓝帽杯2020第四届 线上赛]Soitgoes
- html css 导航 左右滑动效果代码,HTML+CSS/CSS3实现滑动下拉导航栏
- 【车检预约系统定制专家(安赢车服) 原创】:为什么我们需要车检预约系统?
- MATLAB---数字图像基础1
热门文章
- 幽灵行动断点量子计算机30秒,游戏新消息:幽灵行动断点BETA公测时间公布中字版真人宣传片...
- net 基于asp.net的计算机网络课程题库考试系统
- 《Android 应用案例开发大全(第3版)》——第2章,第2.5节辅助绘制类
- 通信计算机发展前景,计算机通信技术发展及前景分析.doc
- 2022:股票程序化交易实战2022Q2
- python urllib2 下载文件_urllib2下载文件
- java swing界面跳转_java按钮实现页面跳转
- 消息称苹果iMac Pro将于2022年现身,而不是今年年底
- QQ名片赞数量查询工具 易语言源码
- 题目11:古典问题:有一对兔子,从出生后第 3 个月起每个月都生一对兔子,小兔子长到第三个月 后每个月又生一对兔子,假如兔子都不死,问每个月的兔子总数为多少?