该小脚本实现对电影天堂网站的最新电影查找。from bs4 import BeautifulSoup

import urllib

import re

url= 'http://www.ygdy8.net/html/gndy/dyzz/index.html'

moive_url_list = []

moive_name_list = []

request = urllib.urlopen(url)

response = request.read()

response = unicode(response,'GBK').encode('utf-8')

soup = BeautifulSoup(response,'html.parser')

a = soup.find_all('a',class_="ulink")

for i in a:

moive_open_url = 'http://www.ygdy8.net' + i['href']

req = urllib.urlopen(moive_open_url)

res = req.read()

try:

res = unicode(res,'GBK').encode('utf-8')

except UnicodeDecodeError:

continue

so = BeautifulSoup(res,'html.parser')

a_tag = so.find_all('a')

for j in a_tag:

pattern = re.compile("^ftp://ygdy\d{1}:ygdy\d{1}@y\d{3}.dydytt.net")

string= j['href']

match = pattern.match(string)

if match:

moive_url_list.append(string)

for m in moive_url_list:

print m

爬虫python下载电影_python爬虫抓取电影天堂最新电影相关推荐

  1. 爬虫python名词解释_python爬虫

    Python爬虫是用Python编程语言实现的网络爬虫,主要用于网络数据的抓取和处理,相比于其他语言,Python是一门非常适合开发网络爬虫的编程语言,大量内置包,可以轻松实现网络爬虫功能. Pyth ...

  2. python爬虫快速下载图片_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...

    Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...

  3. 爬虫python下载视频_Python视频爬虫实现下载头条视频功能示例

    本文实例讲述了Python视频爬虫实现下载头条视频功能.分享给大家供大家参考,具体如下: 一.需求分析 抓取头条短视频 思路: 分析网页源码,查找解析出视频资源url(查看源代码,搜mp4) 对该ur ...

  4. python 百度词典_python在线抓取百度词典的翻译结果翻译单词

    这段代码通过抓取百度词典的翻译结果达到翻译单词的目的 这个小工具使用Python语言编写完成,其中使用到这 些类库(urllib,BeautifulSoup ),前者主要负责网络通讯方面,后者负责HT ...

  5. python判断成语_python正则表达式抓取成语网站

    #anthor jiqunpeng #time 20121124 import urllib import re def gethtml(url): #从url中读取html内容 page = url ...

  6. 梦幻西游python验证成语_python正则表达式抓取成语网站

    #anthor jiqunpeng #time 20121124 import urllib import re def getHtml(url): #从URL中读取html内容 page = url ...

  7. python爬虫视频 下载 黑马_Python爬虫能爬视频么(python爬虫零基础视频教程)

    Python爬虫能爬视频么 他视频没有的,但是跑了之后你要处理这个视频,就是问题的?你只需要,得到视频的播放地址,还是要把视频完整的下载到本地的.如果只是爬那个视频的下载地址,很简单,如果要下载的话, ...

  8. python 爬虫 音乐下载 歌手_python爬虫批量下载全民K歌音乐

    标签:爬虫 网址示例: https://node.kg.qq.com/personal?uid=639e9983222a338a 直接上源码: import requests import time ...

  9. 爬虫python下载网站所有图片_爬取某图片网站多页图片的python爬虫

    1.[代码][Python]代码 # coding=utf-8 import requests import re from lxml import etree import time import ...

  10. python登录斗鱼_Python实现抓取斗鱼实时弹幕

    [Python] 纯文本查看 复制代码''' 文件名:爬取斗鱼直播间信息到jsonline文件.py ''' from __future__ import unicode_literals impor ...

最新文章

  1. 学习《Linux设备模型浅析之设备篇》笔记(二)
  2. squid+iptalbes实现透明代理配置记录
  3. python opencv 实现任意角度的透视变换
  4. crontab FAQ
  5. 获取不到app.config里面的数据库连接字符串的解决方法
  6. SIGIR 2019 开源论文 | 基于图神经网络的协同过滤算法
  7. 九度互动社区IT名企招聘上机考试热身赛
  8. 自然语言交流系统 phxnet团队 创新实训 项目博客 (五)
  9. android listview asynctask,关于android:ListView + ArrayList + AsyncTask
  10. graphpad做折线图_graphpad prism怎么做折线图啊?求解答!
  11. php反序列化java_php反序列化
  12. 汉生机器人_2019高工机器人核心零部件会议
  13. SpringBoot下载项目中文件
  14. 中国航空零部件制造行业业十四五投资发展规划及发展前景预测报告2022-2028年版
  15. 【MATLAB】求解含有三角函数的方程
  16. EOS多节点环境部署
  17. window突然没声音.无法启动window audio.无法播放测试音调
  18. Win10修改登陆密码
  19. 番茄闹钟一(React-Antd-Typescript 框架搭建)
  20. android 的导入crosswalk 用xwalkview 替换webview

热门文章

  1. AC-DMIS 5.3 叶片基础知识
  2. 【计算机图形学】中点画圆算法和Bresenham画圆算法
  3. Django模型类操作数据表
  4. C++Primer第五版——习题答案详解
  5. 中兴C300主控升级到V2.1.0后,telnet无法连接问题
  6. 中兴oltc320用户手册_中兴C320C300V2版本OLT开局配置手册.doc-资源下载在线文库www.lddoc.cn...
  7. 韶关学院计算机科学学院简介
  8. 在外网通过ssh连接访问内网教程
  9. 1. Perface
  10. 【测试基础】你写过测试计划和测试报告吗?