import re
from  urllib.request import urlopen
def getPage(url):response=urlopen(url)return response.read().decode('gbk',errors='ignore')
def parsePage(s):com=re.compile(r'<td height="26">.*?<b>.*?<a href="(?P<url_name>.*?)" class="ulink">.*?',re.S)ret=com.finditer(s)for i  in  ret :return "http://www.dytt8.net"+i.group("url_name")
def parsePage1(s):com=re.compile(r'<div id="Zoom">.*?译.*?名(?P<name>.*?)<br />◎片.*?名(?P<pianname>.*?)<br />.*?◎导.*?演(?P<daoyan>.*?)<br />'+
'◎主.*?演(?P<zhuyan>.*?)<br /><br />◎简.*?介.*?<td.*?><a href="(?P<xiazaidizhi>.*?)">',re.S)ret1=com.finditer(s)# print('****************************************************************')for i  in  ret1 :yield {"yiming":(re.sub("[\u3000]", "",i.group('name'))),"pianming":re.sub("[\u3000]", "",i.group("pianname")),"daoyan":re.sub("[\u3000]", "",i.group("daoyan")),"zhuyan":re.sub("[\u3000]", "",i.group("zhuyan")),"xiazaidizhi":re.sub("[\u3000]", "",i.group("xiazaidizhi"))}
def main(num):url="http://www.dytt8.net/html/gndy/dyzz/list_23_%s.html" % numresponse_html=getPage(url)xiangqing=parsePage(response_html)response1_html = getPage(xiangqing)ret=parsePage1(response1_html)f = open("move_list", "a", encoding="utf8")for obj in ret:print(obj)data = str(obj)f.write(data + "\n")
for i in range(1,181):main(i)

爬虫初识(爬取dytt电影列表及下载地址)相关推荐

  1. Java爬虫采集电影,java的webmagic爬虫实现爬出某电影网的下载地址

    事先说明不要用这技术,做一些违法的事情,网上玩爬虫的已经有还能多被抓了,此文就是为了学习webmagic 源码地址:https://github.com/smltq/spring-boot-demo/ ...

  2. python下载百度云盘中的数据_python爬虫:爬取百度云盘资料,保存下载地址、链接标题、链接详情...

    在网上看到的教程,但是我嫌弃那个教程写的乱(虽然最后显示我也没高明多少,哈哈),就随手写了一个 主要是嫌弃盘搜那些恶心的广告,这样直接下载下来,眼睛清爽多了. 用pyinstall 打包成EXE文件, ...

  3. python爬取豆瓣电影top250_Python爬虫 - scrapy - 爬取豆瓣电影TOP250

    0.前言 新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例.所以找了很多实 ...

  4. python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250

    用Python爬虫实现爬取豆瓣电影Top250 #爬取 豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...

  5. 爬虫,爬取猫眼电影Top100的电影名与评分

    ** 爬虫,爬取猫眼电影Top100的电影名与评分 ** import requests import threading import reclass maoyan_top500(threading ...

  6. python战反爬虫:爬取猫眼电影数据 (一)(Requests, BeautifulSoup, MySQLdb,re等库)

    姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本篇文章未涉及猫眼反爬,主要介绍爬取无反爬内容,战反爬内容请去 python战反爬虫:爬取猫眼电影数据 (二)(Requests, Be ...

  7. python战反爬虫:爬取猫眼电影数据 (二)(Requests, BeautifulSoup, MySQLdb,re等库)

    姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本文主要介绍破解反爬,可以先去上一篇观看爬取无反爬内容 python战反爬虫:爬取猫眼电影数据 (一)(Requests, Beauti ...

  8. 爬取80s电影列表和豆瓣评分

    使用多线程抓取80s的电影列表和电影的豆瓣评分 # -*- coding: utf-8 -*- # File : 用resquests爬取80s电影列表.py # Author: HuXianyong ...

  9. python战反爬虫:爬取猫眼电影数据 (一)

    非常荣幸邀请到 赛迪人工智能大赛(简称AI世青赛)全球总决赛银奖的获得者 隋顺意 小朋友为本公众号投稿,隋小朋友虽然小小年纪,但编程能力已经比大多数大学生强非常多了,欢迎大家关注,捧场. 姓名:隋顺意 ...

  10. 一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用

    一起学爬虫--通过爬取豆瓣电影top250学习requests库的使用 学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python req ...

最新文章

  1. boost::callable_traits的remove_member_cv_t的测试程序
  2. 静态html引入js添加随机数后缀防止缓存
  3. 为什么我会了SOA,你们还要逼我学微服务?
  4. [vue] 父子组件间传值
  5. 查看系统表存储过程名称
  6. Java9个异常处理的最佳实践
  7. 只出现一次的数字 (桶排序和位运算)
  8. bzoj 3383: [Usaco2004 Open]Cave Cows 4 洞穴里的牛之四(set+BFS)
  9. C#在线预览文档(word,excel,pdf,txt,png)
  10. (1)数据结构-绪论
  11. 20140419-MCSA 2012 Server R2 Command
  12. RANSAC算法拟合平面实现
  13. 在matlab中开根号,请问,在matlab里面如果输入开方号(根号)?如9的开方怎么写?...
  14. google gflags使用指南
  15. LIN雨量传感器:MQB平台与PQ自带的传感器类型分析
  16. 在vue页面监听中如何修改子元素的样式
  17. html打印纸张尺寸设置100*150,打印机纸张大小怎么设置 打印机纸张大小设置方法【详细介绍】...
  18. 【D3.js 学习总结】12、D3布局-集群图
  19. [含论文+源码等]SSM酒店管理系统旅店管理
  20. vue完整项目,实现即可上岗web前端。

热门文章

  1. 一道关于压缩包的ctf题目(包括暴力破解,明文攻击,伪加密)
  2. WPF Ribbon UI插件式开发框架
  3. 深度学习(十三) Adversarial Attack 理论部分
  4. 赛前练习(百度之星资格赛及初赛真题+Codeforces(div2级别))
  5. 2.9Unicode 文本标准化
  6. 完全免费:鲜为人知的桌面正文内容检索工具(支持epub/mobi/azw3/markdown)
  7. Android社交系统
  8. java mail eml_使用JavaMail解析EML文件
  9. 宇宙简史——星光中有什么秘密?
  10. 电脑蓝屏按哪三个键恢复?怎么修复蓝屏问题