爬虫初识(爬取dytt电影列表及下载地址)

import re
from  urllib.request import urlopen
def getPage(url):response=urlopen(url)return response.read().decode('gbk',errors='ignore')
def parsePage(s):com=re.compile(r'<td height="26">.*?<b>.*?<a href="(?P<url_name>.*?)" class="ulink">.*?',re.S)ret=com.finditer(s)for i  in  ret :return "http://www.dytt8.net"+i.group("url_name")
def parsePage1(s):com=re.compile(r'<div id="Zoom">.*?译.*?名(?P<name>.*?)<br />◎片.*?名(?P<pianname>.*?)<br />.*?◎导.*?演(?P<daoyan>.*?)<br />'+
'◎主.*?演(?P<zhuyan>.*?)<br /><br />◎简.*?介.*?<td.*?><a href="(?P<xiazaidizhi>.*?)">',re.S)ret1=com.finditer(s)# print('****************************************************************')for i  in  ret1 :yield {"yiming":(re.sub("[\u3000]", "",i.group('name'))),"pianming":re.sub("[\u3000]", "",i.group("pianname")),"daoyan":re.sub("[\u3000]", "",i.group("daoyan")),"zhuyan":re.sub("[\u3000]", "",i.group("zhuyan")),"xiazaidizhi":re.sub("[\u3000]", "",i.group("xiazaidizhi"))}
def main(num):url="http://www.dytt8.net/html/gndy/dyzz/list_23_%s.html" % numresponse_html=getPage(url)xiangqing=parsePage(response_html)response1_html = getPage(xiangqing)ret=parsePage1(response1_html)f = open("move_list", "a", encoding="utf8")for obj in ret:print(obj)data = str(obj)f.write(data + "\n")
for i in range(1,181):main(i)

爬虫初识(爬取dytt电影列表及下载地址)相关推荐

Java爬虫采集电影,java的webmagic爬虫实现爬出某电影网的下载地址
事先说明不要用这技术,做一些违法的事情,网上玩爬虫的已经有还能多被抓了,此文就是为了学习webmagic 源码地址:https://github.com/smltq/spring-boot-demo/ ...
python下载百度云盘中的数据_python爬虫：爬取百度云盘资料，保存下载地址、链接标题、链接详情...
在网上看到的教程,但是我嫌弃那个教程写的乱(虽然最后显示我也没高明多少,哈哈),就随手写了一个主要是嫌弃盘搜那些恶心的广告,这样直接下载下来,眼睛清爽多了. 用pyinstall 打包成EXE文件, ...
python爬取豆瓣电影top250_Python爬虫 - scrapy - 爬取豆瓣电影TOP250
0.前言新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例.所以找了很多实 ...
python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250
用Python爬虫实现爬取豆瓣电影Top250 #爬取豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...
爬虫，爬取猫眼电影Top100的电影名与评分
** 爬虫,爬取猫眼电影Top100的电影名与评分 ** import requests import threading import reclass maoyan_top500(threading ...
python战反爬虫：爬取猫眼电影数据 (一）（Requests, BeautifulSoup, MySQLdb,re等库)
姓名:隋顺意博客:Sui_da_xia 微信名:世界上的霸主本篇文章未涉及猫眼反爬,主要介绍爬取无反爬内容,战反爬内容请去 python战反爬虫:爬取猫眼电影数据 (二)(Requests, Be ...
python战反爬虫：爬取猫眼电影数据 (二）（Requests, BeautifulSoup, MySQLdb,re等库)
姓名:隋顺意博客:Sui_da_xia 微信名:世界上的霸主本文主要介绍破解反爬,可以先去上一篇观看爬取无反爬内容 python战反爬虫:爬取猫眼电影数据 (一)(Requests, Beauti ...
爬取80s电影列表和豆瓣评分
使用多线程抓取80s的电影列表和电影的豆瓣评分 # -*- coding: utf-8 -*- # File : 用resquests爬取80s电影列表.py # Author: HuXianyong ...
python战反爬虫：爬取猫眼电影数据 (一）
非常荣幸邀请到赛迪人工智能大赛(简称AI世青赛)全球总决赛银奖的获得者隋顺意小朋友为本公众号投稿,隋小朋友虽然小小年纪,但编程能力已经比大多数大学生强非常多了,欢迎大家关注,捧场. 姓名:隋顺意 ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
一起学爬虫--通过爬取豆瓣电影top250学习requests库的使用学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python req ...

爬虫初识(爬取dytt电影列表及下载地址)

爬虫初识(爬取dytt电影列表及下载地址)相关推荐

最新文章

热门文章