python爬取电影天堂beautiful_Python爬虫 -- 抓取电影天堂8分以上电影

看了几天的python语法，还是应该写个东西练练手。刚好假期里面看电影，找不到很好的影片，于是有个想法，何不搞个爬虫把电影天堂里面8分以上的电影爬出来。做完花了两三个小时，撸了这么一个程序。反正蛮简单的，思路和之前用nodejs写爬虫一样。

爬虫的入口从分页的列表开始，比如美剧的列表第一页地址这样： http://www.ygdy8.net/html/gndy/oumei/list_7_1.html，第二页是http://www.ygdy8.net/html/gndy/oumei/list_7_2.html，是有规律的，所以就可以遍历所有的页面，分别抓取每页里面的影视资源，再进入每条电影的详情页面，抓取出下载地址，存到文件里。

技术上用的是requests 和 BeautifulSoup两个模块。

具体做法是，先从电影列表中定位每条资源中的IMDB(b)评分大于8分的资源，并且将结果放入movie对象中。

class Movie:

def __init__(self, name, url, score, link):

self.name = name

self.url = url

self.score = score

self.link = link

def __str__(self):

return '%s,\t%s分,\t%s' % (self.name, self.score, self.link)

__repr__ = __str__

# 过滤资源

def filterMovie(url):

resultList = []

soup = getSoup(url)

tables = soup.find_all('table', class_='tbspan')

for table in tables:

nameA = table.find('a', text=re.compile("《"))

td = table.find('td', text=re.compile("IMD"))

if td is not None:

scoreStr = re.findall(r"评分 (.+?)/10", td.text)

if(len(scoreStr) > 0):

try:

score = float(scoreStr[0])

if(score > 8):

name = nameA.text

url = site + nameA['href']

print('url:', url)

print('title:', name)

print('score:', score)

downloadLink = getDownloadLink(url)

movie = Movie(name, url, score, downloadLink)

resultList.append(movie)

except:

print('error !!')

return resultList

其中的getDownloanLink(url)是进入电影详情页获取下载链接。

def getDownloadLink(url):

soup = getSoup(url)

downloadTd = soup.find('td', attrs={"style": "WORD-WRAP: break-word"})

downloadA = downloadTd.find('a')

return downloadA['href']

然后是将电影信息存入到文件data.txt中。

def saveInfo(movieList):

fileObj = open('data.txt', 'a')

for movie in movieList:

movie_str = str(movie)

print('movie info:', movie_str)

global lineNo

fileObj.write('(' + str(lineNo) + ') ' + movie_str)

fileObj.write('\n')

fileObj.write('———————————')

fileObj.write('\n')

lineNo += 1

fileObj.close()

经过上面的步骤，即可将某一页的电影资源抓取到，并且存入文件中。

程序的主入口，遍历列表即可。目前他们只有155页，就限制这么多页码。

if __name__ == '__main__':

for index in range(156):

index += 1

url = 'http://www.ygdy8.net/html/gndy/oumei/list_7_' + \

str(index) + '.html'

getPageResource(url)

具体代码在github中，传送门，爬到的结果也放入代码仓库中了。有兴趣的，可以下载看看。

python爬取电影天堂beautiful_Python爬虫 -- 抓取电影天堂8分以上电影相关推荐

python爬贴吧回复_Python爬虫——抓取贴吧帖子
对珊瑚老哥保证了自己会尽量补档动画MTV吧的资源,有空应该研究下爬虫了. 不要在意头图,我不会假借各位对某个动漫的爱好然后坑人的.无论是电磁炮吧主那种拿电磁铁糊弄人的奸商,还是逸站靠小林做幌子卖收费破 ...
python爬虫爬取股票软件数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储（转载）...
完整代码实际上,整个事情完成了两个相对独立的过程:1.爬虫获取网页股票数据并保存到本地文件:2.将本地文件数据储存到MySQL数据库.并没有直接的考虑把从网页上抓取到的数据实时(或者通过一个临时文件 ...
python抓取数据库数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储...
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python爬虫抓取百度图片_Python爬虫抓取百度的高清摄影图片
成果预览: 源代码: import requests import re url = 'https://image.baidu.com/search/index' headers = { 'User- ...
Python判断股票是交易日，爬虫抓取深交所交易日历
为了判断某一天是不是股票的交易日,以此区分自然日与交易日,我们通过抓取深交所的交易日历获取相关数据获取交易日思路首先,打开深交所的交易日历页面:http://www.szse.cn/aboutus ...
java爬虫抓取知乎,java爬虫抓取知乎推荐总是乱码
求助java爬虫抓取知乎推荐总是乱码仿照http://blog.csdn.net/pleasecallmewhy/article/details/17630063写一个简单的抓取知乎推荐(http: ...
python爬取分页数据_爬虫抓取分页数据的简单实现
昨天,我们已经利用Jsoup技术实现了一个简单的爬虫,原理很简单,主要是要先分析页面,拿到条件,然后就去匹配url,采用dome解析的方式循环抓取我们需要的数据,从而即可轻松实现一个简单的爬虫.那么, ...
python爬取微博评论_python爬虫抓取新浪微博数据
需求分析微博主页抓取的内容包括:微博发布的时间,正文(仅提取文字),转发数,评论数,点赞数抓取的内容数据是怎么加载的新浪微博的数据是用ajax异步下拉加载的,在chrome的调试模式下可捕捉 ...
python chrome headless_[技巧] chrome headless 爬虫抓取websoket 数据
目录源起分析实践总结源起周末答应了一个朋友帮他看一下一个网站应该怎么爬,费话不说直接先上网站 https://datacenter.jin10.com/price 数据一直在不停的闪,直觉 ...

python爬取电影天堂beautiful_Python爬虫 -- 抓取电影天堂8分以上电影

python爬取电影天堂beautiful_Python爬虫 -- 抓取电影天堂8分以上电影相关推荐

最新文章

热门文章