看了几天的python语法,还是应该写个东西练练手。刚好假期里面看电影,找不到很好的影片,于是有个想法,何不搞个爬虫把电影天堂里面8分以上的电影爬出来。做完花了两三个小时,撸了这么一个程序。反正蛮简单的,思路和之前用nodejs写爬虫一样。

爬虫的入口从分页的列表开始,比如美剧的列表第一页地址这样: http://www.ygdy8.net/html/gndy/oumei/list_7_1.html,第二页是http://www.ygdy8.net/html/gndy/oumei/list_7_2.html,是有规律的,所以就可以遍历所有的页面,分别抓取每页里面的影视资源,再进入每条电影的详情页面,抓取出下载地址,存到文件里。

技术上用的是requests 和 BeautifulSoup两个模块。

具体做法是,先从电影列表中定位每条资源中的IMDB(b)评分大于8分的资源,并且将结果放入movie对象中。

class Movie:

def __init__(self, name, url, score, link):

self.name = name

self.url = url

self.score = score

self.link = link

def __str__(self):

return '%s,\t%s分,\t%s' % (self.name, self.score, self.link)

__repr__ = __str__

# 过滤资源

def filterMovie(url):

resultList = []

soup = getSoup(url)

tables = soup.find_all('table', class_='tbspan')

for table in tables:

nameA = table.find('a', text=re.compile("《"))

td = table.find('td', text=re.compile("IMD"))

if td is not None:

scoreStr = re.findall(r"评分 (.+?)/10", td.text)

if(len(scoreStr) > 0):

try:

score = float(scoreStr[0])

if(score > 8):

name = nameA.text

url = site + nameA['href']

print('url:', url)

print('title:', name)

print('score:', score)

downloadLink = getDownloadLink(url)

movie = Movie(name, url, score, downloadLink)

resultList.append(movie)

except:

print('error !!')

return resultList

其中的getDownloanLink(url)是进入电影详情页获取下载链接。

def getDownloadLink(url):

soup = getSoup(url)

downloadTd = soup.find('td', attrs={"style": "WORD-WRAP: break-word"})

downloadA = downloadTd.find('a')

return downloadA['href']

然后是将电影信息存入到文件data.txt中。

def saveInfo(movieList):

fileObj = open('data.txt', 'a')

for movie in movieList:

movie_str = str(movie)

print('movie info:', movie_str)

global lineNo

fileObj.write('(' + str(lineNo) + ') ' + movie_str)

fileObj.write('\n')

fileObj.write('———————————')

fileObj.write('\n')

lineNo += 1

fileObj.close()

经过上面的步骤,即可将某一页的电影资源抓取到,并且存入文件中。

程序的主入口,遍历列表即可。目前他们只有155页,就限制这么多页码。

if __name__ == '__main__':

for index in range(156):

index += 1

url = 'http://www.ygdy8.net/html/gndy/oumei/list_7_' + \

str(index) + '.html'

getPageResource(url)

具体代码在github中,传送门,爬到的结果也放入代码仓库中了。有兴趣的,可以下载看看。

python爬取电影天堂beautiful_Python爬虫 -- 抓取电影天堂8分以上电影相关推荐

  1. python爬贴吧回复_Python爬虫——抓取贴吧帖子

    对珊瑚老哥保证了自己会尽量补档动画MTV吧的资源,有空应该研究下爬虫了. 不要在意头图,我不会假借各位对某个动漫的爱好然后坑人的.无论是电磁炮吧主那种拿电磁铁糊弄人的奸商,还是逸站靠小林做幌子卖收费破 ...

  2. python爬虫爬取股票软件数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储(转载)...

    完整代码 实际上,整个事情完成了两个相对独立的过程:1.爬虫获取网页股票数据并保存到本地文件:2.将本地文件数据储存到MySQL数据库.并没有直接的考虑把从网页上抓取到的数据实时(或者通过一个临时文件 ...

  3. python抓取数据库数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储...

    Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...

  4. python爬虫抓取百度图片_Python爬虫抓取百度的高清摄影图片

    成果预览: 源代码: import requests import re url = 'https://image.baidu.com/search/index' headers = { 'User- ...

  5. Python判断股票是交易日,爬虫抓取深交所交易日历

    为了判断某一天是不是股票的交易日,以此区分自然日与交易日,我们通过抓取深交所的交易日历获取相关数据 获取交易日思路 首先,打开深交所的交易日历页面:http://www.szse.cn/aboutus ...

  6. java爬虫 抓取知乎,java爬虫抓取知乎推荐总是乱码

    求助java爬虫抓取知乎推荐总是乱码 仿照http://blog.csdn.net/pleasecallmewhy/article/details/17630063写一个简单的抓取知乎推荐(http: ...

  7. python爬取分页数据_爬虫抓取分页数据的简单实现

    昨天,我们已经利用Jsoup技术实现了一个简单的爬虫,原理很简单,主要是要先分析页面,拿到条件,然后就去匹配url,采用dome解析的方式循环抓取我们需要的数据,从而即可轻松实现一个简单的爬虫.那么, ...

  8. python爬取微博评论_python爬虫抓取新浪微博数据

    需求分析 微博主页 抓取的内容包括:微博发布的时间,正文(仅提取文字),转发数,评论数,点赞数 抓取的内容 数据是怎么加载的 新浪微博的数据是用ajax异步下拉加载的,在chrome的调试模式下可捕捉 ...

  9. python chrome headless_[技巧] chrome headless 爬虫抓取websoket 数据

    目录 源起 分析 实践 总结 源起 周末答应了一个朋友帮他看一下一个网站应该怎么爬,费话不说直接先上网站 https://datacenter.jin10.com/price 数据一直在不停的闪,直觉 ...

最新文章

  1. sqlserver怎么将excel表的数据导入到数据库中
  2. Struts2中的链接标签
  3. php round函数输出不对_PHP常量
  4. 一台路由器实现电信ITV与宽带共享上网
  5. kettle于javascript步骤错误处理
  6. 单片机c语言必背代码_【典藏】深度剖析单片机程序的运行(C程序版)
  7. mysql 回退查询_MySQL数据库:第十章:分页查询
  8. JdbcTemplate 排序查询结果不一致问题
  9. python工程师干什么的_Python就业前景和工资待遇分析,你学Python了吗?
  10. 软件介绍:搜索工具 Listary
  11. WorkTool(一)企业微信群管理机器人实现
  12. git bash提交代码步骤
  13. GoogleEarth二次开发平台指南(4) --- 三维视频融合、视频拼接与摄像头控制
  14. python绘制动态数字时钟_用 Python 画动态时钟
  15. c strtok函数用法
  16. 谷歌开源的跨平台UI开发框架Flutter
  17. 2020年双十一销售额破亿的新品牌达16个与往年三倍之多
  18. 信息化项目网络安全方案编制
  19. C#项目中所有的窗体排版都乱了
  20. 基于51单片机hc-05,hc-06蓝牙传送数据到手机APP

热门文章

  1. 如何将pdf等非标准数据文件转换成可供EXCEL等软件分析的数据
  2. AI遮天传 ML-KNN
  3. 将文件夹下的pdf文件合并
  4. 《Qt5:同一个界面多窗口或者多页面切换(QStackedWidget)》
  5. MCAFEE杀毒软件无法完全卸载的解决方案
  6. 音诺恒科技多核验合一“数字电子哨兵”对接全国健康码精准核验
  7. MTD,文件系统,存储器分区的个人理解
  8. linux不能显示文本文件内容的命令,Linux之文本文件查看命令
  9. JavaScript note
  10. VC编译DLL时,如何不依赖VC运行库