最近看韩剧想重温一下以前看的韩剧 但是就记得剧情 到网站上找了 太多点的太麻烦,网上问了也回答不了 找的几个片名都不对,所以就想写个爬虫爬去某站上所有的韩剧信息,可以方便查找想看的韩剧

爬取具体如下:

# 爬去网站韩国电视剧的信息
# 爬去片面、时间、地区、主演、简介

1、导入模块

import requests
import time
from lxml import etree

2、网站页面爬取

创建类HanJuInfo

class HanJuInfo():def __init__(self, url):self.headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3641.400 QQBrowser/10.4.3284.400'}self.url = url# 首页获取页面链接def Get_Html(self):response = requests.get(url=self.url, headers=self.headers)if response.status_code == 200:html = response.textreturn html# 页面解析出详情页的urldef Paser_Html(self):content = self.Get_Html()selector = etree.HTML(content)items = selector.xpath('//div[@class="s-tab-main"]/ul[@class="list g-clear"]/li[@class="item"]')for item in items:self.info_url = item.xpath('./a/@href')[0]self.info_urls = 'https://www.360kan.com'+self.info_url# 解析详情页信息response = requests.get(url=self.info_urls, headers=self.headers)if response.status_code == 200:selector = etree.HTML(response.text)name = selector.xpath('//div[@class="title-left g-clear"]/h1/text()')[0]time = selector.xpath('//*[@id="js-desc-switch"]/div[1]/p[2]/text()')[0]place = selector.xpath('//*[@id="js-desc-switch"]/div[1]/p[3]/text()')[0]actors = ''.join(selector.xpath('//*[@id="js-desc-switch"]/div[1]/p[6]//a//text()'))detials = selector.xpath('//*[@id="js-desc-switch"]/div[3]/p/text()')[0]yield {'片面': name,'时间': time,'地区': place,'主演': actors,'简介': detials}info = {'片面': name,'时间': time,'地区': place,'主演': actors,'简介': detials}self.save_info(str(info))def save_info(self, content):with open('info.txt', 'a', encoding='utf-8')as f:f.write(content+'\n')

3、主函数调用

开启翻页25爬去近七百部韩国电视剧信息

if __name__ == '__main__':for x in range(1, 26):url = 'https://www.360kan.com/dianshi/list.php?area=12&pageno={}'.format(str(x))han = HanJuInfo(url)time.sleep(1)print('第%s页' % x)for i, x in enumerate(han.Paser_Html()):print(i, x)

4、爬取结果如下:

图片太大简介如下:

Python爬虫:爬去韩国电视剧信息相关推荐

  1. 深圳python爬虫培训南山科技园钽电容回收_记一次python 爬虫爬取深圳租房信息的过程及遇到的问题...

    为了分析深圳市所有长租.短租公寓的信息,爬取了某租房公寓网站上深圳区域所有在租公寓信息,以下记录了爬取过程以及爬取过程中遇到的问题: 爬取代码: import requests from reques ...

  2. python解决租房问题_记一次python 爬虫爬取深圳租房信息的过程及遇到的问题

    为了分析深圳市所有长租.短租公寓的信息,爬取了某租房公寓网站上深圳区域所有在租公寓信息,以下记录了爬取过程以及爬取过程中遇到的问题: 爬取代码: import requests from reques ...

  3. Python爬虫爬取韩国电影售票评分网站电影排行榜Top250

    Python爬虫 韩国电影售票评分网站 电影排行榜Top250 步骤 1.基本的爬取思路是先爬取排行榜中每个电影的详情页URL 2.通过拼接URL获取详情页的具体地址 3.通过分析电影详情页获取电影数 ...

  4. python爬虫爬取豆瓣电影信息城市_Python爬虫入门 | 2 爬取豆瓣电影信息

    这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...

  5. python爬虫爬取豆瓣电影信息城市_python爬虫,爬取豆瓣电影信息

    hhhhh开心,搞了一整天,查了不少python基础资料,终于完成了第一个最简单的爬虫:爬取了豆瓣top250电影的名字.评分.评分人数以及短评. 代码实现如下:#第一个最简单的爬虫 #爬取了豆瓣to ...

  6. 高温来袭?通过python爬虫爬取天气预警信息

    需求分析 最近一段时间,天气也是越来越热了,真正的进入了夏天了.可怕的故事是,现在才只有6月份呢,要是等到了7,8月份,不会是要更热吧? 一个小伙伴对此也深表赞同,"仙草哥哥,现在天气的温度 ...

  7. Python爬虫-爬取豆瓣出版社信息

    爬取豆瓣出版社信息 代码如下: # 爬取豆瓣出版社 import urllib.request import reurl = 'https://read.douban.com/provider/all ...

  8. 用python爬虫爬取东方财富网信息网页信息_爬取东方财富网数据的网页分析

    自学Python已有3个月之多,浏览无数大神的佳作,收获颇丰.当初自学python就是为了学习爬虫,爬取网站上好看妹子的图片--[流口水][流口水] 言归正传,近期学习量化交易知识,发现东方财富网(e ...

  9. 简单的python爬虫--爬取Taobao淘女郎信息

    最近在学Python的爬虫,顺便就练习了一下爬取淘宝上的淘女郎信息:手法简单,由于淘宝网站本上做了很多的防爬措施,应此效果不太好! 爬虫的入口:https://mm.taobao.com/json/r ...

最新文章

  1. MyBatis学习总结(9)——使用MyBatis Generator自动创建代码
  2. 【HDU2825】Wireless Password【AC自动机,状态压缩DP】
  3. 随想录(写给自己的C++编程规范)
  4. 51黑单片机论坛c语言,51黑论坛_51单片机轻松入门—基于STC15W4K系列
  5. php手机页面中文输出乱码,如何解决php输出中文乱码的问题?
  6. WIN7 IE8假死现象解决方法
  7. 华为数字化转型之道第二讲
  8. android killer java_Android反编译工具的使用-Android Killer
  9. 云台山风景美如画,四大网红打卡景点等你来!
  10. Zabbix最新6.2安装及使用!
  11. VIVADO 自定义封装ip核(超详细)
  12. 吴恩达deeplearning之CNN—卷积神经网络入门
  13. 2020移动apn接入点哪个快_为什么别人的4g网总比你快?手机这个设置没开启,难怪网络...
  14. Visual Studio 2019 (VS2019)安装Spy++工具
  15. Webview相关属性和事件处理
  16. 关于Windows10系统启用SMB文件共享支持服务
  17. 北京、上海家庭年收入情况统计 (zz)
  18. Linux 33 Bash
  19. 2018年端午节书法作品集
  20. 暗室逢燈2222222222

热门文章

  1. 可口可乐社会化营销心得:是消费者拥有你的品牌而不是你自己
  2. sqlserver 分组合并列_数学奥赛中美两国并列第一,这场数学巅峰对决竟是中国天才少年的内战?...
  3. 用imagebox控件实现多种视频播放功能,并且帧图片可供后续处理
  4. 【C语言】实用调试技巧与const函数提升代码健壮性
  5. 为 Visual Studio 2010 开发扩展插件
  6. delphi XE 10实现App和PC下TreeView调用ImageList和Sqlite数据
  7. 我为这篇文章想了66个标题!
  8. 这几款手机APP人见人爱 不要错过啦
  9. 数学建模简介-从现实对象到数学建模[2]
  10. 运营管理整改报告范文_运营管理述职报告怎么写【三篇】