本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

目标:爬取b站番剧最近更新

输出格式:名字+播放量+简介

那么开始撸吧~

用到的类库:

requests:网络请求

pyquery:解析xml文档,像使用jquery一样简单哦~

1.分析页面布局,找到需要爬取的内容

目标url:

https://bangumi.bilibili.com/22/

设计video类:

import requests

from pyquery import PyQuery as pq

class Video(object):

def __init__(self,name,see,intro):

self.name=name

self.see=see

self.intro=intro

def __str__(self):

return "{}--{}--{}".format(self.name,self.see,self.intro)

分析完页面,设取爬去类:

class bilibili(object):

host="https://bangumi.bilibili.com"

def __init__(self):

self.dom=pq(requests.get('https://bangumi.bilibili.com/22/').text)

def get_recent(self):

'''最近更新'''

items=self.dom('#list_bangumi_new .c-list .new .c-item')

videos=[]

for i in items:

name=i.find('.r-i .t').attr('title')

link=self.host+i.find('.r-i .t').attr('href')

d=pq(requests.get(url=link).text)

see=d(".info-count .info-count-item").eq(1).find('em').text()

intro=d('.info-row').eq(3).find('.info-desc').text()

videos.append(Video(name=name,see=see,intro=intro))

return videos

哎呀,怎么回事,居然返回为空

这种情况下不要慌,如果代码没有错误,那么一般是由两种情况造成

没有选择到目标,页面是js动态加载的

我们先试下第一种情况,打开浏览器,f12,将选择字符串复制到console中运行下,我们这就是

$('#list_bangumi_new .c-list .new .c-item')

可以选择到我们想要的目标,那看来是页面js动态加载了,那就方便我们了,我们就只要找到它的接口就好了,打开浏览器,f12,在network里面寻找一下就好了,

url:https://bangumi.bilibili.com/api/timeline_v2_global

这是一个item的信息,里面有我们想要的名字信息,那接下来就是去详情页寻找播放量和简介了,但是详情页链接在哪那,刚刚那个接口里并没有,我们f12,审查一下元素。

这里的链接是/anime/6439,刚刚的接口里并没有这个信息啊,那这个信息应该就是拼接出来的了,关键就是6439这个数字了,去刚刚那个接口信息里寻找一下,果然找到了一个season_id字段符合,那么详情页链接就构造如下:

detail_url = "https://bangumi.bilibili.com/anime/{season_id}"

那么接下来就是去分析详情页,爬去我们想要播放量和简介信息了,构造爬去代码如下:

see = d(".info-count .info-count-item").eq(1).find('em').text()

intro = d('.info-desc-wrp').find('.info-desc').text()

那么最终爬取类关键代码如下:

class bilibili(object):

recent_url = "https://bangumi.bilibili.com/api/timeline_v2_global" # 最近更新

detail_url = "https://bangumi.bilibili.com/anime/{season_id}"

def __init__(self):

self.dom=pq(requests.get('https://bangumi.bilibili.com/22/').text)

def get_recent(self):

'''最近更新'''

items=json.loads(requests.get(self.recent_url).text)['result']

videos=[]

for i in items:

name=i['title']

link=self.detail_url.format(season_id=i['season_id'])

d=pq(requests.get(url=link).text)

see = d(".info-count .info-count-item").eq(1).find('em').text()

intro = d('.info-desc-wrp').find('.info-desc').text()

videos.append(Video(name=name,see=see,intro=intro))

return videos

运行一下:

很ok,那接下来把它做成命令行~

2.制作命令行版

用到的类库:

argparse:解析命令行参数

主要代码如下:

if __name__ == '__main__':

parser=argparse.ArgumentParser()

parser.add_argument('--recent',help="get the recent info",action="store_true")

parser.add_argument('--num',help="The number of results returned,default show all",type=int,default=0)

parser.add_argument('-v','--version',help="show version",action="store_true")

args=parser.parse_args()

if args.version:

print("bilibili 1.0")

elif args.recent:

b = bilibili()

b.get_recent(args.num)

看下效果:

ok,大功告成,接下来大家就自由发挥添加更多的功能吧~:)

本文分享 CSDN - 松鼠爱吃饼干。

如有侵权,请联系 support@oschina.cn 删除。

本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

python爬b站番剧_Python爬取B站动漫番剧更新信息,附代码和讲解过程相关推荐

  1. python用类名直接调用方法_Python类的实例方法、静态方法、类方法详解,附代码示例...

    实例方法 普通实例方法(instance method),第一个参数需要是self,它表示一个具体的实例本身,只能被实例对象调用,通过self引用的可能是类属性.也有可能是实例属性. 实例方法访问类属 ...

  2. 基于python的随机森林回归实现_Python机器学习实践:随机森林算法训练及调参-附代码...

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源 | 博客园 作者 | 战争热诚 随机森林是一种有监督学习算法,是以决策树为基学习器的集成学习算法 ...

  3. 我用Python爬取了难下载的电子教材(内附代码)

    我用Python爬取了难下载的电子教材(内附代码) 第一次在CSDN上面分享经历,有点激动.本大二狗最近这段时间去不了学校又想看教材,不巧学习通上面的部分内容老师设置了不可下载啊.好在最近学习了一点P ...

  4. python爬取b站弹幕分析_python爬取B站视频弹幕分析并制作词云

    目录1.分析网页 2.爬虫+jieba分词+制作词云2.1爬虫 2.2jieba分词 2.3制作词云 3.成品展示 4.完整代码 1.分析网页 视频地址:https://www.bilibili.co ...

  5. python 数据分析 书籍推荐 知乎_Python 爬取知乎 9674 个问答,揭秘最受欢迎的 98 本书!...

    原标题:Python 爬取知乎 9674 个问答,揭秘最受欢迎的 98 本书! 作者 | Yura 责编 | 胡巍巍 高尔基这话有没有道理我不知道, 咱也不敢问, 主要是现在也问不了. 那对我来说,读 ...

  6. python百度贴吧 发帖时间_python爬取贴吧帖子

    一.介绍 我们常遇到一些很长的贴吧连载帖子想存到本地再看 此文就是运用python爬取指定百度贴吧的帖子并存到本地满足需求 环境:python2.7 目标网页:[长篇连载]剑网3的正史和野史--从头开 ...

  7. python 更新数据库历史_python 实现数据库中数据添加、查询与更新的示例代码

    一.前言 最近做web网站的测试,遇到很多需要批量造数据的功能:比如某个页面展示数据条数需要达到10000条进行测试,此时手动构造数据肯定是不可能的,此时只能通过python脚本进行自动构造数据:本次 ...

  8. python查询数据库后更新_python 实现数据库中数据添加、查询与更新的示例代码...

    一.前言 最近做web网站的测试,遇到很多需要批量造数据的功能:比如某个页面展示数据条数需要达到10000条进行测试,此时手动构造数据肯定是不可能的,此时只能通过python脚本进行自动构造数据:本次 ...

  9. python代码中怎么增加数据_python 实现数据库中数据添加、查询与更新的示例代码...

    一.前言 最近做web网站的测试,遇到很多需要批量造数据的功能:比如某个页面展示数据条数需要达到10000条进行测试,此时手动构造数据肯定是不可能的,此时只能通过python脚本进行自动构造数据:本次 ...

最新文章

  1. 我说分布式事务之TCC
  2. 【✈️️️排序算法,一文讲尽!Top 10 Sort Algorithms✈️️️】C/C++ 实现经典十大排序算法
  3. python打包exe之打包深度学习模型踩坑记录及其解决办法。
  4. css类选择器优先级 大于 标签选择器
  5. NPOI 删除指定的行
  6. Leetcode--149. 直线上最多的点数
  7. 数据库优化 - MYSQL优化
  8. Python学习日记(3)Python内建函数map()、filter()和匿名函数表达式
  9. 站内搜索——Lucene +盘古分词
  10. PHP操作Mongodb API 及使用类 封装好的MongoDB操作类
  11. 玩游戏该怎么选择硬盘
  12. 2017年最受欢迎的10个编程挑战网站,值得收藏!
  13. 编写一个python程序输出如下图形_第二章:Python程序实例解析
  14. 最新影视双端直播盒子源码,自定义资源采集
  15. niceScroll 的使用
  16. (d2l-ai/d2l-zh)《动手学深度学习》pytorch 笔记(3)前言(介绍各种机器学习问题)以及数据操作预备知识Ⅲ(概率)
  17. excel表格内容合并的技巧?
  18. Mysql复制表结构、表数据以及修改主键
  19. 理解Nurbs曲线/曲面的参数空间
  20. 价值链-商业模式名词解释11

热门文章

  1. 上传视频时自动完成截取缩略图(一)
  2. 数据结构 —— 数组,列表和树的家族
  3. 往华为云服务器上传文件速度特别慢,怎么办?
  4. CAD图形导入Abaqus2020方法
  5. 未能加载基类的解决方案
  6. 2021版1:100万基础地理信息数据更新数据(整理GDB批量合并)
  7. linux每日5个命令
  8. VCENTER 证书过期。
  9. AIMERSION的共识机制
  10. 嵌入式软件工程师面试题大全