目录

  • 深圳杯D题爬取电视收视率排行榜

    • 站点分析
    • 代码实现

深圳杯D题爬取电视收视率排行榜

站点分析

http://www.tvtv.hk/archives/category/tv

每天的排行版通过静态页面发布,先获取每天的排行榜链接,再进一步从链接里面获取数据

每天前10的信息发布在p标签内,存储的时候空格拆分一下

代码实现

获取每一页的静态链接

url = 'http://www.tvtv.hk/archives/category/tv/page/'# 获取每一个网页的静态页面
for i in range(1, 100):href = {}print('正在爬取第' + str(i) + '页')print(url + str(i))doc = pq(url + str(i))sp = doc('.status-publish')for s in sp.items():ha = s.find('h2 a')href[ha.attr('title')] = ha.attr('href')with open('TV链接列表.csv', 'a') as f:for key in href.keys():if key.find('榜') > 0:f.write(key + ',' + href[key] + '\n')

从每天的静态页面中获取前十的数据

# 从每一个静态页面中获取数据
out = open('TV收视率.csv', 'w', encoding='utf-8')
with open('TV链接列表.csv', 'r') as f:for line in f:print(line)strs = line.split(',')out.write(strs[0])doc = pq(strs[1])p = doc.find('p:nth-child(1)').text().strip()ps = p.split(' ')count = 0for item in ps:count = count + 1if count <= 3:continuej = 0while '0' <= item[j] <= '9':j = j + 1out.write(',' + item[j:])out.write('\n')

运行结果

完整代码获取:https://github.com/sstealer/WebSpider/tree/master。 感觉有帮助的话可以GitHub点个赞哦

转载于:https://www.cnblogs.com/sstealer/p/11495824.html

# 深圳杯D题爬取电视收视率排行榜相关推荐

  1. 19年深圳杯D题之爬取电视收视率排行榜

    文章目录 前言 站点分析 具体代码 前言 D题与地方电视台有关,多年的收视率数据可能有一些用 站点分析 http://www.tvtv.hk/archives/category/tv 可以发现每天的排 ...

  2. 2022年深圳杯A题破除“尖叫效应”与“回声室效应”走出“信息茧房”

    2022年深圳杯A题破除"尖叫效应"与"回声室效应"走出"信息茧房"   为了防止更多的人走弯路,对于此题,数据随便找,数据自己造然后文档写 ...

  3. 2020深圳杯B题论文

    2020深圳杯B题论文 问题1: 在给定的信噪比(SNR)信道中,为了达到更高的频谱效率,很多新型的星座图技术,例如几何成型(GeometricShaping,GS)和概率成型(Probalisiti ...

  4. 2020年深圳杯C题

    C题:无线可充电传感器网络充电路线规划 摘要 物联网的快速发展带动了无线传感器网络WSN在生活中的广泛运用.无线传感器网络中包括若干传感器以及一个数据中心,这些传感器的电池均需要移动充电器提供能量来维 ...

  5. c语言开发深圳,2020年深圳杯C题

    C题:无线可充电传感器网络充电路线规划 摘要 物联网的快速发展带动了无线传感器网络WSN在生活中的广泛运用.无线传感器网络中包括若干传感器以及一个数据中心,这些传感器的电池均需要移动充电器提供能量来维 ...

  6. 2021年深圳杯A题火星探测器着陆控制方案

    2021年深圳杯A题火星探测器着陆控制方案 本题聚焦于探测器从火星同步轨道出发到探测器在火星地表上方悬停的过程(以下简称着陆过程),要求参赛队收集有关天问一号探测器的音像和文字等公开资料,建立数学模型 ...

  7. python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)

    ''' 爬取豆瓣电影排行榜 设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: 模块 ...

  8. 爬取豆瓣电影排行榜,并制作柱状图与3d柱状图

    **爬取豆瓣电影排行榜,并简单制作柱状图 一.首先,我们需要获取页面的信息,下图是从排行第25到50的电影,由此可见start可以想象为偏移量,我们把start的值换为0,得到了第一到25排名的电影, ...

  9. 【python 爬虫】 scrapy 入门--爬取百度新闻排行榜

    scrapy 入门–爬取百度新闻排行榜 环境要求:python2/3(anaconda)scrapy库 开发环境:sublime text + windows cmd 下载scrapy(需要pytho ...

最新文章

  1. 0x00000000 处有未经处理的异常: 0xC0000005: 在位置 0x0000000000000000 发生访问冲突
  2. python计算消费总额_【数据分析案例】用户消费行为
  3. IOS用户界面的新视觉比例
  4. android 根据文件Uri获取图片url
  5. C函数的实现(strcpy,atoi,atof,itoa,reverse)
  6. 连续出现的字符(信息学奥赛一本通-T1148)
  7. HTML5 列表和表格
  8. python contains类似函数_Python也能做到Excel那样,条件统计轻松解决工作需求
  9. mysql 主主切换_mysql 主-主配置中进行切换
  10. 罗马书1:18-32
  11. 锁定计算机还能远程控制,我的电脑可能被远程控制
  12. 仿蜜雪冰城点餐小程序
  13. 中国网络游戏中的反外挂模式
  14. java使用微博开发者api步骤
  15. c语言int输入1输出60000,数字的秘密问题分析(C语言)
  16. python常用内置函数乘法_每个 Python 高手都应该知道的内置函数
  17. 熟练的“猎手”使用新的脉冲波 DDoS 攻击来打击多个目标
  18. 【Linux】创建、修改和删除用户(useradd | usermod | userdel)
  19. Vue-change和input事件
  20. php中跨页面id的获取,excel跨表格提取数据?phpexcel 读取excel里的数据并在页面显示出来...

热门文章

  1. 线粒体DNA(mtDNA)捕获探针panel试剂盒myBaits Expert Mito,适用各种样本类型(包含降解和环境DNA,化石或博物馆样本均可),应用于遗传学研究
  2. Docker Swarm 入门一篇文章就够了【转】
  3. 分享一个超好用的批量处理PPT与PPTX转换,批量删除某一页PPT,批量DOC转换为DOCX的应用
  4. 父页面js监听iframe内子页面并作出响应
  5. 2021李宏毅老师最新40节机器学习课程!附课件+视频资料
  6. 人脸识别——OpenCV调取摄像头识别人脸
  7. Docer容器的介绍(一)-------Docker基本概念和框架
  8. HPD健康产品申明认证
  9. 问题解决:pdf打不开,出现Acrobat failed to connect to a DDE server问题
  10. uiautomatorviewer 简单使用