文章目录

  • 前言
  • 站点分析
  • 具体代码

前言

D题与地方电视台有关,多年的收视率数据可能有一些用

站点分析

http://www.tvtv.hk/archives/category/tv

可以发现每天的排行榜以一个静态页面发布,获得了每天的排行榜链接才能进一步获取每天的数据

每天前10的信息以文字发布在p标签内,抓取段落的时候,最后按空格拆分一下

具体代码

抓取每天排行的链接

def get_href_list():hrefs = {}for i in range(1, 100):print(i)url = 'http://www.tvtv.hk/archives/category/tv/page/'+str(i)response = requests.get(url)html = response.textdoc = pq(html)articles = doc.find('.status-publish')for article in articles.items():alink = article.find('h2 a')hrefs[alink.attr('title')] = alink.attr('href')with open('TV/排行榜链接列表.csv', 'a') as f:for key in hrefs.keys():if key.find('榜(') > 0:f.write(key+','+hrefs[key]+ '\n')

结果如下

打开每天的链接

def get_audience_proportion():out = open('TV/收视率排行榜列表.csv', 'w', encoding='utf-8')with open('TV/排行榜链接列表.csv, 'r') as f:for line in f:print(line)strs = line.split(',')out.write(strs[0])response = requests.get(strs[1], timeout=10000)html = response.textdoc = pq(html)paragraph = doc.find('.entry-content p').text()items = paragraph.split(' ')count = 0for item in items:if count > 2: out.write(','+item)count = count+1out.write('\n')

结果如下

19年深圳杯D题之爬取电视收视率排行榜相关推荐

  1. 19年深圳杯D题之爬取微博粉丝基本信息

    文章目录 前言 网站分析 具体代码 解决登录 获取id 获取信息 调用演示 前言 由于第一问需要频道用户信息,便选择从深圳卫视的微博中爬取其粉丝的信息作为数据. 网站分析 首先分析微博粉丝列表,获取每 ...

  2. # 深圳杯D题爬取电视收视率排行榜

    目录 深圳杯D题爬取电视收视率排行榜 站点分析 代码实现 深圳杯D题爬取电视收视率排行榜 站点分析 http://www.tvtv.hk/archives/category/tv 每天的排行版通过静态 ...

  3. 2022年深圳杯A题破除“尖叫效应”与“回声室效应”走出“信息茧房”

    2022年深圳杯A题破除"尖叫效应"与"回声室效应"走出"信息茧房"   为了防止更多的人走弯路,对于此题,数据随便找,数据自己造然后文档写 ...

  4. 2020深圳杯B题论文

    2020深圳杯B题论文 问题1: 在给定的信噪比(SNR)信道中,为了达到更高的频谱效率,很多新型的星座图技术,例如几何成型(GeometricShaping,GS)和概率成型(Probalisiti ...

  5. 2020年深圳杯C题

    C题:无线可充电传感器网络充电路线规划 摘要 物联网的快速发展带动了无线传感器网络WSN在生活中的广泛运用.无线传感器网络中包括若干传感器以及一个数据中心,这些传感器的电池均需要移动充电器提供能量来维 ...

  6. c语言开发深圳,2020年深圳杯C题

    C题:无线可充电传感器网络充电路线规划 摘要 物联网的快速发展带动了无线传感器网络WSN在生活中的广泛运用.无线传感器网络中包括若干传感器以及一个数据中心,这些传感器的电池均需要移动充电器提供能量来维 ...

  7. 2021年深圳杯A题火星探测器着陆控制方案

    2021年深圳杯A题火星探测器着陆控制方案 本题聚焦于探测器从火星同步轨道出发到探测器在火星地表上方悬停的过程(以下简称着陆过程),要求参赛队收集有关天问一号探测器的音像和文字等公开资料,建立数学模型 ...

  8. 【Python爬虫】2022年数学建模美赛B题数据爬取

    2022年数学建模美赛B题数据爬取 背景 2022年的美赛刚刚落下帷幕,该题的一个主要难点在于数据的获取.很多人无法找到有效的数据,或者是无法获取数据. 比如找到了如下米德湖的水文数据,但是发现并没有 ...

  9. Python网络爬虫与信息提取(17)—— 题库爬取与整理+下载答案

    前言 上一节实现了题目的整理,没整理答案是不完整的,所以这一节加上答案的爬取. 上一节地址:Python网络爬虫与信息提取(16)-- 题库爬取与整理 效果 思路 爬答案有点难搞,像这种题库的答案都是 ...

最新文章

  1. 边缘计算:安全保护 快速响应
  2. Android之linux基础教学之六 异常
  3. 废弃电器电子产品回收:需要的不仅是补贴 !
  4. 如何提高SSD的使用寿命
  5. html城市手机搜索,原生js实现html手机端城市列表索引选择城市
  6. HttpClient官方sample代码的深入分析(连接池)
  7. [转]配置nginx+apache 其中动态由apache处理,静态由nginx处理
  8. 【kafka】kafka 如何查看 内部 磁盘 网络 是否繁忙
  9. 【报告分享】2020年中国5G经济报告--助力新时代高质量发展.pdf(附下载链接)...
  10. python celery定时任务_Celery(四)定时任务
  11. 数字 三位一节(逗号隔开)表示
  12. linux下画pcb的软件,Linux下画原理图和PCB
  13. 选择正规的资质好的期货公司开户
  14. 记录一次idea因为虚拟内存不足而闪退的经历
  15. “科比男孩”被美国大学录取 即将出国圆梦
  16. java halt_System.exit和Runtime halt区别
  17. Android_Provision
  18. Asterisk内核 拾遗
  19. postgresql仅修改时间戳的时分秒写法
  20. 毕业设计源码之“油价”小程序

热门文章

  1. win7语言设置为英语
  2. Postgresql多行合并一行
  3. matlab生成三维分形,MATLAB生成分形树.ppt
  4. jmeter配置远程运行
  5. 用scratch编写打地鼠游戏
  6. 【实战】OpenCV+Python项目实战--信用卡数字识别
  7. FPGA复位电路设计学习分析
  8. 自己DIY一个pinephone——debian与主线linux在红米2(msm8916)上的移植
  9. gird和flex布局
  10. 已会背诵英文文章 How To Boost Your Confidence