一、爬取新闻联播视频

1. 将视频拖到最后

2. 分析视频缓存链接

如图所示url:https://hls.cntv.baishancdnx.cn/asp/hls/1200/0303000a/3/default/46c6c76d679340d5bb1df3a87573c952/270.ts
3. 将url对应的二进制内容抓取下来

代码如下:

import requests
import osif __name__=="__main__":for i in range(270):url = "https://hls.cntv.baishancdnx.cn/asp/hls/1200/0303000a/3/default/46c6c76d679340d5bb1df3a87573c952/"+str(i+1)+".mp4"root = "videos/0926/"path = root +str(i+1) +".mp4"              #抓取文件起的名字try:if not os.path.exists(root):os.mkdir(root)                  #如果该目录不存在就创建它if not os.path.exists(path):r = requests.get(url)           #获取到目标视频的所有信息with open(path, 'wb') as f:     #以二进制写的方式将r的二进制内容写入pathf.write(r.content)f.close()print("文件"+path+" 保存成功!")else:print("文件已存在")except:print("爬取失败")

爬取新闻文稿

代码如下:

import requests
from urllib.request import urlopen#用于获取网页
from bs4 import BeautifulSoupdef getUrls():url = "http://www.sdpp.com.cn/list/list_98.html"html=urlopen(url)bs = BeautifulSoup(html,"html.parser")urls = bs.find('aside',class_="news_list").find_all("a")url_list=[]for url in urls:item=url.get('href')url_list.append(item)print(url_list)return url_listif __name__=="__main__":headers = {'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}url_list=getUrls()for url in url_list:filename="texts/newsText"+url[-9:-5]+".txt"r = requests.get(url, headers=headers)r.encoding = 'urf8'bs = BeautifulSoup(r.text, "html.parser")allpagecount = int(bs.find("span", {"id": "allpagecount"}).get_text())title = bs.find("div", {"class": "keys3"}).get_text()temp = title + "\n"for i in range(1, allpagecount):link = bs.find("a", {"id": "nextpageurl"})["href"]r = requests.get(link, headers=headers)r.encoding = 'urf8'bs = BeautifulSoup(r.text, "html.parser")maintext = bs.find("div", {"class": "textCon"}).get_text()temp = temp + maintext + "\n"print(maintext)with open(filename, "w", encoding="utf8") as f:f.write(temp)

python爬虫实战-爬取新闻联播视频和新闻文稿相关推荐

  1. python爬虫实战-爬取视频网站下载视频至本地(selenium)

    #python爬虫实战-爬取视频网站下载视频至本地(selenium) import requests from lxml import etree import json from selenium ...

  2. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

  3. python爬虫实战---爬取大众点评评论

    python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...

  4. python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

    http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...

  5. python爬虫实战--爬取猫眼专业版-实时票房

    小白级别的爬虫入门 最近闲来无事,发现了猫眼专业版-实时票房,可以看到在猫眼上映电影的票房数据,便验证自己之前学的python爬虫,爬取数据,做成.svg文件. 爬虫开始之前 我们先来看看猫眼专业版- ...

  6. python爬虫实战-爬取小说

    今天做一个爬虫练手的小实战:爬取顶点小说网的小说,实现下载到本地(虽然网站上本来就可以下载,不过还是自己写代码来有成就感嘛!) 爬取网站 进入官网后,点击元尊,就爬取这本书了. 我们先把整个网页爬下来 ...

  7. Python爬虫实战- 爬取整个网站112G-8000本pdf epub格式电子书下载

    (整个代码附在最后) 目录: 爬虫准备 - 某电子书网站内容架构分析 爬虫前奏 - 网站Html代码分析,如何获取需要的链接? 爬虫高潮 - 测试是否有反爬虫措施,测试是否能正常下载一个sample ...

  8. python爬虫淘宝实例-Python——爬虫实战 爬取淘宝店铺内所有宝贝图片

    之前用四篇很啰嗦的入门级别的文章,带着大家一起去了解并学习在编写爬虫的过程中,最基本的几个库的用法. 那么今天,我们就正式开始我们的第一篇实战内容,爬取一整个淘宝店铺里的所有宝贝的详情页,并且把详情页 ...

  9. Python爬虫实战——爬取RUNOOB.COM的Python3教程

    说明 关于Python开发环境搭建,可参考博主的另一篇博文-Visual Studio 2017搭配OpenCV之Python环境,省去其中的OpenCV配置及安装即可.另外,在做Python爬虫项目 ...

最新文章

  1. JAVA图片处理--缩放,切割,类型转换
  2. 【Android应用开发】EasyDialog 源码解析
  3. 微信小程序教程02:App(Object)和Page(Object) 构造器介绍
  4. 数据库设置_CentOS7 - 设置MySQL数据库
  5. Heron 数据模型,API和组件介绍
  6. Python中append()和extend方法的使用和区别
  7. C#_LINQ(LINQ to Entities)
  8. java 编译开关_Java开关盒字符串
  9. 人工智能和大数据两者有什么联系
  10. 计算机组成原理在线实验,计算机组成原理编程实验
  11. 2021年百度智能云服务器最新租用价格表
  12. c语言srand函数作用,C语言中srand随机函数怎么用?
  13. 工作内容Rshiny框架使用
  14. MindManager 2018如何新建维恩图
  15. java 调用felix_使用Eclipse启动任务将展开的软件包部署到Apache Felix
  16. 余弦距离的应用 -- cosine distance
  17. OCR-文本检测和文本识别的数据
  18. 17.项目开发中遇到的问题(this.$parent.$parent子组件调父组件的父组件的方法不可用问题)
  19. 安装 配置 Nginx
  20. Python 打包exe

热门文章

  1. hadoop-更换ip
  2. 机器学习入门之7种经典回归模型
  3. 下载文件时火狐总是提示“已屏蔽:可能含有病毒或间谍软件”
  4. Windows11焕新登场,使用VMware虚拟机安装Windows11以及汉化教程
  5. 2004年五大最佳管理工具
  6. ​​​​​​​吾三日一省吾身
  7. 连锁门店设备微信云集中监控及告警方案
  8. python 如何控制鼠标键盘
  9. 工业企业能耗监测系统 自动生成报表
  10. 电脑硬件知识大全(二)