python从txt拿取数据_python爬虫今日热榜数据到txt文件的源码
免费资源网 - https://freexyz.cn/
今日热榜:https://tophub.today/
爬取数据及保存格式:
爬取后保存为.txt文件:
部分内容:
源码及注释:
import requests
from bs4 import BeautifulSoup
def download_page(url):
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
try:
r = requests.get(url,timeout = 30,headers=headers)
return r.text
except:
return "please inspect your url or setup"
def get_content(html,tag):
output = """ 排名:{}\n 标题:{} \n 热度:{}\n 链接:{}\n ------------\n"""
output2 = """平台:{} 榜单类型:{} 最近更新:{}\n------------\n"""
num=[]
title=[]
hot=[]
href=[]
soup = BeautifulSoup(html, 'html.parser')
con = soup.find('div',attrs={'class':'bc-cc'})
con_list = con.find_all('div', class_="cc-cd")
for i in con_list:
author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字
time = i.find('div', class_='i-h').get_text() # 获取最近更新
link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接
gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型
save_txt(tag,output2.format(author, gender,time))
for k in link:
href.append(k['href'])
num.append(k.find('span', class_='s').get_text())
title.append(str(k.find('span', class_='t').get_text()))
hot.append(str(k.find('span', class_='e').get_text()))
for h in range(len(num)):
save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))
def save_txt(tag,*args):
for i in args:
with open(tag+'.txt', 'a', encoding='utf-8') as f:
f.write(i)
def main():
# 综合 科技 娱乐 社区 购物 财经
page=['news','tech','ent','community','shopping','finance']
for tag in page:
url = 'https://tophub.today/c/{}'.format(tag)
html = download_page(url)
get_content(html,tag)
if __name__ == '__main__':
main()
免费资源网 - https://freexyz.cn/
python从txt拿取数据_python爬虫今日热榜数据到txt文件的源码相关推荐
- python爬取今日热榜数据到txt文件
今日热榜:https://tophub.today/ 爬取数据及保存格式: 爬取后保存为.txt文件: 部分内容: 源码及注释: import requests from bs4 import Bea ...
- python爬虫抓取分页_Python爬虫—简书首页数据抓取
简书 本该昨天完成的文章,拖了一天.可能是没休息好吧,昨天的在思路以及代码处理上存在很多问题,废话不多说,我们一起来看一下简书首页数据的抓取. 抓取的信息 2.2)简书首页文章信息 http://ww ...
- python如何爬虫股票数据_python爬虫实例,股票数据定向爬虫
前言 我服了,这几天,怎么涨两天还不够跌一次,害.希望这个可以帮到自己! "股票数据定向爬虫"实例介绍 功能描述 目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件 ...
- python二手交易平台代码_PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)...
说明 文章首发于HURUWO的博客小站,本平台做同步备份发布. 如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览. 原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二 ...
- python程序员爬取分析20万场吃鸡数据,带妹吃鸡,终成人生赢家
首先,神枪镇楼 python程序员爬取分析20万场吃鸡数据,带妹吃鸡,终成人生赢家 吃鸡,撩妹神器 吃鸡游戏受到很多年轻人的喜爱,用户量也非常大.有很多地图,场景逼真,技术玩法,增加了游戏可玩性.而且 ...
- YYDatav的数据可视化大屏《精彩案例汇总》(PythonEcharts源码)
一. 资源下载 [1-10]套Python+Echarts数据可视化大屏案例(共10套)-企业管理文档类资源-CSDN下载第1篇https://yydatav.blog.csdn.net/articl ...
- 使用Cython库包对python的py文件(源码)进行加密,把python的.py文件生成.so文件并调用
文章目录: 1 准备环境 2 调用`Cython库包`把python的`.py`文件生成`.so`文件 2.1 写源码文件 2.2 调用源码接口 2.3 调用Cython库把`.py`源码生成`.so ...
- divcss布局模板代码_(带手机版数据同步)房产门户企业织梦模板 房地产楼盘网站源码下载...
模板名称:(带手机版数据同步)房产门户企业织梦模板 房地产楼盘网站源码下载 本套织梦模板采用织梦最新内核开发的模板,这款模板使用范围广,不仅仅局限于一类型的企业,房产门户.房地产楼盘类的网站都可以用该 ...
- Python GUI制作实例 wxPython使用多线程 防假死含wxFormBuilder的文件及源码
wxFormBuilder使用的教程较少,网上的文件源码也少. 最近使用 python 写了一个GUI,可以打开设置文件,并对xlsx文件进行处理,可以将部分信息输出到gui界面,像print输出到c ...
最新文章
- MySQL存储过程---动态的表名
- swift_000(Swift 的导读必看)
- mvvm模式和mvc的区别_Android 开发中的架构模式 -- MVC / MVP / MVVM
- linux+后台运行+nohup,Linux后台运行命令集(、fg、bg、jobs、nohup、ctrl + z)
- mysql 重置表索引_MySQL管理表和索引
- 在Ubuntu上为Android系统内置C可执行程序测试Linux内核驱动程序
- 二、Python开发语音识别
- 安川伺服总线通讯方式_终于有人把常用的三种通讯方式:RS485、RS232、RS422讲明白了...
- c#反编译生成DLL过程
- 51单片机制作简易计算器(动态数码管、矩阵按键)
- 基于华为云服务的人脸识别功能实现
- 游戏模型制作的注意事项——模型规范
- linux加静态路由命令,LINUX添加静态路由
- Linux下构建一个deb软件安装包
- win10的Pytorch最全安装教程,解决pytorch安装问题!
- [转载]汇编语言程序设计第二版答案 沈美明
- python学习笔记(九)异常处理
- activiti:initiator详解
- 新零售如何做到线上线下相结合?
- 图像处理之图像的几何变换
热门文章
- Super BossKey V1.0 发布,欢迎下载使用^_^
- Webp转成其他图片格式
- pcie link training
- 如何预约华为认证笔试考试之Pearson VUE网站预约
- 记一次ceph osd莫名其妙自动关闭进程异常
- [Django快速开发1]搭建一个简单的博客系统(1)
- 直播行业市场概况及现状:2022年电商直播成为主流
- 2020寒假【gmoj1593】【GDKOI训练】【电视游戏问题vidgame】【DP】
- oracle表稅片整理,oracle_Oracle表碎片整理操作步骤详解,高水位线(HWL)下的许多数据 - phpStudy...
- 朋友圈美食“小心机”拍摄技巧