python爬取今日热榜数据到txt文件
今日热榜:https://tophub.today/
爬取数据及保存格式:
爬取后保存为.txt文件:
部分内容:
源码及注释:
import requests
from bs4 import BeautifulSoupdef download_page(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}try:r = requests.get(url,timeout = 30,headers=headers)return r.textexcept:return "please inspect your url or setup"def get_content(html,tag):output = """ 排名:{}\n 标题:{} \n 热度:{}\n 链接:{}\n ------------\n"""output2 = """平台:{} 榜单类型:{} 最近更新:{}\n------------\n"""num=[]title=[]hot=[]href=[]soup = BeautifulSoup(html, 'html.parser')con = soup.find('div',attrs={'class':'bc-cc'})con_list = con.find_all('div', class_="cc-cd")for i in con_list: author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字time = i.find('div', class_='i-h').get_text() # 获取最近更新link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接 gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 save_txt(tag,output2.format(author, gender,time))for k in link:href.append(k['href'])num.append(k.find('span', class_='s').get_text())title.append(str(k.find('span', class_='t').get_text()))hot.append(str(k.find('span', class_='e').get_text()))for h in range(len(num)): save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))def save_txt(tag,*args):for i in args:with open(tag+'.txt', 'a', encoding='utf-8') as f:f.write(i)def main():# 综合 科技 娱乐 社区 购物 财经page=['news','tech','ent','community','shopping','finance']for tag in page:url = 'https://tophub.today/c/{}'.format(tag)html = download_page(url)get_content(html,tag)if __name__ == '__main__':main()
python爬取今日热榜数据到txt文件相关推荐
- python从txt拿取数据_python爬虫今日热榜数据到txt文件的源码
免费资源网 - https://freexyz.cn/ 今日热榜:https://tophub.today/ 爬取数据及保存格式: 爬取后保存为.txt文件: 部分内容: 源码及注释: import ...
- python爬取微博热搜数据并保存!
主要用到requests和bf4两个库将获得的信息保存在d://hotsearch.txt下importrequests;importbs4mylist=[]r=requests.get(ur- 很多 ...
- GoLang爬取今日热榜
初学GO,边百度边瞎写,代码只爬取了IT相关的热榜. 热榜地址:https://tophub.today/c/developer 已经部署在个人服务器上,用php写了一个简单的接口. 接口地址:www ...
- 【爬虫实战】Python 爬取起点热榜,再也不怕没有小说看了!
最近看完一部小说<大奉打更人>,看得我热血沸腾.但是看完后,有选择困难症的我又不知道可以看什么了. 于是,我打算开发一个爬虫,爬取起点热榜. 一.导入所需库 我们使用 requests 来 ...
- Python爬取微博热搜数据之炫酷可视化
可视化展示 看完记得点个赞哟 微博炫酷可视化音乐组合版来了! 项目介绍 背景 现阶段,微博.抖音.快手.哗哩哗哩.微信公众号已经成为不少年轻人必备的"生活神器".在21世纪的今天, ...
- 用Python爬取微博热搜数据
废话少说,直接上代码,然后再详细介绍构造过程. 代码 import urllib.request import re import pandas as pd import time import ra ...
- python爬取今日头条后台数据_Python爬虫实战入门五:获取JS动态内容—爬取今日头条...
之前我们爬取的网页,多是HTML静态生成的内容,直接从HTML源码中就能找到看到的数据和内容,然而并不是所有的网页都是这样的. 有一些网站的内容由前端的JS动态生成,由于呈现在网页上的内容是由JS生成 ...
- python爬取今日头条后台数据_爬虫爬取今日头条数据代码实现
课程链接 讲师的公众号文章:今日头条数据抓取及持久化(完整代码版,含IP和用户代理)mp.weixin.qq.com 课程代码 抓取并持久化user-agent工具utils.py 对于爬虫工具,需 ...
- python 爬取HTML内容并保存到txt文件内
# @UpdateTime : 2020-12-08 16:53 # @Author : wz # @File : Get_WebDetails # @Software: PyCharm # @use ...
最新文章
- Nand Flash,Nor Flash,BPI Flash,SPI Flash 的区别?
- MongoDB复制集(Replication Sets)介绍
- 软件工程概论 课堂练习【图书馆系统的类图】
- js中的window.onload和jquery中的load区别的讲解
- python将列表写入csv_转:Python 将列表数据写入文件(txt, csv, excel)
- EL表达式 JSTL(详解)
- python win7 sp1_[ Python - 15 ] win7安装paramiko问题总汇
- P1038-神经网络【拓扑排序】
- 多Kinect下WaitNoneUpdateAll老是报错,烦躁……
- 泉州中考分数如何计算机,2019年泉州中考总分多少分,泉州中考考试科目设置
- 基于JAVA+SpringMVC+Mybatis+MYSQL的企业人事管理系统
- (转)对D3DXVec3Project 和D3DXVec3UnProject的认识
- 用友超客:社交化业务就是要化繁为简
- 链路负载需求及基本原理
- Terminate Instance 操作详解 - 每天5分钟玩转 OpenStack(33)
- 【Axure组件库】苹果官方SF Symbols 3图标库_每个图标均有2-8种风格
- python调用java之Jpype异常机制
- java qq验证_用Java代码来校验QQ号
- Open Explorer Plugin for Eclipse (eclipse 插件 在ecli
- 2022年京东618红包开抢时间介绍和怎么抢红包攻略