python爬取今日热榜数据到txt文件

今日热榜：https://tophub.today/

爬取数据及保存格式：

爬取后保存为.txt文件：

部分内容：

源码及注释：

import requests
from bs4 import BeautifulSoupdef download_page(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}try:r = requests.get(url,timeout = 30,headers=headers)return r.textexcept:return "please inspect your url or setup"def get_content(html,tag):output = """    排名：{}\n    标题：{} \n    热度：{}\n    链接：{}\n    ------------\n"""output2 = """平台：{}    榜单类型：{}    最近更新：{}\n------------\n"""num=[]title=[]hot=[]href=[]soup = BeautifulSoup(html, 'html.parser')con = soup.find('div',attrs={'class':'bc-cc'})con_list = con.find_all('div', class_="cc-cd")for i in con_list:  author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字time = i.find('div', class_='i-h').get_text() # 获取最近更新link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接  gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 save_txt(tag,output2.format(author, gender,time))for k in link:href.append(k['href'])num.append(k.find('span', class_='s').get_text())title.append(str(k.find('span', class_='t').get_text()))hot.append(str(k.find('span', class_='e').get_text()))for h in range(len(num)): save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))def save_txt(tag,*args):for i in args:with open(tag+'.txt', 'a', encoding='utf-8') as f:f.write(i)def main():#      综合   科技   娱乐    社区        购物      财经page=['news','tech','ent','community','shopping','finance']for tag in page:url = 'https://tophub.today/c/{}'.format(tag)html = download_page(url)get_content(html,tag)if __name__ == '__main__':main()

python爬取今日热榜数据到txt文件相关推荐

python从txt拿取数据_python爬虫今日热榜数据到txt文件的源码
免费资源网 - https://freexyz.cn/ 今日热榜:https://tophub.today/ 爬取数据及保存格式: 爬取后保存为.txt文件: 部分内容: 源码及注释: import ...
python爬取微博热搜数据并保存！
主要用到requests和bf4两个库将获得的信息保存在d://hotsearch.txt下importrequests;importbs4mylist=[]r=requests.get(ur- 很多 ...
GoLang爬取今日热榜
初学GO,边百度边瞎写,代码只爬取了IT相关的热榜. 热榜地址:https://tophub.today/c/developer 已经部署在个人服务器上,用php写了一个简单的接口. 接口地址:www ...
【爬虫实战】Python 爬取起点热榜，再也不怕没有小说看了！
最近看完一部小说<大奉打更人>,看得我热血沸腾.但是看完后,有选择困难症的我又不知道可以看什么了. 于是,我打算开发一个爬虫,爬取起点热榜. 一.导入所需库我们使用 requests 来 ...
Python爬取微博热搜数据之炫酷可视化
可视化展示看完记得点个赞哟微博炫酷可视化音乐组合版来了! 项目介绍背景现阶段,微博.抖音.快手.哗哩哗哩.微信公众号已经成为不少年轻人必备的"生活神器".在21世纪的今天, ...
用Python爬取微博热搜数据
废话少说,直接上代码,然后再详细介绍构造过程. 代码 import urllib.request import re import pandas as pd import time import ra ...
python爬取今日头条后台数据_Python爬虫实战入门五：获取JS动态内容—爬取今日头条...
之前我们爬取的网页,多是HTML静态生成的内容,直接从HTML源码中就能找到看到的数据和内容,然而并不是所有的网页都是这样的. 有一些网站的内容由前端的JS动态生成,由于呈现在网页上的内容是由JS生成 ...
python爬取今日头条后台数据_爬虫爬取今日头条数据代码实现
课程链接讲师的公众号文章:今日头条数据抓取及持久化(完整代码版,含IP和用户代理)mp.weixin.qq.com 课程代码抓取并持久化user-agent工具utils.py 对于爬虫工具,需 ...
python 爬取HTML内容并保存到txt文件内
# @UpdateTime : 2020-12-08 16:53 # @Author : wz # @File : Get_WebDetails # @Software: PyCharm # @use ...

python爬取今日热榜数据到txt文件

今日热榜：https://tophub.today/

爬取数据及保存格式：

爬取后保存为.txt文件：

部分内容：

源码及注释：

python爬取今日热榜数据到txt文件相关推荐

最新文章

热门文章