python从txt拿取数据_python爬虫今日热榜数据到txt文件的源码

免费资源网 - https://freexyz.cn/

今日热榜：https://tophub.today/

爬取数据及保存格式：

爬取后保存为.txt文件：

部分内容：

源码及注释：

import requests

from bs4 import BeautifulSoup

def download_page(url):

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

try:

r = requests.get(url,timeout = 30,headers=headers)

return r.text

except:

return "please inspect your url or setup"

def get_content(html,tag):

output = """ 排名：{}\n 标题：{} \n 热度：{}\n 链接：{}\n ------------\n"""

output2 = """平台：{} 榜单类型：{} 最近更新：{}\n------------\n"""

num=[]

title=[]

hot=[]

href=[]

soup = BeautifulSoup(html, 'html.parser')

con = soup.find('div',attrs={'class':'bc-cc'})

con_list = con.find_all('div', class_="cc-cd")

for i in con_list:

author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字

time = i.find('div', class_='i-h').get_text() # 获取最近更新

link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接

gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型

save_txt(tag,output2.format(author, gender,time))

for k in link:

href.append(k['href'])

num.append(k.find('span', class_='s').get_text())

title.append(str(k.find('span', class_='t').get_text()))

hot.append(str(k.find('span', class_='e').get_text()))

for h in range(len(num)):

save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))

def save_txt(tag,*args):

for i in args:

with open(tag+'.txt', 'a', encoding='utf-8') as f:

f.write(i)

def main():

# 综合科技娱乐社区购物财经

page=['news','tech','ent','community','shopping','finance']

for tag in page:

url = 'https://tophub.today/c/{}'.format(tag)

html = download_page(url)

get_content(html,tag)

if __name__ == '__main__':

main()

免费资源网 - https://freexyz.cn/

python从txt拿取数据_python爬虫今日热榜数据到txt文件的源码相关推荐

python爬取今日热榜数据到txt文件
今日热榜:https://tophub.today/ 爬取数据及保存格式: 爬取后保存为.txt文件: 部分内容: 源码及注释: import requests from bs4 import Bea ...
python爬虫抓取分页_Python爬虫—简书首页数据抓取
简书本该昨天完成的文章,拖了一天.可能是没休息好吧,昨天的在思路以及代码处理上存在很多问题,废话不多说,我们一起来看一下简书首页数据的抓取. 抓取的信息 2.2)简书首页文章信息 http://ww ...
python如何爬虫股票数据_python爬虫实例，股票数据定向爬虫
前言我服了,这几天,怎么涨两天还不够跌一次,害.希望这个可以帮到自己! "股票数据定向爬虫"实例介绍功能描述目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件 ...
python二手交易平台代码_PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)...
说明文章首发于HURUWO的博客小站,本平台做同步备份发布. 如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览. 原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二 ...
python程序员爬取分析20万场吃鸡数据，带妹吃鸡，终成人生赢家
首先,神枪镇楼 python程序员爬取分析20万场吃鸡数据,带妹吃鸡,终成人生赢家吃鸡,撩妹神器吃鸡游戏受到很多年轻人的喜爱,用户量也非常大.有很多地图,场景逼真,技术玩法,增加了游戏可玩性.而且 ...
YYDatav的数据可视化大屏《精彩案例汇总》（PythonEcharts源码）
一. 资源下载 [1-10]套Python+Echarts数据可视化大屏案例(共10套)-企业管理文档类资源-CSDN下载第1篇https://yydatav.blog.csdn.net/articl ...
使用Cython库包对python的py文件（源码）进行加密，把python的.py文件生成.so文件并调用
文章目录: 1 准备环境 2 调用`Cython库包`把python的`.py`文件生成`.so`文件 2.1 写源码文件 2.2 调用源码接口 2.3 调用Cython库把`.py`源码生成`.so ...
divcss布局模板代码_(带手机版数据同步)房产门户企业织梦模板房地产楼盘网站源码下载...
模板名称:(带手机版数据同步)房产门户企业织梦模板房地产楼盘网站源码下载本套织梦模板采用织梦最新内核开发的模板,这款模板使用范围广,不仅仅局限于一类型的企业,房产门户.房地产楼盘类的网站都可以用该 ...
Python GUI制作实例 wxPython使用多线程防假死含wxFormBuilder的文件及源码
wxFormBuilder使用的教程较少,网上的文件源码也少. 最近使用 python 写了一个GUI,可以打开设置文件,并对xlsx文件进行处理,可以将部分信息输出到gui界面,像print输出到c ...

python从txt拿取数据_python爬虫今日热榜数据到txt文件的源码

python从txt拿取数据_python爬虫今日热榜数据到txt文件的源码相关推荐

最新文章

热门文章