今日热榜:https://tophub.today/

爬取数据及保存格式:

爬取后保存为.txt文件:

部分内容:


源码及注释:

import requests
from bs4 import BeautifulSoupdef download_page(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}try:r = requests.get(url,timeout = 30,headers=headers)return r.textexcept:return "please inspect your url or setup"def get_content(html,tag):output = """    排名:{}\n    标题:{} \n    热度:{}\n    链接:{}\n    ------------\n"""output2 = """平台:{}    榜单类型:{}    最近更新:{}\n------------\n"""num=[]title=[]hot=[]href=[]soup = BeautifulSoup(html, 'html.parser')con = soup.find('div',attrs={'class':'bc-cc'})con_list = con.find_all('div', class_="cc-cd")for i in con_list:  author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字time = i.find('div', class_='i-h').get_text() # 获取最近更新link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接  gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 save_txt(tag,output2.format(author, gender,time))for k in link:href.append(k['href'])num.append(k.find('span', class_='s').get_text())title.append(str(k.find('span', class_='t').get_text()))hot.append(str(k.find('span', class_='e').get_text()))for h in range(len(num)): save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))def save_txt(tag,*args):for i in args:with open(tag+'.txt', 'a', encoding='utf-8') as f:f.write(i)def main():#      综合   科技   娱乐    社区        购物      财经page=['news','tech','ent','community','shopping','finance']for tag in page:url = 'https://tophub.today/c/{}'.format(tag)html = download_page(url)get_content(html,tag)if __name__ == '__main__':main()

python爬取今日热榜数据到txt文件相关推荐

  1. python从txt拿取数据_python爬虫今日热榜数据到txt文件的源码

    免费资源网 - https://freexyz.cn/ 今日热榜:https://tophub.today/ 爬取数据及保存格式: 爬取后保存为.txt文件: 部分内容: 源码及注释: import ...

  2. python爬取微博热搜数据并保存!

    主要用到requests和bf4两个库将获得的信息保存在d://hotsearch.txt下importrequests;importbs4mylist=[]r=requests.get(ur- 很多 ...

  3. GoLang爬取今日热榜

    初学GO,边百度边瞎写,代码只爬取了IT相关的热榜. 热榜地址:https://tophub.today/c/developer 已经部署在个人服务器上,用php写了一个简单的接口. 接口地址:www ...

  4. 【爬虫实战】Python 爬取起点热榜,再也不怕没有小说看了!

    最近看完一部小说<大奉打更人>,看得我热血沸腾.但是看完后,有选择困难症的我又不知道可以看什么了. 于是,我打算开发一个爬虫,爬取起点热榜. 一.导入所需库 我们使用 requests 来 ...

  5. Python爬取微博热搜数据之炫酷可视化

    可视化展示 看完记得点个赞哟 微博炫酷可视化音乐组合版来了! 项目介绍 背景 现阶段,微博.抖音.快手.哗哩哗哩.微信公众号已经成为不少年轻人必备的"生活神器".在21世纪的今天, ...

  6. 用Python爬取微博热搜数据

    废话少说,直接上代码,然后再详细介绍构造过程. 代码 import urllib.request import re import pandas as pd import time import ra ...

  7. python爬取今日头条后台数据_Python爬虫实战入门五:获取JS动态内容—爬取今日头条...

    之前我们爬取的网页,多是HTML静态生成的内容,直接从HTML源码中就能找到看到的数据和内容,然而并不是所有的网页都是这样的. 有一些网站的内容由前端的JS动态生成,由于呈现在网页上的内容是由JS生成 ...

  8. python爬取今日头条后台数据_爬虫爬取今日头条数据代码实现

    课程链接 讲师的公众号文章:今日头条数据抓取及持久化(完整代码版,含IP和用户代理)​mp.weixin.qq.com 课程代码 抓取并持久化user-agent工具utils.py 对于爬虫工具,需 ...

  9. python 爬取HTML内容并保存到txt文件内

    # @UpdateTime : 2020-12-08 16:53 # @Author : wz # @File : Get_WebDetails # @Software: PyCharm # @use ...

最新文章

  1. Nand Flash,Nor Flash,BPI Flash,SPI Flash 的区别?
  2. MongoDB复制集(Replication Sets)介绍
  3. 软件工程概论 课堂练习【图书馆系统的类图】
  4. js中的window.onload和jquery中的load区别的讲解
  5. python将列表写入csv_转:Python 将列表数据写入文件(txt, csv, excel)
  6. EL表达式 JSTL(详解)
  7. python win7 sp1_[ Python - 15 ] win7安装paramiko问题总汇
  8. P1038-神经网络【拓扑排序】
  9. 多Kinect下WaitNoneUpdateAll老是报错,烦躁……
  10. 泉州中考分数如何计算机,2019年泉州中考总分多少分,泉州中考考试科目设置
  11. 基于JAVA+SpringMVC+Mybatis+MYSQL的企业人事管理系统
  12. (转)对D3DXVec3Project 和D3DXVec3UnProject的认识
  13. 用友超客:社交化业务就是要化繁为简
  14. 链路负载需求及基本原理
  15. Terminate Instance 操作详解 - 每天5分钟玩转 OpenStack(33)
  16. 【Axure组件库】苹果官方SF Symbols 3图标库_每个图标均有2-8种风格
  17. python调用java之Jpype异常机制
  18. java qq验证_用Java代码来校验QQ号
  19. Open Explorer Plugin for Eclipse (eclipse 插件 在ecli
  20. 2022年京东618红包开抢时间介绍和怎么抢红包攻略

热门文章

  1. AI2XAML's Bug
  2. Python3 configparser值为多行时配置文件书写格式
  3. 翻译 - 元编程动态方法之public_send
  4. jQuery UI dialog实现dialog弹框显示
  5. 从天天爱消除和节奏大师的用户对于论坛形式的分析
  6. 如何优化js代码(2)——for循环
  7. OpenAI Gym 是一个优秀开发和比较强化学习算法的工具
  8. 首次安装pytorch--实测可用
  9. 解决github网站打开慢的问题
  10. 如何给CSDN上的每篇原创文章添加版权声明