目标网站
http://www.tianqihoubao.com/lishi/wanzhou/month/201101.html

表格类数据格式样子

大致网络结构

<table class="..." id="..." ...>...<tbody><tr><td>...</td></tr><tr>...</tr><tr>...</tr><tr>...</tr><tr>...</tr>...<tr>...</tr><tr>...</tr>        </tbody>
</table>
<table></table> 表示整体表格<tr>...</tr>表示一行<td>...</td>表示某一格的数据

代码

从HTML文件读取数据

如上所示,Pandas可以直接用DataFrame生成HTML表格,同样可以读取HTML文件。read_html()函数解析HTML页面,寻找HTML表格。如果找到,就将其转换为可以直接用于数据分析的DataFrame对象。

即使只有一个表格,read_html()函数也会返回一个DataFrame列表

import pandas as pddates=[201901,201902,201903,201904,201905,201906,201907,201908,201909,201910,201911,201912]
print(dates)# 构造出日期序列  便于之后构造urlfor i in range(len(dates)):df = pd.read_html(f'http://www.tianqihoubao.com/lishi/wanzhou/month/{dates[i]}.html', encoding='gbk', header=0)[0]print(df)if i == 0:df.to_csv('2019年万州天气预报数据.csv', mode='a+', index=False)     # mode='a+'追加写入i += 1else:df.to_csv('2019年万州天气预报数据.csv', mode='a+', index=False, header=False)
print('结束')

换一个网站
http://data.eastmoney.com/hsgt/top10.html

import pandas as pd
df = pd.read_html(f'http://data.eastmoney.com/hsgt/top10.html', encoding='gbk')[0]
print(df)

一些复杂网站无法读取。
能读取就读,不能读就尝试爬虫吧

pandas.read_html()读取网页表格类数据相关推荐

  1. python爬虫表格table_Python基于pandas爬取网页表格数据

    以网页表格为例:https://www.kuaidaili.com/free/ 该网站数据存在table标签,直接用requests,需要结合bs4解析正则/xpath/lxml等,没有几行代码是搞不 ...

  2. python读取csv表格的数据并用matplotlib画曲线图

    前言 python读取csv表格的数据并用matplotlib回曲线图 1.导入相关库 import matplotlib.pyplot as plt import pandas as pd impo ...

  3. python 显示表格数据_python显示excel表格数据-怎么用python读取excel表格的数据

    怎么用python读取excel表格的数据 #导入包 import xlrd #设置路径 path='C:\\Users\\jyjh\\Desktop\\datap.xlsx' #打开 data=xl ...

  4. 使用POI读取Excel表格中数据

    使用POI读取Excel表格中数据 已经在 使用POI读取Excel表格中数据2优化.(https://blog.csdn.net/qq_36570464/article/details/107053 ...

  5. 使用Selenium爬取网站表格类数据

    本文转载自一下网站:Python爬虫(5):Selenium 爬取东方财富网股票财务报表 https://www.makcyun.top/web_scraping_withpython5.html 需 ...

  6. matlab数据变成一列数据,matlab读取excel表格列数据-matlab导入excel后,怎么把数据提取成一列?...

    怎么用matlab读取excel表格中的一列十六进制数据? x=xlsread('oillack.xls','sheet1','a1:a73') excel文件名是oillack.xls,sheet1 ...

  7. 基于Python读取Excel表格文件数据并转换为字典dict格式

      有时我们需要将一个Excel表格文件中的全部或一部分数据导入到Python并转换为字典格式,如何实现呢?   我们以如下所示的一个表格(.xlsx格式)作为简单的示例.其中,表格共有两列,第一列为 ...

  8. 关于在python中如何使用pandas库读取excel表格后 删除含有空值的列

    在使用pandas读入相关的excel后,若是表格中有空值的列,要如何清洗呢 在查阅了网上的相关的资料后,得到了办法 pandas.dropna(axis=1,how='any') axis=0指行, ...

  9. pandas读取EXCEL表格/数据库数据及其格式转换(待丰富)

    import pandas as pd import numpy as np import pymysql #导入库 def data_compare(table1, table):tb2_lack ...

最新文章

  1. 搜索引擎的两大问题(1) - 召回
  2. Ubuntu安装google拼音输入法
  3. java中向JTextArea中添加滚动条(垂直的和水平的)
  4. 好难啊……一个 try-catch 问出这么多花样
  5. 论 js中:(class、id)出乎意料的优先级?- 案例篇
  6. 12如何隐藏dock栏_ iOS 13 隐藏 Dock栏,一张神奇壁纸就可以
  7. 一,数据库基础,MySQL安装,配置文件,语法
  8. 邮件协议POP3/IMAP/SMTP服务的区别
  9. 动态修改App.Config 和web.Config
  10. [C/C++11语法]_[0基础]_[lamba 表达式介绍]
  11. word文本框文字垂直居中_如何在Microsoft Word中的页面上垂直居中放置文本
  12. html中怎么设置字体形状,html如何设置字体样式 HTML里怎么设置字体大小?
  13. 是指可以显示网页服务器或者文件,浏览器是指可以显示网页服务器或者文件系统的HTML文件(标准通用标记语言的一个应用)内容,并让用户与这些文件交互的一种软件。...
  14. word如何删除页脚页眉?
  15. 聚合支付的清算风险有哪些?
  16. 什么是低代码平台 low-code?
  17. RFID资产管理|超高频RFID技术在医院资产管理项目中的应用-铨顺宏
  18. android 背景毛玻璃模糊化效果实现方法
  19. 大豆SNP位点查找V2.0
  20. 蓝桥杯--输出既是回文又是质数的数

热门文章

  1. easyui有没有html编辑器,【easyui】kindeditor富文本(html编辑器)的使用
  2. Spring原始注解开发-02
  3. 使用R语言绘制层次聚类热图
  4. vuepress 2.x 集成百度统计
  5. 《数据库系统实训》实验报告——子查询与组合查询
  6. C#——《C#语言程序设计》实验报告——综合练习——委托、Lambda表达式、LINQ、接口
  7. Microtransactions
  8. 暴走英雄坛html5游戏在线玩,暴走英雄坛h5
  9. java web如何配置ask_Javaweb新手之路之JavaWeb开发环境配置篇
  10. VUE内置组件 vue使用插槽分发内容 组件缓存 实现动画的过渡效果