本文禁止转载到任何地方!

1. 背景介绍

文中数据,关注公众号:数据分析与统计学之美,后台回复:500,领取数据。

前不久,朋友发给我两张图片,图片中是表格形式的数据,包含了最新中国上市公司市值500强的那些公司。

目的: 想要让我提取图片中的表格数据。

于是,我就借着这些数据,有感而发,写了这篇文章。

想要分析这些数据,首先就要想到如何获取到图片中的这些数据。当然我这里,借用的是百度的表格识别api

然而,这里又出现了一个问题,虽然是500行数据,但是就两张图片,每一张就超级大,无法识别。于是,考虑在识别图片表格数据之前,先对图片进行切分。

整个获取图片表格数据的思路就是这样,咱们直接上代码吧!

图片切分

下面切分算法,以每张图860像素为基准进行切分,不是开头的,图片上面补25个像素,保证每个单元格都完整出现在每张图片里。切割效果演示:

import math
from PIL import Imageimg = Image.open("500强.png")
w, h = img.sizeheight = 860
r = math.ceil(h/height)
img_splits = []
for i in range(r):start = height * iend = height * (i + 1)if end > h:end = hif i != 0:start -= 25box = (0, start, w, end)img_split = img.crop(box)print(i)display(img_split)img_splits.append(img_split)

结果如下:

图片表格数据识别

表格文字识别百度api:
https://ai.baidu.com/tech/ocr_others/table

最主要就是: 注册百度AI账号,创建应用后在应用列表里获取ak和sk。

在获取到ak和sk,我们测试一下,看看识别效果。

import pandas as pd
request_url = f"https://aip.baidubce.com/rest/2.0/solution/v1/form_ocr/request?access_token={access_token}"
headers = {'content-type': 'application/x-www-form-urlencoded'}base64_str = image_to_base64(img_splits[0])
params = {"image": base64_str, "is_sync": "true", "request_type": "excel"}
json_data = requests.post(request_url, data=params, headers=headers).json()
df = pd.read_excel(excel_url, header=None)
df

结果如下:

上面只是其中一张图片,接下来我们对所有图片分别进行识别,然后做一个数据拼接,即可得到最终的数据。

2. 数据分析

7月1日,万得2021上半年中国上市企业市值 500 强榜单正式公开发布,统计时间截止2021年6月30日。

接下来,我们读取上述获取到了数据,进行数据分析。

读取到的数据源,大致如下:

基本信息统计

本次编制的500强,入围门槛为市值492亿元 (公司简称"知乎"),市值最大的为46626亿元 (公司简称"腾讯控股"),500强上市公司总市值约98.78万亿。

万亿市值公司都在哪些?

我们分别对总市值大于10000的公司,做个统计:


从结果中可以看到,在500强榜单中,有13家万亿市值公司。

接下来,我们分别筛选出这13家万亿市值公司。

根据榜单数据显示: 这13家万亿市值公司,分别是腾讯控股、阿里、台积电、贵州茅台、工商银行、美团、招商银行、建设银行、宁德时代、中国平安、五粮液、农业银行、拼多多。

我们又分别按照地域分组,发现在这13家万亿市值公司中,北京有4家(工行、美团、建行、农行),广东(深圳)有3家(腾讯、招行、中国平安),上海1家(拼多多),浙江1家(阿里),台湾1家(台积电),贵州1家(茅台),福建1家(宁德时代),四川1家(五粮液)。


宁德时代是指宁德时代新能源科技股份有限公司,这是一个位于三四线城市的小企业。宁德时代创办于2011年,凭借新能源汽车热潮,仅用六年的时间就坐上全球新能源电池第一供应商的“龙头椅”。

千亿市值公司都在哪些?

我们分别对总市值大于1000的公司,做个统计:

从结果中可以看到,在500强榜单中,有254家千亿市值公司。

接下来,我们分别筛选出这254家万亿市值公司。

我们分别按照地域分组,发现在这254家千亿市值公司中,北京59家、广东40家、香港27家,上海25家、深圳24家、台湾19家…

注明: 这里无法一次性显示完整,我为大家导出了Excel,需要的朋友,可以私信我。

中国上市公司500强地图

观察下方地图,可以发现北京、广东、上海、香港、台湾、浙江的上市公司较多,而有些城市,像黑龙江、甘肃、青海、西藏、广西、海南没有一个上市公司。


我们现在来看看具体的数据:

中国上市公司500强行业词云图

我们按照行业分组,分别对行业数据做一个词云图统计,发现电子、医药生物、信息技术、房地产、银行、汽车、证券经纪等行业较多。

我们来看一个具体的数据:

最新中国上市公司市值500强,都分布在哪里?相关推荐

  1. 2020最新中国上市公司市值500强:阿里、腾讯领跑,百度掉出前20,附全榜单

    随着2019年结束,中国上市公司市值500强榜单也已经出炉. 2019总体收获颇丰 据21数据新闻实验室统计,截至2020年1月1日,中国上市公司共计7343家,相比2019年初新增382家(退市企业 ...

  2. 2020最新中国上市公司市值500强:阿里腾讯领跑,百度掉出前20!

    随着2019年结束,中国上市公司市值500强榜单也已经出炉. 2019总体收获颇丰 据21数据新闻实验室统计,截至2020年1月1日,中国上市公司共计7343家,相比2019年初新增382家(退市企业 ...

  3. [揭榜] 2017年中国上市公司市值500强榜单

    2017年股市在12月29日收官,在全球各地上市的中国公司总市值排名最终确定.今年香港恒生指数.美国纳斯达克指数均取得不俗收益表现,A股市场蓝筹白马企业同样迎来价值攀升,这也使中国上市公司的整体规模显 ...

  4. 中国最新上市公司市值500强,都分布在哪里?

    公众号后台回复"图书",了解更多号主新书内容作者:小小明.黄伟呢来源:数据分析与统计学之美 1. 背景介绍 大家好,我是黄同学! 看完本文,你将可以了解到以下知识. 前不久,朋友发 ...

  5. 2022年度中国市值500强

    截至2022年12月31日,在上海.深圳.北京.香港.纽约等全球16个主要交易所上市的中国上市公司共计8654家(剔除已退市公司),相比前一年增加378家.总市值122.66万亿元(人民币,下同),相 ...

  6. 一组数据读懂“2021中国民营企业500强”

    9月25日,发布了中国民营企业500强的榜单,对比2020年,这届能力显著增强.那么在这份榜单的背后,还透露出了什么样的信息呢?还有什么地方值得我们去关注呢?今天我们通过数据可视化去对这个榜单进行探讨 ...

  7. 2011中国民营企业500强名单,广东仅13家江浙310家

    全国工商联今天在北京召开2011中国民营企业500强发布会,发布2011中国民营企业500强(查看详细榜单).2011中国民营企业制造业500强名单以及2011中国民营企业500强分析报告.报告显示, ...

  8. 2011年中国民营企业500强名单,广东仅13家浙江180家江苏130家

    全国工商联今天在北京召开2011中国民营企业500强发布会,发布2011中国民营企业500强(查看详细榜单).2011中国民营企业制造业500强名单以及2011中国民营企业500强分析报告.报告显示, ...

  9. 胡润研究院发布的中国民营企业500强榜单,腾讯第一

    胡润研究院发布的中国民营企业500强榜单里,排名前三的企业分别是腾讯控股.阿里巴巴和美团公司:虽然说2020年由于受到疫情的影响,很多科技企业的发展都受到了一定的影响,但唯独腾讯公司是一个例外.

最新文章

  1. consul安装配置使用
  2. AI一分钟 | 特朗普以国家安全为由否决博通收购高通;阿里发起时尚AI算法大赛
  3. python输入语句-1、python基本的元素及输出语句
  4. 深入详解JVM内存模型与JVM参数详细配置
  5. 清华大学计算机系主任应明生,清华大学计算机科学与技术系导师简介:应明生...
  6. 拦截Windows消息
  7. break continue区别和用法_因为不知道break和contiue的核心区别,他在初试就被刷了下来...
  8. nullnullUVa 10066 - The Twin Towers(LCS水题)
  9. 强烈推荐深入浅出jBPM
  10. Git 操作实战示例
  11. FPGA的学习历程-入门篇
  12. Automation服务器不能创建对象--Excel.application
  13. 【多图长文】古希腊式、巴洛克式、哥特式.....图说西方建筑简史
  14. html5 模板 知乎,Discuz贴吧知乎超级v2ex UTF(x520_v2ex)_Discuz模板_Discuz应用中心
  15. python增加一列数据_使用Python向DataFrame中指定位置添加一列或多列的方法
  16. [C++]判断齐次坐标系中三点是否共线(三个向量是否共面)
  17. <OS Concepts> 1- Intro
  18. 《 Python程序设计项目案例》— 用Python开发的基于TCP通讯协议的私人聊天室 (期末大作业、结课作业、课程设计、毕业设计)
  19. Android-移动支付 支付宝 微信 银联
  20. tcl电视android无响应,应用不足:Android智能电视陷入困境

热门文章

  1. 八猴渲染器是什么?它能干什么?八猴软件的界面讲解
  2. 使用tushare抓取股票日线数据包
  3. C++课程设计——健身俱乐部管理
  4. 04、pytest跳过测试用例
  5. linux apache配置工作牡蛎,高山linux docker上的apache-spark启动错误
  6. 人类vs计算机的游戏,《星际争霸2》人类VS电脑的5分钟碉堡快攻法(疯狂难度)...
  7. 推荐有关微信开发的十个开源项目
  8. 自学 R 语言的十条干货技巧分享
  9. 网易邮箱大师 代收/发 Gmail 邮件教程
  10. K8S使用NFS动态存储(csi-nfs-driver)