需求:网上下载的csv文件,包含的几十万的数据,想要根据MMSI的值分为不同的csv文件

主要步骤:

read_csv:读取存放所有数据的csv文件

drop_duplicates:去掉重复的数据(默认为所有特征值匹配才相同)

groupby:按照MMSI特征值进行分组

对分组后的数据逐行进行写入

遇到的主要问题:

分组后的每一组数据,如何写入不同的csv文件中。解决使用的是to_csv

写入文件后,发现每隔一行写一行数据,将模式改为“ab+”即mode=“ab+”

若是多次写入一个文件,会重复,因此每次写入前,若是文件中存在数据,进行清空

下面是代码:

#将存放轨迹数据的excel文件按照,船的编号拆分为多个

defbreak_excel_MMSI():

x_head_key=['MMSI','BaseDateTime','LAT','LON','SOG','COG','Heading','VesselName','IMO','CallSign',

'VesselType','Status','Length','Width','Draft','Cargo']

csv_file='F:\\myPythonProject\\boatJsonData\\AIS_2016_12_Zone06\\AIS_ASCII_by_UTM_Month\\2016\\AIS_2016_12_Zone06.csv'

df=pd.read_csv(csv_file,header=0)

df.columns=x_head_key

#去掉重复数据

ind_frame=df.drop_duplicates(keep='first')

#对数据进行分组处理

grouped=df.groupby(x_head_key[0])#accordingdifferentcategoriestogroupbythedf

file='F:\\myPythonProject\\boatJsonData\\AIS_2016_12_Zone06\\AIS_ASCII_by_UTM_Month\\2016\\track_by_mmic\\'

forvalue,groupingrouped:

filename=file+str(value)+'.csv'

try:

f=open(filename,'w')

iff:

#清空文件内容

f.truncate()

#将新数据写入文件

group.to_csv(filename,header=x_head_key,index=False,mode='ab+')

exceptUnicodeEncodeError:

print("编码错误,该数据无法写到文件中,直接忽略该数据")

python中heading_python如何抓取几个csv的heading并存在excel里?相关推荐

  1. python 抓取网页链接_从Python中的网页抓取链接

    python 抓取网页链接 Prerequisite: 先决条件: Urllib3: It is a powerful, sanity-friendly HTTP client for Python ...

  2. Python中使用PhantomJS抓取Javascript网页数据

    有些网页不是静态加载的,而是通过javascirpt函数动态加载网页,比如下面这个网页,表格中的看涨合约和看跌合约的数据都是通过javascirpt函数从后台加载.仅仅使用beautifulsoup并 ...

  3. python中模拟浏览器抓取网页(-)

    对于平时我们抓取网页的内容时,比较倾向于直接利用urllib进行抓取(这里我就基于python的2.7版本进行解说,对于python3之后的版本,是将python中的urllib和urllib2和并成 ...

  4. python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...

    原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号 不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...

  5. jupyter分割代码块_科研分享—Python根据关键词自动抓取Pubmed文献标题(附全部代码)文末有福利...

    写在前面:接触Python应该是8月初的一篇公众号文章,大致内容是使用py爬取数据库并汇总到本地.正好手头需要对某个领域的文献进行调研,不妨学习一下. 什么是Python? 百度说:Python (计 ...

  6. python中data.find_all爬取网站为空列表_Python网络爬虫之Scrapy 框架-分布式【第二十九节】...

    1. 介绍scrapy-redis框架 scrapy-redis 一个三方的基于redis的分布式爬虫框架,配合scrapy使用,让爬虫具有了分布式爬取的功能. github地址: https://g ...

  7. python beautifulsoup抓取网页内容_利用Python和Beautiful Soup抓取网页内容

    利用Python和Beautiful Soup抓取网页内容 Posted on 2012-08-09 00:08 SamWei 阅读(381) 评论(1) 编辑 收藏 Python 3中提供了url打 ...

  8. python怎么爬虎牙_使用python爬虫框架scrapy抓取虎牙主播数据

    前言 本文利用python的scrapy框架对虎牙web端的主播.主播订阅数.主播当前观看人数等基本数据进行抓取,并将抓取到的数据以csv格数输出,以及存储到mongodb中 思路 观察虎牙网站后确认 ...

  9. Python爬虫项目:抓取智联招聘信息

    来自https://mp.weixin.qq.com/s/0SzLGqv2p0-IWSN3r8bOHA ''' Python爬虫之五:抓取智联招聘基础版 该文件运行后会产生一个代码,保存在这个Pyth ...

  10. Python利用bs4批量抓取网页图片并下载保存至本地

    Python利用bs4批量抓取网页图片并下载保存至本地 使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...

最新文章

  1. 【ACM】CODE[VS] 2806(DFS)
  2. mysql平台workb_MySQL 总结
  3. (二)网络安全概论之云安全
  4. mysql-5.6.17-win32的安装?
  5. win7 找不到 计算机策略组,win7打开组策略报错:找不到资源string.Advanced_EnableSSL3Fallback...
  6. vs2008C1902数据库管理程序不匹配
  7. java 基础 泛型
  8. 如何使用Java将字符串保存到文本文件?
  9. 像A + B一样容易
  10. PowerBuilder 五子棋
  11. Adams— 系统级多体动力学仿真平台
  12. 高级售前客户服务专员题库
  13. LM2596电路中,肖特基二极管得作用!
  14. java怪兽仙境攻略_《怪兽仙境》v1.20基础攻略
  15. html table最小宽度,table宽度比tbody多1
  16. 网吧服务器系统是怎么弄的,网吧无盘服务器系统的安装及设置
  17. 这几个群,程序员可千万不要进!
  18. [Inside HotSpot] C1编译器HIR的构造
  19. 每日学术速递1.29
  20. QT-事件机制学习笔记

热门文章

  1. 计算机dll修复工具,DLL修复工具哪个好?五款修复能力强推荐
  2. 计算机专用英语1500词带音标,计算机专用英语词汇1500词音标版.pdf
  3. matlab:输出矢量图的简便方法
  4. 手把手教你搞懂麦克风的技术指标
  5. 经典.net混淆器 Confuser EX 2.0 使用介绍及配置 2022
  6. 路边停车系统充电方案
  7. hadoop FileSplit
  8. 【毕业设计全篇论文和源码】基于SSM的实体商城商户在线租赁以及信息管理系统的设计与实现(多人在线聊天室,微信扫码支付,在线签字,PDF合同在线生成,商户评分)
  9. JAVA实现对PDF文件加密、解密、暴力破解密码功能
  10. VBS写出有趣的整人代码