python中heading_python如何抓取几个csv的heading并存在excel里?

需求：网上下载的csv文件，包含的几十万的数据，想要根据MMSI的值分为不同的csv文件

主要步骤：

read_csv：读取存放所有数据的csv文件

drop_duplicates：去掉重复的数据(默认为所有特征值匹配才相同)

groupby：按照MMSI特征值进行分组

对分组后的数据逐行进行写入

遇到的主要问题：

分组后的每一组数据，如何写入不同的csv文件中。解决使用的是to_csv

写入文件后，发现每隔一行写一行数据，将模式改为“ab+”即mode=“ab+”

若是多次写入一个文件，会重复，因此每次写入前，若是文件中存在数据，进行清空

下面是代码：

#将存放轨迹数据的excel文件按照，船的编号拆分为多个

defbreak_excel_MMSI():

x_head_key=['MMSI','BaseDateTime','LAT','LON','SOG','COG','Heading','VesselName','IMO','CallSign',

'VesselType','Status','Length','Width','Draft','Cargo']

csv_file='F:\\myPythonProject\\boatJsonData\\AIS_2016_12_Zone06\\AIS_ASCII_by_UTM_Month\\2016\\AIS_2016_12_Zone06.csv'

df=pd.read_csv(csv_file,header=0)

df.columns=x_head_key

#去掉重复数据

ind_frame=df.drop_duplicates(keep='first')

#对数据进行分组处理

grouped=df.groupby(x_head_key[0])#accordingdifferentcategoriestogroupbythedf

file='F:\\myPythonProject\\boatJsonData\\AIS_2016_12_Zone06\\AIS_ASCII_by_UTM_Month\\2016\\track_by_mmic\\'

forvalue,groupingrouped:

filename=file+str(value)+'.csv'

try:

f=open(filename,'w')

iff:

#清空文件内容

f.truncate()

#将新数据写入文件

group.to_csv(filename,header=x_head_key,index=False,mode='ab+')

exceptUnicodeEncodeError:

print("编码错误,该数据无法写到文件中,直接忽略该数据")

python中heading_python如何抓取几个csv的heading并存在excel里?相关推荐

python 抓取网页链接_从Python中的网页抓取链接
python 抓取网页链接 Prerequisite: 先决条件: Urllib3: It is a powerful, sanity-friendly HTTP client for Python ...
Python中使用PhantomJS抓取Javascript网页数据
有些网页不是静态加载的,而是通过javascirpt函数动态加载网页,比如下面这个网页,表格中的看涨合约和看跌合约的数据都是通过javascirpt函数从后台加载.仅仅使用beautifulsoup并 ...
python中模拟浏览器抓取网页（-）
对于平时我们抓取网页的内容时,比较倾向于直接利用urllib进行抓取(这里我就基于python的2.7版本进行解说,对于python3之后的版本,是将python中的urllib和urllib2和并成 ...
python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...
原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...
jupyter分割代码块_科研分享—Python根据关键词自动抓取Pubmed文献标题（附全部代码）文末有福利...
写在前面:接触Python应该是8月初的一篇公众号文章,大致内容是使用py爬取数据库并汇总到本地.正好手头需要对某个领域的文献进行调研,不妨学习一下. 什么是Python? 百度说:Python (计 ...
python中data.find_all爬取网站为空列表_Python网络爬虫之Scrapy 框架-分布式【第二十九节】...
1. 介绍scrapy-redis框架 scrapy-redis 一个三方的基于redis的分布式爬虫框架,配合scrapy使用,让爬虫具有了分布式爬取的功能. github地址: https://g ...
python beautifulsoup抓取网页内容_利用Python和Beautiful Soup抓取网页内容
利用Python和Beautiful Soup抓取网页内容 Posted on 2012-08-09 00:08 SamWei 阅读(381) 评论(1) 编辑收藏 Python 3中提供了url打 ...
python怎么爬虎牙_使用python爬虫框架scrapy抓取虎牙主播数据
前言本文利用python的scrapy框架对虎牙web端的主播.主播订阅数.主播当前观看人数等基本数据进行抓取,并将抓取到的数据以csv格数输出,以及存储到mongodb中思路观察虎牙网站后确认 ...
Python爬虫项目：抓取智联招聘信息
来自https://mp.weixin.qq.com/s/0SzLGqv2p0-IWSN3r8bOHA ''' Python爬虫之五:抓取智联招聘基础版该文件运行后会产生一个代码,保存在这个Pyth ...
Python利用bs4批量抓取网页图片并下载保存至本地
Python利用bs4批量抓取网页图片并下载保存至本地使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...

python中heading_python如何抓取几个csv的heading并存在excel里?

python中heading_python如何抓取几个csv的heading并存在excel里?相关推荐

最新文章

热门文章