使用pandas清洗携程旅游数据
1、导入模块
from pandas import DataFrame,Series
import pandas as pd
import numpy as np
from fuzzywuzzy import process
from fuzzywuzzy import fuzz
2、读取数据
data=pd.read_csv('携程旅游数据.csv',header=None,names=['信息简介','旅游方式','出发地点','供应商','公司','评分','出游人数','点评','价格','标签'])
data
3、查看数据
发现出游人数中数据少了
data.info()
4、删除无用字段
#删除无用字段
data=data.drop(['旅游方式','出发地点'],axis=1)
data
5、去除重复项,删除空行,重置索引
data.drop_duplicates(inplace=True) #在原有的基础上去除重复项
data=data.dropna(axis=0,how='any') #删除全部含有空的行
data=data.reset_index(drop=True) #重置索引
data.info()
6、清洗信息简介字段
data['条件']=data['信息简介'].apply(lambda x:x.split('·')[0]) #以·为分割线提取条件
data['地点']=data['条件'].str.extract(('(.*?)\d+.*?')).astype('str')
data['地点']=data['地点'].apply(lambda x:x.split('+'))
data['游玩时间']=data['条件'].str.extract(('.*?(\d+日\d+晚).*?'))
data['出游方式']=data['条件'].apply(lambda x:x[-3:])
data
7、清洗供应商字段
#供应商字段处理,冒号是中文的
data['供应商']=data['供应商'].apply(lambda x:x.split(':')[1])
# df['评分'].value_counts() ##第一步分组查找脏数据 未发现
data['评分']=data['评分'].apply(lambda x:x.split('分')[0]).astype('float')
8、清洗出游字段
def replace_d(x):result=[]for i in x:b=i.split('万')if b[-1]=='':result.append(float(b[0])*10000)else:result.append(b[0])return result
data['出游人数']=data['出游人数'].apply(lambda x: '累计0人出游' if '分' in x else x)
# for i in df['出游人数'].value_counts().index: ##查找脏数据 找到评分在本列
# print(i)
data['出游人数']=data['出游人数'].str.extract(('(\d+.\d+万|\d+)')).astype('str')
data['出游人数']=replace_d(data['出游人数'])
data['出游人数']=data['出游人数'].astype('int')
9、处理点评和价格字段
data['点评']=data['点评'].apply(lambda x:x.split('条点评')[0]).apply(int)
data['价格']=data['价格'].str.replace('实时计价','0') #调用 取消实时计价 替换乘平均值
data['价格']=data['价格'].str.extract(('¥(\d+)')).astype('float')
data['价格']=data['价格'].fillna(data['价格'].mean()) #替换NaN 为平均值
data
10、处理标签中的数据
data['标签']=data['标签'].apply(eval)
data
11、填充游玩时间中的空值
#处理空值 填充前一个值
data['游玩时间']=data['游玩时间'].fillna(method='ffill')
data
12、删除信息简介和条件字段
data=data.drop(['信息简介','条件'],axis=1)
13、删除大有Nan的全部行,并重置索引
data=data.dropna(axis=0,how='any') #删除全部含有NaN的行
data.reset_index(drop=True) #重置索引
使用pandas清洗携程旅游数据相关推荐
- 爬取携程和蚂蜂窝的景点评论数据\携程评论数据爬取\旅游网站数据爬取
本人长期出售超大量微博数据.旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com.同时欢迎加入社交媒体数据交流群:99918768 前言 ...
- python 携程_python爬取携程和蚂蜂窝的景点评论数据\python爬取携程评论数据\python旅游网站评论数...
本人长期出售超大量微博数据.旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com.同时欢迎加入社交媒体数据交流群:99918768 前言 为 ...
- python爬携程上出境游数据_python爬取携程旅游评价信息词云图分析
python爬取携程旅游评价信息词云图分析 前言 前面咱们已经分析过如何爬取携程旅游的相关信息,如果没有看过的,可以先跳转看一下前面的那篇博客:python 爬虫 一键爬取携程旅游团数据 这一篇呢,咱 ...
- 大数据信息资料采集:携程旅游周边自驾自由行攻略产品信息采集
大数据信息资料采集:携程旅游周边自驾自由行攻略产品信息采集 数据采集满足多种业务场景:适合产品.运营.销售.数据分析.政府机关.电商从业者.学术研究等多种身份职业. 舆情监控:全方位监测公开信息,抢先 ...
- python 爬取携程旅游景点评论
python爬取携程旅游景点评论 爬取网址:https://you.ctrip.com/ 爬取评论全部代码 import requests import json import re import t ...
- python爬取携程旅游评价信息词云图分析
python爬取携程旅游评价信息词云图分析 前言 前面咱们已经分析过如何爬取携程旅游的相关信息,如果没有看过的,可以先跳转看一下前面的那篇博客:python 爬虫 一键爬取携程旅游团数据 这一篇呢,咱 ...
- 干货 | 数据治理落地难?携程度假数据治理需求设计实践
作者简介 Leon Gu,携程数据仓库专家,负责度假数据中台和数据仓库等工作,专注于大数据.数据仓库.数据治理等领域. 一.前言 携程度假包含跟团游.自由行.玩乐.门票.用车等十多条业务线,业务涵盖线 ...
- Webmagic 爬虫框架 爬取马蜂窝、携程旅游、汽车之家游记信息
WebMagic学习 遇到的问题 Log4j错误 解决:在src目录下添加配置文件 log4j.properties log4j.rootLogger=INFO, stdout, filelog4j. ...
- [转]携程大数据实践:高并发应用架构及推荐系统案例
本文来自携程技术中心基础业务研发部的<应用架构涅槃>系列分享.据基础业务研发部负责人李小林介绍,互联网二次革命的移动互联网时代,如何吸引用户.留住用户并深入挖掘用户价值,在激烈的竞争中脱颖 ...
最新文章
- Mobileye独创性创新
- 在 mingw32 上编译 libvpx 1.7.0 时的注意事项
- cdrx4被禁用怎么解决_双显卡怎么切换到独立显卡
- 如何动态添加修改删除定时任务
- tomcat+nginx+redis实现均衡负载、session共享(一)
- linux系统学习第一天
- 2021年三月上旬推荐阅读文章
- ASP.NET Framework深度历险(2)
- ArcFace免费人脸识别 Demo [Android]
- 安卓udp发包工具_Sendip 命令行发包工具,支持IP、TCP、UDP等
- Intel i5-7200U (3100MHZ),1*8GB(DDR3 1600) 在 Aida64 V5.97.4600 的测试结果
- 虚拟机VMware安装PhoenixOS(凤凰OS)
- java实现小写金额转换大写金额
- cmd强制删除文件夹
- linux 实现不同网段网络互通
- mysql数据库的安装和使用方法_Mysql数据库的安装和使用
- 大疆自动驾驶,首次官宣即交货
- Android 名词解释
- java重命名_java实现文件重命名的方法
- 游戏开发41课 unity 目录分析
热门文章
- win10——microsoft同步用户主题桌面背景的本地位置、默认背景位置、双屏双背景图设置
- 在Silverlight 2 beta1中使用IronPython等动态语言
- 佐治亚大学计算机博士,美国佐治亚大学,光电专业,全奖博士招生
- 用python制作英文字典的分析_分享一个自己做的英文科学写作检查器
- Android 小米应用角标
- win配置pm2开机自启node项目
- Qt获取图片色值(提供源码)
- matlab win7兼容,MatLab7.0和win7兼容
- eclipse快捷键(增加一些4连组合快捷键)
- 农历php,PHP阴历转农历的实现代码