1、导入模块

from pandas import DataFrame,Series
import pandas as pd
import numpy as np
from fuzzywuzzy import process
from fuzzywuzzy import fuzz

2、读取数据

data=pd.read_csv('携程旅游数据.csv',header=None,names=['信息简介','旅游方式','出发地点','供应商','公司','评分','出游人数','点评','价格','标签'])
data

3、查看数据

发现出游人数中数据少了

data.info()

4、删除无用字段

#删除无用字段
data=data.drop(['旅游方式','出发地点'],axis=1)
data

5、去除重复项,删除空行,重置索引

data.drop_duplicates(inplace=True) #在原有的基础上去除重复项
data=data.dropna(axis=0,how='any') #删除全部含有空的行
data=data.reset_index(drop=True) #重置索引
data.info()

6、清洗信息简介字段

data['条件']=data['信息简介'].apply(lambda x:x.split('·')[0]) #以·为分割线提取条件
data['地点']=data['条件'].str.extract(('(.*?)\d+.*?')).astype('str')
data['地点']=data['地点'].apply(lambda x:x.split('+'))
data['游玩时间']=data['条件'].str.extract(('.*?(\d+日\d+晚).*?'))
data['出游方式']=data['条件'].apply(lambda x:x[-3:])
data

7、清洗供应商字段

#供应商字段处理,冒号是中文的
data['供应商']=data['供应商'].apply(lambda x:x.split(':')[1])
# df['评分'].value_counts() ##第一步分组查找脏数据 未发现
data['评分']=data['评分'].apply(lambda x:x.split('分')[0]).astype('float')

8、清洗出游字段

def replace_d(x):result=[]for i in x:b=i.split('万')if b[-1]=='':result.append(float(b[0])*10000)else:result.append(b[0])return result
data['出游人数']=data['出游人数'].apply(lambda x: '累计0人出游' if '分' in  x else x)
# for i in df['出游人数'].value_counts().index: ##查找脏数据 找到评分在本列
#     print(i)
data['出游人数']=data['出游人数'].str.extract(('(\d+.\d+万|\d+)')).astype('str')
data['出游人数']=replace_d(data['出游人数'])
data['出游人数']=data['出游人数'].astype('int')

9、处理点评和价格字段

data['点评']=data['点评'].apply(lambda x:x.split('条点评')[0]).apply(int)
data['价格']=data['价格'].str.replace('实时计价','0') #调用 取消实时计价 替换乘平均值
data['价格']=data['价格'].str.extract(('¥(\d+)')).astype('float')
data['价格']=data['价格'].fillna(data['价格'].mean()) #替换NaN 为平均值
data

10、处理标签中的数据

data['标签']=data['标签'].apply(eval)
data

11、填充游玩时间中的空值

#处理空值  填充前一个值
data['游玩时间']=data['游玩时间'].fillna(method='ffill')
data

12、删除信息简介和条件字段

data=data.drop(['信息简介','条件'],axis=1)

13、删除大有Nan的全部行,并重置索引

data=data.dropna(axis=0,how='any') #删除全部含有NaN的行
data.reset_index(drop=True) #重置索引

使用pandas清洗携程旅游数据相关推荐

  1. 爬取携程和蚂蜂窝的景点评论数据\携程评论数据爬取\旅游网站数据爬取

    本人长期出售超大量微博数据.旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com.同时欢迎加入社交媒体数据交流群:99918768 前言   ...

  2. python 携程_python爬取携程和蚂蜂窝的景点评论数据\python爬取携程评论数据\python旅游网站评论数...

    本人长期出售超大量微博数据.旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com.同时欢迎加入社交媒体数据交流群:99918768 前言 为 ...

  3. python爬携程上出境游数据_python爬取携程旅游评价信息词云图分析

    python爬取携程旅游评价信息词云图分析 前言 前面咱们已经分析过如何爬取携程旅游的相关信息,如果没有看过的,可以先跳转看一下前面的那篇博客:python 爬虫 一键爬取携程旅游团数据 这一篇呢,咱 ...

  4. 大数据信息资料采集:携程旅游周边自驾自由行攻略产品信息采集

    大数据信息资料采集:携程旅游周边自驾自由行攻略产品信息采集 数据采集满足多种业务场景:适合产品.运营.销售.数据分析.政府机关.电商从业者.学术研究等多种身份职业. 舆情监控:全方位监测公开信息,抢先 ...

  5. python 爬取携程旅游景点评论

    python爬取携程旅游景点评论 爬取网址:https://you.ctrip.com/ 爬取评论全部代码 import requests import json import re import t ...

  6. python爬取携程旅游评价信息词云图分析

    python爬取携程旅游评价信息词云图分析 前言 前面咱们已经分析过如何爬取携程旅游的相关信息,如果没有看过的,可以先跳转看一下前面的那篇博客:python 爬虫 一键爬取携程旅游团数据 这一篇呢,咱 ...

  7. 干货 | 数据治理落地难?携程度假数据治理需求设计实践

    作者简介 Leon Gu,携程数据仓库专家,负责度假数据中台和数据仓库等工作,专注于大数据.数据仓库.数据治理等领域. 一.前言 携程度假包含跟团游.自由行.玩乐.门票.用车等十多条业务线,业务涵盖线 ...

  8. Webmagic 爬虫框架 爬取马蜂窝、携程旅游、汽车之家游记信息

    WebMagic学习 遇到的问题 Log4j错误 解决:在src目录下添加配置文件 log4j.properties log4j.rootLogger=INFO, stdout, filelog4j. ...

  9. [转]携程大数据实践:高并发应用架构及推荐系统案例

    本文来自携程技术中心基础业务研发部的<应用架构涅槃>系列分享.据基础业务研发部负责人李小林介绍,互联网二次革命的移动互联网时代,如何吸引用户.留住用户并深入挖掘用户价值,在激烈的竞争中脱颖 ...

最新文章

  1. Mobileye独创性创新
  2. 在 mingw32 上编译 libvpx 1.7.0 时的注意事项
  3. cdrx4被禁用怎么解决_双显卡怎么切换到独立显卡
  4. 如何动态添加修改删除定时任务
  5. tomcat+nginx+redis实现均衡负载、session共享(一)
  6. linux系统学习第一天
  7. 2021年三月上旬推荐阅读文章
  8. ASP.NET Framework深度历险(2)
  9. ArcFace免费人脸识别 Demo [Android]
  10. 安卓udp发包工具_Sendip 命令行发包工具,支持IP、TCP、UDP等
  11. Intel i5-7200U (3100MHZ),1*8GB(DDR3 1600) 在 Aida64 V5.97.4600 的测试结果
  12. 虚拟机VMware安装PhoenixOS(凤凰OS)
  13. java实现小写金额转换大写金额
  14. cmd强制删除文件夹
  15. linux 实现不同网段网络互通
  16. mysql数据库的安装和使用方法_Mysql数据库的安装和使用
  17. 大疆自动驾驶,首次官宣即交货
  18. Android 名词解释
  19. java重命名_java实现文件重命名的方法
  20. 游戏开发41课 unity 目录分析

热门文章

  1. win10——microsoft同步用户主题桌面背景的本地位置、默认背景位置、双屏双背景图设置
  2. 在Silverlight 2 beta1中使用IronPython等动态语言
  3. 佐治亚大学计算机博士,美国佐治亚大学,光电专业,全奖博士招生
  4. 用python制作英文字典的分析_分享一个自己做的英文科学写作检查器
  5. Android 小米应用角标
  6. win配置pm2开机自启node项目
  7. Qt获取图片色值(提供源码)
  8. matlab win7兼容,MatLab7.0和win7兼容
  9. eclipse快捷键(增加一些4连组合快捷键)
  10. 农历php,PHP阴历转农历的实现代码