一、解决方案

二、电商数据的爬取和清洗

  2.1 Python爬取京东手机销售历史数据

  1).环境

  python3 环境、第三方包有 scrapy,re Pycharm 、NotePad++、SublimeText 等代码编辑工具

   2).爬虫步骤

  采用 scrapy 爬虫框架编写爬虫脚本,选取核心代码讲解爬取京东手机销售数据的爬取逻辑。具体步骤如下:

    1> 获取电商网站目标数据信息

    2>根据手机品牌作为搜索关键词

withopen('./mobile_project/data/手机品牌.csv','r', encoding='utf-8')
asf: csv_reader=csv.reader(f) # 通 过 csv 按 行 读 取
for brand in csv_reader: brand=brand[0] print('++++++++++crawling:{}'.format(brand)) if brand.strip():brand=brand.strip()+' 手机' yield Request (jd_search_url.format(kw=brand, page=page),headers=self.headers, meta={'kw':brand,'page':page}, callback=self.parse_search_result)

    3>查看商品详情请求的 api

  

    4>明确解析字段

    5>明确商家信息

    6>循环爬取

    7>存储到csv

爬取结果示例:

{
"name":"努比亚 nubia Z18 全面屏 3.0 极夜黑 8GB+128GB 全网通移 动联通电信 4G 手机 双卡双待", "custom_attr_list":"6.0 英寸^8GB^128GB^2400 万+1600 万像素^骁龙 845(SDM845)^800 万像素^2160*1080^8.55", "shop_name":"努比亚京东自营旗舰店", "comment_count":"13266", "good_rate":"97", "shop_id":"1000001961", "id":"100000047414", "price":"2549.00", "url":"https://item.jd.com/100000047414.html", "keyword":"努比亚(nubia) 手机", "prop":{ "品牌":"努比亚(nubia)",
"型号":"Z18", "入网型号":"NX606J", "上市年份":"2018 年", "上市月份":"9 月", "机身颜色":"黑色", "机身长度(mm)":"148.58", "机身宽度(mm)":"72.54", "机身厚度(mm)":"8.55", "机身重量(g)":"172", "输入方式":"触控", "运营商标志或内容":"无", "机身材质分类":"金属边框|玻璃后盖", "屏占比":"91.8%", "操作系统":"Android", "操作系统版本":"nubiaUI6.0", "CPU 品牌":"骁龙(Snapdragon)", "CPU 频率":"2.8GHz", "CPU 核数":"八核", "CPU 型号":"骁龙 845(SDM845)", "双卡机类型":"双卡双待单通", "最大支持 SIM 卡数量":"2 个", "SIM 卡类型":"NanoSIM", "4G 网络":"4G:移动(TD-LTE)|4G:联通(FDD-LTE)|4G:电信 (FDD-LTE)|4G:联通(TD-LTE)|电信(TD-LTE)", "3G/2G 网络":"3G:移动(TD-SCDMA)|3G:联通(WCDMA)|3G:电 信(CDMA2000)|2G:移动联通(GSM)+电信(CDMA)", "副 SIM 卡类型":"NanoSIM", "副 SIM 卡 4G 网络":"4G:移动(TD-LTE)|4G:联通(FDD-LTE)|4G: 电信(FDD-LTE)|不支持主副卡同时使用电信卡|4G:联通(TD-LTE)",
"4G+(CA)":"移动 4G+|联通 4G+|电信 4G+", "高清语音通话(VOLTE)":"移动 VOLTE|电信 VOLTE", "网络频率(2G/3G)":"2G:GSM 850/900/1800/1900|2G:CDMA 800|3G : TD-SCDMA 1900/2000|3G : WCDMA 850/900/1900/2100|3G : CDMA2000|2G:GSM 900/1800|2G:GSM 900/1800/1900|3G:CDMA 800MHz 1X&EVDO|3G:WCDMA:850/900/1700/1900/2100MHz|TD-SCDMA1880/2010", "是否支持同时使用联通卡":"支持双卡同时在线,并同时使用联通 4G 移动数据", "ROM":"128GB", "ROM 类型":"UFS", "RAM":"8GB", "RAM 类型":"LPDDR 4X", "存储卡":"不支持", "主屏幕尺寸(英寸)":"6.0 英寸", "分辨率":"2160*1080", "屏幕像素密度(ppi)":"403", "屏幕材质类型":"LTPS", "屏幕生产厂商":"JDI", "亮度":"500(type)", "对比度":"1500(type)", "前置摄像头":"800 万像素", "前摄光圈大小":"f/2.0", "美颜技术":"支持", "摄像头数量":"2 个", "后置摄像头":"2400 万+1600 万像素", "摄像头光圈大小":"其他", "闪光灯":"双色温灯", "副摄像头光圈大小":"其他", "拍照特点":"防抖|美颜|连拍|微距|全景|滤镜|场景模式|HDR|PDAF|
微信小视频|水印", "电池容量(mAh)":"3450", "电池类型":"锂电池", "电池是否可拆卸":"否", "充电器":"9V/2A", "数据传输接口":"WIFI|NFC|蓝牙|WiFi 热点|OTG 接口", "NFC/NFC 模式":"支持(点对点模式) |支持(读卡器模式) |支持(卡 模式)|支持卡模拟", "耳机接口类型":"Type-C", "充电接口类型":"Type-C", "数据线":"USB2.0", "指纹识别":"支持", "语音识别":"支持", "GPS":"支持", "电子罗盘":"支持", "陀螺仪":"支持", "红外遥控":"不支持", "其他":"距离感应|呼吸灯|多麦降噪技术|光线感应", "常用功能":"录音|便签|重力感应"
}
}

转载于:https://www.cnblogs.com/wjwjs/p/11493133.html

大数据技术暑期实习六___互联网营销精准决策(手机数据爬取)相关推荐

  1. 大数据信息资料采集:公众号武志红文章评论爬取八爪鱼采集器规则

    大数据信息资料采集:公众号武志红文章评论爬取八爪鱼采集器规则 大数据信息资料采集 公众号历史文章采集 公众号评论爬取 微信公众号历史文章导出 抓取微信公众号所有文章. 公众号文章抓取工具 抓取公众号所 ...

  2. 大数据技术专业实习实训总结

    #自我介绍 我是一名大一学生,专业是:数据科学与大数据技术.目前学过的知识点有:C++,python,HDFS,MapReduce,Hadoop,Java等.虽然学过的知识点很多,但是没有对他有更深的 ...

  3. 大三后端暑期实习面经总结——SSM微服务框架篇

    博主现在大三在读,从三月开始找暑期实习,暑假准备去tx实习啦!总结下了很多面试真题,希望能帮助正在找工作的大家!相关参考都会标注原文链接,尊重原创! 目录 1. mvc.mvp.mvvm MVC架构 ...

  4. AdTime:大数据技术支撑全媒体跨屏营销

    ZDNet至顶网软件频道消息:7月24日,第九届艾瑞高峰会议在深圳召开.艾瑞峰会定位于全国范围内最具影响力的区域,辐射并连结北京.上海.广州.江浙鲁及海外地区,立足全局产业,结合区域化地方特色,构建互 ...

  5. 计算机科学与技术暑期实习,计算机科学与技术实习计划.doc

    计算机科学与技术实习计划.doc (2页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 4.9 积分 计算机科学与技术实习计划 教育实习是高等师范院校教育 ...

  6. 大数据信息资料采集:美国财富500强企业信息资料采集爬取

    大数据信息资料采集:2019年美国财富500强企业信息资料采集爬取 财富中文网(www.FORTUNEChina.com)于北京时间5月16日晚与英文网全球同步发布2019年<财富>美国5 ...

  7. python爬取去哪网数据_python最强的代理池,突破IP的封锁爬取海量数据(送项目源码)...

    一个强大到超乎你的想象的异步IP池项目--async-proxy-pool 随着大型网站反扒机制的增强,更改IP登陆已经成为一种最高效的方式,为此打造一款超强IP池项目,采用最新最快的Python技术 ...

  8. 爬虫数据存储到数据库/增量爬虫+多级页面获取=====安居客信息爬取

    文章目录 前言 一.增量爬虫是什么? 二.python数据存储到数据库 三.多级页面的跳转获取 四:遇到的问题以及解决 五:代码 总结 前言:这次的爬取内容是安居客网页里面的信息,首先是我爬取的页面是 ...

  9. ASP.NET 2.0数据教程之三十六 在DataList里编辑和删除数据

    导言 概述插入.更新和删除数据 里我们已经学习了如何使用GridView等控件来插入,更新删除数据.通过ObjectDataSource和其它数据控件仅仅只需要在智能标签里勾一下checkbox就完成 ...

最新文章

  1. LeetCode OJ - Copy List with Random Pointer
  2. 单片机最小系统制作记录
  3. python实现解释器_Python 解释器初探
  4. 联想rd650怎么装系统win7_Lenovo g50重装win7系统|U盘重装联想g50笔记本系统
  5. System V 共享内存 和 系列函数
  6. 北京-波士顿-西雅图时间对照表
  7. 定时任务周期短导致FTP文件重复读问题
  8. 浪潮之巅第三章 — “水果”公司的复兴 (乔布斯和苹果公司)(全)
  9. win10系统下安装基于虚拟机的32位XP系统
  10. HDMI转PGA电脑没有声音处理方法
  11. 什么是视距传播(LOS propagation)及如何验证微波链路是否具有清晰的视线
  12. 4.live555mediaserver-第一次select
  13. (SELECT SUBSTRING(AreaCode FROM 0 FOR 5)FROM sysarea) = '810103'
  14. PHP 输出各个时区对应的时差表
  15. 厉害了我的哥!十一月居然有这么多好总结!
  16. SolidWorks的二次开发有关的自定义函数
  17. mysql over rank_sql - MySQL中的Rank函数
  18. 欧盟委员会希望将电子支付标准化
  19. 计算机网络中可靠,在计算机网络中,数据传输的可靠性可以用( )测评
  20. 求数组中最长递增子序列的长度

热门文章

  1. centos7修改ip地址(centos7怎么修改ip)
  2. 【热血传奇】 脚本开发之变量详解
  3. 请自己写出strcpy函数
  4. java课程设计心得_Java课设总结(个人版)
  5. 视觉媒体通信作业记录(一) 简易yuv420视频播放器
  6. Matlab利用M_map和mapshow绘制网格地图
  7. html chat柱状图模板,chart.js柱状图
  8. Java简单文字时钟
  9. 实战:新手开直通车如何进行低价引流
  10. 麦包包EDM会员经营策划方案:整合邮件产品