大数据技术暑期实习六___互联网营销精准决策(手机数据爬取)
一、解决方案
二、电商数据的爬取和清洗
2.1 Python爬取京东手机销售历史数据
1).环境
python3 环境、第三方包有 scrapy,re Pycharm 、NotePad++、SublimeText 等代码编辑工具
2).爬虫步骤
采用 scrapy 爬虫框架编写爬虫脚本,选取核心代码讲解爬取京东手机销售数据的爬取逻辑。具体步骤如下:
1> 获取电商网站目标数据信息
2>根据手机品牌作为搜索关键词
withopen('./mobile_project/data/手机品牌.csv','r', encoding='utf-8') asf: csv_reader=csv.reader(f) # 通 过 csv 按 行 读 取 for brand in csv_reader: brand=brand[0] print('++++++++++crawling:{}'.format(brand)) if brand.strip():brand=brand.strip()+' 手机' yield Request (jd_search_url.format(kw=brand, page=page),headers=self.headers, meta={'kw':brand,'page':page}, callback=self.parse_search_result)
3>查看商品详情请求的 api
4>明确解析字段
5>明确商家信息
6>循环爬取
7>存储到csv
爬取结果示例:
{ "name":"努比亚 nubia Z18 全面屏 3.0 极夜黑 8GB+128GB 全网通移 动联通电信 4G 手机 双卡双待", "custom_attr_list":"6.0 英寸^8GB^128GB^2400 万+1600 万像素^骁龙 845(SDM845)^800 万像素^2160*1080^8.55", "shop_name":"努比亚京东自营旗舰店", "comment_count":"13266", "good_rate":"97", "shop_id":"1000001961", "id":"100000047414", "price":"2549.00", "url":"https://item.jd.com/100000047414.html", "keyword":"努比亚(nubia) 手机", "prop":{ "品牌":"努比亚(nubia)", "型号":"Z18", "入网型号":"NX606J", "上市年份":"2018 年", "上市月份":"9 月", "机身颜色":"黑色", "机身长度(mm)":"148.58", "机身宽度(mm)":"72.54", "机身厚度(mm)":"8.55", "机身重量(g)":"172", "输入方式":"触控", "运营商标志或内容":"无", "机身材质分类":"金属边框|玻璃后盖", "屏占比":"91.8%", "操作系统":"Android", "操作系统版本":"nubiaUI6.0", "CPU 品牌":"骁龙(Snapdragon)", "CPU 频率":"2.8GHz", "CPU 核数":"八核", "CPU 型号":"骁龙 845(SDM845)", "双卡机类型":"双卡双待单通", "最大支持 SIM 卡数量":"2 个", "SIM 卡类型":"NanoSIM", "4G 网络":"4G:移动(TD-LTE)|4G:联通(FDD-LTE)|4G:电信 (FDD-LTE)|4G:联通(TD-LTE)|电信(TD-LTE)", "3G/2G 网络":"3G:移动(TD-SCDMA)|3G:联通(WCDMA)|3G:电 信(CDMA2000)|2G:移动联通(GSM)+电信(CDMA)", "副 SIM 卡类型":"NanoSIM", "副 SIM 卡 4G 网络":"4G:移动(TD-LTE)|4G:联通(FDD-LTE)|4G: 电信(FDD-LTE)|不支持主副卡同时使用电信卡|4G:联通(TD-LTE)", "4G+(CA)":"移动 4G+|联通 4G+|电信 4G+", "高清语音通话(VOLTE)":"移动 VOLTE|电信 VOLTE", "网络频率(2G/3G)":"2G:GSM 850/900/1800/1900|2G:CDMA 800|3G : TD-SCDMA 1900/2000|3G : WCDMA 850/900/1900/2100|3G : CDMA2000|2G:GSM 900/1800|2G:GSM 900/1800/1900|3G:CDMA 800MHz 1X&EVDO|3G:WCDMA:850/900/1700/1900/2100MHz|TD-SCDMA1880/2010", "是否支持同时使用联通卡":"支持双卡同时在线,并同时使用联通 4G 移动数据", "ROM":"128GB", "ROM 类型":"UFS", "RAM":"8GB", "RAM 类型":"LPDDR 4X", "存储卡":"不支持", "主屏幕尺寸(英寸)":"6.0 英寸", "分辨率":"2160*1080", "屏幕像素密度(ppi)":"403", "屏幕材质类型":"LTPS", "屏幕生产厂商":"JDI", "亮度":"500(type)", "对比度":"1500(type)", "前置摄像头":"800 万像素", "前摄光圈大小":"f/2.0", "美颜技术":"支持", "摄像头数量":"2 个", "后置摄像头":"2400 万+1600 万像素", "摄像头光圈大小":"其他", "闪光灯":"双色温灯", "副摄像头光圈大小":"其他", "拍照特点":"防抖|美颜|连拍|微距|全景|滤镜|场景模式|HDR|PDAF| 微信小视频|水印", "电池容量(mAh)":"3450", "电池类型":"锂电池", "电池是否可拆卸":"否", "充电器":"9V/2A", "数据传输接口":"WIFI|NFC|蓝牙|WiFi 热点|OTG 接口", "NFC/NFC 模式":"支持(点对点模式) |支持(读卡器模式) |支持(卡 模式)|支持卡模拟", "耳机接口类型":"Type-C", "充电接口类型":"Type-C", "数据线":"USB2.0", "指纹识别":"支持", "语音识别":"支持", "GPS":"支持", "电子罗盘":"支持", "陀螺仪":"支持", "红外遥控":"不支持", "其他":"距离感应|呼吸灯|多麦降噪技术|光线感应", "常用功能":"录音|便签|重力感应" } }
转载于:https://www.cnblogs.com/wjwjs/p/11493133.html
大数据技术暑期实习六___互联网营销精准决策(手机数据爬取)相关推荐
- 大数据信息资料采集:公众号武志红文章评论爬取八爪鱼采集器规则
大数据信息资料采集:公众号武志红文章评论爬取八爪鱼采集器规则 大数据信息资料采集 公众号历史文章采集 公众号评论爬取 微信公众号历史文章导出 抓取微信公众号所有文章. 公众号文章抓取工具 抓取公众号所 ...
- 大数据技术专业实习实训总结
#自我介绍 我是一名大一学生,专业是:数据科学与大数据技术.目前学过的知识点有:C++,python,HDFS,MapReduce,Hadoop,Java等.虽然学过的知识点很多,但是没有对他有更深的 ...
- 大三后端暑期实习面经总结——SSM微服务框架篇
博主现在大三在读,从三月开始找暑期实习,暑假准备去tx实习啦!总结下了很多面试真题,希望能帮助正在找工作的大家!相关参考都会标注原文链接,尊重原创! 目录 1. mvc.mvp.mvvm MVC架构 ...
- AdTime:大数据技术支撑全媒体跨屏营销
ZDNet至顶网软件频道消息:7月24日,第九届艾瑞高峰会议在深圳召开.艾瑞峰会定位于全国范围内最具影响力的区域,辐射并连结北京.上海.广州.江浙鲁及海外地区,立足全局产业,结合区域化地方特色,构建互 ...
- 计算机科学与技术暑期实习,计算机科学与技术实习计划.doc
计算机科学与技术实习计划.doc (2页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 4.9 积分 计算机科学与技术实习计划 教育实习是高等师范院校教育 ...
- 大数据信息资料采集:美国财富500强企业信息资料采集爬取
大数据信息资料采集:2019年美国财富500强企业信息资料采集爬取 财富中文网(www.FORTUNEChina.com)于北京时间5月16日晚与英文网全球同步发布2019年<财富>美国5 ...
- python爬取去哪网数据_python最强的代理池,突破IP的封锁爬取海量数据(送项目源码)...
一个强大到超乎你的想象的异步IP池项目--async-proxy-pool 随着大型网站反扒机制的增强,更改IP登陆已经成为一种最高效的方式,为此打造一款超强IP池项目,采用最新最快的Python技术 ...
- 爬虫数据存储到数据库/增量爬虫+多级页面获取=====安居客信息爬取
文章目录 前言 一.增量爬虫是什么? 二.python数据存储到数据库 三.多级页面的跳转获取 四:遇到的问题以及解决 五:代码 总结 前言:这次的爬取内容是安居客网页里面的信息,首先是我爬取的页面是 ...
- ASP.NET 2.0数据教程之三十六 在DataList里编辑和删除数据
导言 概述插入.更新和删除数据 里我们已经学习了如何使用GridView等控件来插入,更新删除数据.通过ObjectDataSource和其它数据控件仅仅只需要在智能标签里勾一下checkbox就完成 ...
最新文章
- LeetCode OJ - Copy List with Random Pointer
- 单片机最小系统制作记录
- python实现解释器_Python 解释器初探
- 联想rd650怎么装系统win7_Lenovo g50重装win7系统|U盘重装联想g50笔记本系统
- System V 共享内存 和 系列函数
- 北京-波士顿-西雅图时间对照表
- 定时任务周期短导致FTP文件重复读问题
- 浪潮之巅第三章 — “水果”公司的复兴 (乔布斯和苹果公司)(全)
- win10系统下安装基于虚拟机的32位XP系统
- HDMI转PGA电脑没有声音处理方法
- 什么是视距传播(LOS propagation)及如何验证微波链路是否具有清晰的视线
- 4.live555mediaserver-第一次select
- (SELECT SUBSTRING(AreaCode FROM 0 FOR 5)FROM sysarea) = '810103'
- PHP 输出各个时区对应的时差表
- 厉害了我的哥!十一月居然有这么多好总结!
- SolidWorks的二次开发有关的自定义函数
- mysql over rank_sql - MySQL中的Rank函数
- 欧盟委员会希望将电子支付标准化
- 计算机网络中可靠,在计算机网络中,数据传输的可靠性可以用( )测评
- 求数组中最长递增子序列的长度