淘宝众筹数据爬取(1)
众筹是现阶段小微或初创企业比较重要的融资渠道之一,也获得了很多研究者的关注。然而众筹的研究需要获取众筹项目的大量数据,单靠手工录入数据确实比较让人讨厌, 速度慢也比较啰嗦。前文中我们已经了解了静态网页的数据爬取流程,现在我们来看看众筹数据是如何获取的。
我们把目光放在了当前还能收集数据的淘宝众筹(现在改名叫造点新货),京东众筹现在正在维护改造,其他众筹网还没去关注,估计流程也差不多,就以淘宝众筹来进行学习练手吧。
打开淘宝众筹的页面,选择全部项目,地址为:造点新货首页
因为想观察项目的整个动态进展,我们的目标是获取项目的名称(后来才发现应该换成是项目编号,这妥妥是给自己挖了个坑)、达成率、支持人数、截止时间、已筹集金额和剩余时间。
按F12键,在Elements选项卡下,点击对应的标签,会在左边的页面里以灰蓝色方块覆盖的形式来表明标签所涉及的内容。
下面就要细心的去找每个项目对应的那一部分标签,点开左侧折叠的按钮,一步步搜索到对应项目的信息,这是个考验耐心的活(有的时候,它的内容不是在你认为的那个标签里,而是在下一层)。经过层层下翻,终于让我找到了这该死的地方。
对应的CSS代码如下:
在这点上我还是比较喜欢这个网站的,一次将所有的页面以列表形式全部列出来,正好可以一网打尽。
继续往下翻,找找每个项目想获得的信息都在哪。
是不是已经看到了想获取的信息以及信息都放在哪个标签里了?OK,我们开始搞事情了。
这次的页面太啰嗦,之前的正则匹配玩的又不是特别转,搞了几次都没弄到东西,索性换个简单的虽然很耗时,但至少能看到东西。我们要用的是selenium,没错,就是这个模拟浏览器浏览过程的玩意。
还是在notebook里,使用前要先安装selenium并安装浏览器驱动,这个过程请自行百度。
from selenium import webdriver
driver=webdriver.Chrome()
driver.get('https://izhongchou.taobao.com/list.htm?spm=a215p.1596646.0.0.4b2947dbsNHPfW#type=&page=1&status=&sort=')
看看是不是新弹出个窗口?
然后把美丽的汤端上来,对这个页面进行解析:
from bs4 import BeautifulSoup
html=driver.page_source
soup = BeautifulSoup(html, 'html.parser')
因为所有信息都在名为<li>的列表中,所以我们就找它的麻烦:
project=soup.find_all(name='li',class_ ='project-item')
然后就是在每一条里刨出我们想要的信息,并添加到列表:
k=[]
for li in project:title=li.find('span','project-intro').text #标题dcl=li.find('span','every-info').em.text #达成率ycje=li.find('span','every-info info-dollar').em.text #已筹金额zcrs=li.find('span','every-info info-left').em.text #支持人数k.append([title,dcl,ycje,zcrs])
k
嘿嘿,第一页的项目信息就获取到了。
但该死的还没完,我还要项目的起止时间(一般都没有开始时间,只有截止时间和剩余时间),但这个信息在这一页上是没有的,所以工作还得继续,请继续关注下一篇淘宝众筹数据爬取(2)。
淘宝众筹数据爬取(1)相关推荐
- 淘宝众筹数据爬取(3)
前文的讲述已经可以将一个页面上的所有项目的项目名称.已筹金额.达成率和支持人数提取出来,并且再通过进入单一页面的方式,将单个项目的上线时间和截止时间以及金额标的提取出来.由此,我们可以形成我们的提取逻 ...
- 淘宝众筹数据爬取(2)
第一部分的写完了好多天,也没几个人浏览,看来确实是技术太低段,只能自己玩玩了.CSDN博客有个很讨厌的设置,博客分数太低的,不让自主设置标签,我离400分的大关还差300多分,太窘了,还麻烦各位看完给 ...
- 技能梳理36@淘宝/天猫数据爬取
现在登录用微博登录的方式已经不行了 参考链接https://zhuanlan.zhihu.com/p/558502415 使用的开发工具是Jupyter_Notebooks 参考视频https://w ...
- python爬虫—关于淘宝商品的爬取
之前爬过一次淘宝,当时这个网站没怎么设置很厉害的反爬措施,能够很轻松地获取上面的数据:销量啊.价格啊.以及好评等等,做一些可视化的图表,对于将要在淘宝平台售卖商品的商家具有很好的参考意义. 现在的淘宝 ...
- python爬虫学习笔记(三)——淘宝商品比价实战(爬取成功)
2020年最新淘宝商品比价定向爬取 功能描述 目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格. 理解:淘宝的搜索接口 翻页的处理 技术路线:requests re 程序的结 ...
- Python+Selenium模拟淘宝滑块并爬取商品数据
注:如果侵犯了Alibaba的权益,请联系我删除. 上一篇博客已经完成了模拟淘宝登陆,本节主要记录如何爬取淘宝商品列表页数据,同时如何模拟人的操作完成滑块的验证. 代码如下: #encoding=ut ...
- python爬取数据分析淘宝商品_python爬取并分析淘宝商品信息
python爬取并分析淘宝商品信息 Tip:本文仅供学习与交流,切勿用于非法用途!!! 背景介绍 有个同学问我:"XXX,有没有办法搜集一下淘宝的商品信息啊,我想要做个统计".于是 ...
- 淘宝奶茶数据抓取可视化
导语 庞大的淘宝数据中,我们挑了奶茶的来讲解一下从抓取到分析 开发工具 Python版本:3.6.4 相关模块: DecryptLogin模块: pyecharts模块: 以及一些Python自带的模 ...
- 淘宝评论数据抓取简记
刚才趴在床上搞清楚了淘宝评论数据的抓取方法,在此记录,以备后用. 淘宝商品详情页面下方有如下script: <script>window.App = (window.App || {}); ...
最新文章
- git 对之前的commit 进行重新签名 Resign
- mysql被拖垮_说几个拖垮系统的小细节!
- xshell下载mysql到本地文件_在Xshell中上传下载文件到本地(linux中从多次ssh登录的dbserver里面的文件夹)-Go语言中文社区...
- apache2.4.18中启用h2c
- PHP接收二进制流文件并保存
- Datawhale组队学习:数据竞赛(房价预测)课程任务
- 《人月神话》出版后的网友评论
- 真格量化的回测交易撮合机制简介
- centos7设置DNS
- 使用扩展卡尔曼滤波(EKF)进行AHRS九轴姿态融合
- (详细)华为荣耀8X JSN-AL00的usb调试模式在哪里开启的教程
- Windows 10 IDM 下载play.kth.se上面的网课视频
- NDT方法总结与公式推导
- 泰拉服务器生存模式物品修改,荒岛求生修改存档生存物品方法
- 手把手教你撸最新Youtube视频 拖拽动画效果
- 计算机的用途英语作文带翻译,关于计算机的英文作文带翻译
- 运动品牌的“变脸”速度,跟得上用户的“喜新厌旧”吗?
- 英语不好,能不能学会编程?
- 从模型到应用,一文读懂因子分解机
- 手机ufs测试软件,UFS3.0效率有多快 一加7 Pro 500款APP测速挑战
热门文章
- 游戏蓝牙耳机哪个好?游戏蓝牙耳机排行榜
- Windows API CreateWindow
- 苹果推出新Mac Pro:配备28个核处理器及世界上最强大的显卡
- 商标注册流程,商标注册材料
- 【面试经】数据分析 or 数据开发面试必备思路,面试官都会这样问。
- 谈谈移动端IOS橡皮筋特效
- VMware虚拟机安装ubuntu20.04缓慢、卡顿
- 【客户机操作系统已禁用 CPU。请关闭或重置虚拟机】以及【该主机 CPU 类型不支持虚拟化性能计数器,模块“VPMC”启动失败,未能启动虚拟机】
- 苹果在官网发布两款新品,让 Apple Pencil 成为所有 iPad 标配...
- Linux系统vi编辑器常用指令