淘宝众筹数据爬取（1）

众筹是现阶段小微或初创企业比较重要的融资渠道之一，也获得了很多研究者的关注。然而众筹的研究需要获取众筹项目的大量数据，单靠手工录入数据确实比较让人讨厌，速度慢也比较啰嗦。前文中我们已经了解了静态网页的数据爬取流程，现在我们来看看众筹数据是如何获取的。
我们把目光放在了当前还能收集数据的淘宝众筹（现在改名叫造点新货），京东众筹现在正在维护改造，其他众筹网还没去关注，估计流程也差不多，就以淘宝众筹来进行学习练手吧。
打开淘宝众筹的页面，选择全部项目，地址为：造点新货首页
因为想观察项目的整个动态进展，我们的目标是获取项目的名称（后来才发现应该换成是项目编号，这妥妥是给自己挖了个坑）、达成率、支持人数、截止时间、已筹集金额和剩余时间。
按F12键，在Elements选项卡下，点击对应的标签，会在左边的页面里以灰蓝色方块覆盖的形式来表明标签所涉及的内容。

下面就要细心的去找每个项目对应的那一部分标签，点开左侧折叠的按钮，一步步搜索到对应项目的信息，这是个考验耐心的活（有的时候，它的内容不是在你认为的那个标签里，而是在下一层）。经过层层下翻，终于让我找到了这该死的地方。

对应的CSS代码如下：

在这点上我还是比较喜欢这个网站的，一次将所有的页面以列表形式全部列出来，正好可以一网打尽。
继续往下翻，找找每个项目想获得的信息都在哪。

是不是已经看到了想获取的信息以及信息都放在哪个标签里了？OK，我们开始搞事情了。
这次的页面太啰嗦，之前的正则匹配玩的又不是特别转，搞了几次都没弄到东西，索性换个简单的虽然很耗时，但至少能看到东西。我们要用的是selenium，没错，就是这个模拟浏览器浏览过程的玩意。
还是在notebook里，使用前要先安装selenium并安装浏览器驱动，这个过程请自行百度。

from selenium import webdriver
driver=webdriver.Chrome()
driver.get('https://izhongchou.taobao.com/list.htm?spm=a215p.1596646.0.0.4b2947dbsNHPfW#type=&page=1&status=&sort=')

看看是不是新弹出个窗口？

然后把美丽的汤端上来，对这个页面进行解析：

from bs4 import BeautifulSoup
html=driver.page_source
soup = BeautifulSoup(html, 'html.parser')

因为所有信息都在名为<li>的列表中，所以我们就找它的麻烦：

project=soup.find_all(name='li',class_ ='project-item')

然后就是在每一条里刨出我们想要的信息，并添加到列表：

k=[]
for li in project:title=li.find('span','project-intro').text  #标题dcl=li.find('span','every-info').em.text  #达成率ycje=li.find('span','every-info info-dollar').em.text  #已筹金额zcrs=li.find('span','every-info info-left').em.text  #支持人数k.append([title,dcl,ycje,zcrs])
k

嘿嘿，第一页的项目信息就获取到了。

但该死的还没完，我还要项目的起止时间（一般都没有开始时间，只有截止时间和剩余时间），但这个信息在这一页上是没有的，所以工作还得继续，请继续关注下一篇淘宝众筹数据爬取（2）。

淘宝众筹数据爬取（1）相关推荐

淘宝众筹数据爬取（3）
前文的讲述已经可以将一个页面上的所有项目的项目名称.已筹金额.达成率和支持人数提取出来,并且再通过进入单一页面的方式,将单个项目的上线时间和截止时间以及金额标的提取出来.由此,我们可以形成我们的提取逻 ...
淘宝众筹数据爬取（2）
第一部分的写完了好多天,也没几个人浏览,看来确实是技术太低段,只能自己玩玩了.CSDN博客有个很讨厌的设置,博客分数太低的,不让自主设置标签,我离400分的大关还差300多分,太窘了,还麻烦各位看完给 ...
技能梳理36@淘宝/天猫数据爬取
现在登录用微博登录的方式已经不行了参考链接https://zhuanlan.zhihu.com/p/558502415 使用的开发工具是Jupyter_Notebooks 参考视频https://w ...
python爬虫—关于淘宝商品的爬取
之前爬过一次淘宝,当时这个网站没怎么设置很厉害的反爬措施,能够很轻松地获取上面的数据:销量啊.价格啊.以及好评等等,做一些可视化的图表,对于将要在淘宝平台售卖商品的商家具有很好的参考意义. 现在的淘宝 ...
python爬虫学习笔记(三)——淘宝商品比价实战(爬取成功)
2020年最新淘宝商品比价定向爬取功能描述目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格. 理解:淘宝的搜索接口翻页的处理技术路线:requests re 程序的结 ...
Python+Selenium模拟淘宝滑块并爬取商品数据
注:如果侵犯了Alibaba的权益,请联系我删除. 上一篇博客已经完成了模拟淘宝登陆,本节主要记录如何爬取淘宝商品列表页数据,同时如何模拟人的操作完成滑块的验证. 代码如下: #encoding=ut ...
python爬取数据分析淘宝商品_python爬取并分析淘宝商品信息
python爬取并分析淘宝商品信息 Tip:本文仅供学习与交流,切勿用于非法用途!!! 背景介绍有个同学问我:"XXX,有没有办法搜集一下淘宝的商品信息啊,我想要做个统计".于是 ...
淘宝奶茶数据抓取可视化
导语庞大的淘宝数据中,我们挑了奶茶的来讲解一下从抓取到分析开发工具 Python版本:3.6.4 相关模块: DecryptLogin模块: pyecharts模块: 以及一些Python自带的模 ...
淘宝评论数据抓取简记
刚才趴在床上搞清楚了淘宝评论数据的抓取方法,在此记录,以备后用. 淘宝商品详情页面下方有如下script: <script>window.App = (window.App || {}); ...

淘宝众筹数据爬取（1）

淘宝众筹数据爬取（1）相关推荐

最新文章

热门文章