• 从创业邦网站拉取创业公司数据
  • 入口链接:http://www.cyzone.cn/event/list-764-0-1-0-0-0-0/,要求抓取前30页。
  • 抓取以下信息:公司名称,详情URL,当前融资轮次,行业,投资方和更新时间。

# -*- coding: utf-8 -*-
"""
Created on Sat Oct 14 15:17:52 2017

@author: ESRI
"""

import requests
import time
from bs4 import BeautifulSoup
import pandas as pd
# 导入pandas库

# 设置列表页面URL的固定部分
url = 'https://bj.lianjia.com/ershoufang/'
BASE_URL_U1 = "http://www.cyzone.cn/event/list-764-0-"
BASE_URL_U2 = "-0-0-0-0/"

# 最好在http请求中设置一个头部信息,否则很容易被封ip
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
'Accept':'text/html;q=0.9,*/*;q=0.8',
'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Accept-Encoding':'gzip',
'Connection':'close',
'Referer':'http://www.baidu.com/link?url=_andhfsjjjKRgEWkj7i9cFmYYGsisrnm2A-TN3XZDQXxvGsM9k9ZZSnikW2Yds4s&wd=&eqid=c3435a7d00146bd600000003582bfd1f'
}

# 循环抓取列表页信息
for i in range(1,31):  # 分页
    if i == 1:
        i=str(1)
        var_url = (BASE_URL_U1 + i + BASE_URL_U2)
        r = requests.get(url=var_url, headers=headers)
        html = r.content
        #print(html)
    else:
        i=str(i)
        var_url=(BASE_URL_U1 + i + BASE_URL_U2)
        var_url=requests.get(url=var_url,headers=headers)
        html2=r.content
        html = html + html2
        # 每次间隔1秒
        time.sleep(1)
        
        # 解析抓取的页面内容
        res = BeautifulSoup(html, 'html.parser')
        # 获取感兴趣目标信息:
        # 提取公司名称
        # table>tbody>tr.table-plate3>td.tp2>span.tp2_tit>a     
        companys = res.find_all('span', 'tp2_tit')
        cnames = []
        print(len(companys))
        for item in companys:
            cname =  item.a.string
            cnames.append(cname)
    
        #print(cnames)
        # 获取感兴趣目标信息:
        # 提取公司详情url
        companys = res.find_all('span', 'tp2_tit')
        urls = []
        for item in companys:
            url =  item.a['href']
            urls.append(url)
        # 获取感兴趣目标信息:
        # 提取当前融资轮次,行业,投资方和更新时间

# res = BeautifulSoup(html, 'html5lib')
        # finances = res.select('div#main > div.list-table3 > table > tbody > tr')
        finances = res.find_all('tr', 'table-plate3')
        # 融资轮次,行业,投资方,更新时间
        financing_rounds, businesses, investors, update_times  = [],[],[],[]
        #print(len(finances))
        for i in range(0, len(finances)):
            # 获取第一行数据(范围)
            items = finances[i].find_all('td')
            # print(items)
            # 获取融资轮次
            fround =  items[-5].text.strip()
            #获取行业
            business = items[-4].text.strip()
            #获取投资方
            investor = items[-3].text.strip()
            #获取更新时间
            update_time = items[-2].text.strip()
            financing_rounds.append(fround)
            businesses.append(business)
            investors.append(investor)
            update_times.append(update_time)
            
            # 将获取的数据进行汇总:
            #print(len(cnames))
            #print(len(urls))
            #print(len(financing_rounds))
            #print(len(financing_rounds))
            #print(len(businesses))
            #print(len(investors))
            #print(len(update_times))
    
            # 创建数据表
        resultsDatas = pd.DataFrame({'公司名称':cnames,'详情URL':urls,'融资轮次':financing_rounds,'行业':businesses,'投资方':investors,'更新时间':update_times})
            # 查看数据表内容
        print(resultsDatas)
    
    
    结果:

公司名称      投资方        更新时间   融资轮次                             行业  \
0   Future Go智晓未来  881万人民币         天使轮    天使轮                           158笔   
1            懒猫社长     生活消费  2017-10-13     A轮                           同方厚持   
2            乐刻运动     医疗健康  2017-10-13     C轮           高瓴资本 华晟资本-华兴资本 IDG资本   
3           WAVE浪     生活消费  2017-10-13    天使轮                      创丰资本 赤子基金   
4            一粒传媒     文体娱乐  2017-10-13    天使轮                         投资方未透露   
5     MIOTECH妙盈科技     金融支付  2017-10-13     A轮     Horizons Ventures维港投资 真格基金   
6      玖富咨询9FBank     金融支付  2017-10-13     B轮                         投资方未透露   
7            娱加娱乐     内容产业  2017-10-13   战略投资                         芒果文创基金   
8            洒哇地咔       硬件  2017-10-13     A轮               奋达科技(泓锦文基金) 水木资本   
9          武汉飞渡教育       教育  2017-10-13   战略投资                           小站教育   
10           作业盒子       教育  2017-10-13    B+轮  贝塔斯曼亚洲投资基金 好未来(学而思) 百度风投 ····   
11      Vingt Ans     电子商务  2017-10-13     A轮                           彬复资本   
12          123GO     生活消费  2017-10-13  Pre-A                        九万资本 吴波   
13  HoloMatic禾多科技     交通出行  2017-10-13    天使轮      IDG资本 四维图新 贝塔斯曼亚洲投资基金····  
。。。。。。。。。。。。。。。。。。。

python3爬虫实战(一)爬取创业邦创投库相关推荐

  1. Python3爬虫实战之爬取京东图书图片

    假如我们想把京东商城图书类的图片类商品图片全部下载到本地,通过手工复制粘贴将是一项非常庞大的工程,此时,可以用Python网络爬虫实现,这类爬虫称为图片爬虫,接下来,我们将实现该爬虫. 首先,打开要爬 ...

  2. Python3[爬虫实战] scrapy爬取汽车之家全站链接存json文件

    昨晚晚上一不小心学习了崔庆才,崔大神的博客,试着尝试一下爬取一个网站的全部内容,福利吧网站现在已经找不到了,然后一不小心逛到了汽车之家 (http://www.autohome.com.cn/beij ...

  3. python3 爬虫实战之爬取网易新闻APP端

    (一)使用工具 这里使用了火狐浏览器的user-agent插件,不懂的可以点这里火狐插件使用 (二)爬虫操作步骤: 百度 网易新闻并选择 步骤一: 步骤二: 步骤三: 步骤四: 最后一步: 注意点: ...

  4. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)

    在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...

  5. 携程ajax,Python爬虫实战之爬取携程评论

    一.分析数据源 这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...

  6. Python爬虫实战之爬取糗事百科段子

    Python爬虫实战之爬取糗事百科段子 完整代码地址:Python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...

  7. Python【爬虫实战】爬取美女壁纸资源

    Python[爬虫实战]爬取美女壁纸资源 一:首先选取一个网站,这里我们选择了一个壁纸网站 二:进入网站,我们可以看到很多图片放在一页里 三:按下F12开发者工具,点击Elments查看网页的代码 四 ...

  8. [day4]python网络爬虫实战:爬取美女写真图片(Scrapy版)

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...

  9. [day1]python网络爬虫实战:爬取美女写真图片

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...

最新文章

  1. python工程师-Python工程师必看的面试问题与解答(中)
  2. Calico在Docker中的搭建
  3. linux查看端口和kill端口
  4. 友盟页面访问路径全量统计功能上线啦!
  5. 分布式 id 生成系统 滴滴 Tinyid 快速入门
  6. 英文书籍下载网站统计(进行中)
  7. Guarded Suspension模式:等待唤醒机制
  8. 怎么安装java_怎么安装打印机到电脑步骤
  9. 安利几个实用且有趣的Excel实用技巧给你
  10. python复杂网络点图可视化_数据分析:R与Python怎么选?
  11. python分析红楼梦中人物形象_《红楼梦》三大人物形象分析
  12. 计算机网络正常无法打开网页,电脑网络正常但是网页无法打开怎么样解决
  13. C语言中打印图形问题
  14. 2018十大国产佳片
  15. YOLO系列-yolov3
  16. Azure微软云部署平台
  17. 机器视觉光源种类(环形光,条光,背光源,同轴光,线光,点光,穹顶光,开孔面光源等)
  18. Code Clinic: Python 代码诊所:Python Lynda课程中文字幕
  19. 智能家居创意DIY之智能触摸面板开关
  20. 全国行政区划数据——五级(省市区县乡镇村),74万条数据

热门文章

  1. 阿里云服务器如何解析添加二级域名+阿里云服务器或者其他网站绑定域名方法+域名解析是什么意思【申明:来源于网络】
  2. Arduino驱动oled
  3. PTA乙级-1061 判断题-C语言版
  4. Yotta企业云盘容量与安全兼得
  5. 联想a2580 android 7,iOS卫垒战! 2013主流小尺寸平板年度横评
  6. 互联网晚报 | 小米公布“汽车设计文件泄密”事件处理结果;蔚来回应最高超10万元降价促销;苹果发布2023财年第一财季财报...
  7. android电视设置hdmi输出,利用HDMI线实现多屏显示的设置方法!
  8. WebService soap报文请求与响应报文解析
  9. 手写数字的分割和识别
  10. 计算机的击键方法教学教案,学习敲击L键计算机教案