IT桔子是关注IT互联网行业的结构化的公司数据库和商业信息服务提供商,于2013年5月21日上线。

IT桔子致力于通过信息和数据的生产、聚合、挖掘、加工、处理,帮助目标用户和客户节约时间和金钱、提高效率,以辅助其各类商业行为,包括风险投资、收购、竞争情报、细分行业信息、国外公司产品信息数据服务等。

用于需自行对所发表或采集的内容负责,因所发表或采集的内容引发的一切纠纷、损失,由该内容的发表或采集者承担全部直接或间接(连带)法律责任,IT桔子不承担任何法律责任。

项目采集地址:http://www.itjuzi.com/company

要求:采集页面下所有创业公司的公司信息,包括以下但不限于:

# items.py# -*- coding: utf-8 -*-
import scrapyclass CompanyItem(scrapy.Item):# 公司id (url数字部分)info_id = scrapy.Field()# 公司名称company_name = scrapy.Field()# 公司口号slogan = scrapy.Field()# 分类scope = scrapy.Field()# 子分类sub_scope = scrapy.Field()# 所在城市city = scrapy.Field()# 所在区域area = scrapy.Field()# 公司主页home_page = scrapy.Field()# 公司标签tags = scrapy.Field()# 公司简介company_intro = scrapy.Field()# 公司全称:company_full_name = scrapy.Field()# 成立时间:found_time = scrapy.Field()# 公司规模:company_size = scrapy.Field()# 运营状态company_status = scrapy.Field()# 投资情况列表:包含获投时间、融资阶段、融资金额、投资公司tz_info = scrapy.Field()# 团队信息列表:包含成员姓名、成员职称、成员介绍tm_info = scrapy.Field()# 产品信息列表:包含产品名称、产品类型、产品介绍pdt_info = scrapy.Field()

IT桔子分布式项目1相关推荐

  1. 【爬虫学习笔记day66】7.8. scrapy-redis实战-- IT桔子分布式项目2

    文章目录 7.8. scrapy-redis实战-- IT桔子分布式项目2 项目实现: items.py settings.py middlewares.py spiders/juzi.py scra ...

  2. 【爬虫学习笔记day65】7.7. scrapy-redis实战-- IT桔子分布式项目1

    文章目录 7.7. scrapy-redis实战-- IT桔子分布式项目1 7.7. scrapy-redis实战-- IT桔子分布式项目1 IT桔子是关注IT互联网行业的结构化的公司数据库和商业信息 ...

  3. IT桔子分布式项目2

    项目实现: items.py # items.py# -*- coding: utf-8 -*- import scrapyclass CompanyItem(scrapy.Item):# 公司id ...

  4. 【ZZ】使用github管理Eclipse分布式项目开发

    2019独角兽企业重金招聘Python工程师标准>>> 老关我在前面的博文(github管理iOS分布式项目开发)中介绍了github管理iOS分布式开发,今天老关将向大家介绍使用g ...

  5. 使用github管理Eclipse分布式项目开发

    使用github管理Eclipse分布式项目开发 老关我在前面的博文(github管理iOS分布式项目开发)中介绍了github管理iOS分布式开发,今天老关将向大家介绍使用github管 理Ecli ...

  6. ASP.NET Core分布式项目实战(集成ASP.NETCore Identity)--学习笔记

    任务24:集成ASP.NETCore Identity 之前在 Index 页面写了一个 strong 标签,需要加个判断再显示,不然为空没有错误的时候也会显示 @if (!ViewContext.M ...

  7. ASP.NET Core分布式项目实战(Consent 确认逻辑实现)--学习笔记

    任务22:Consent 确认逻辑实现 接下来,我们会在上一节的基础上添加两个按钮,同意和不同意,点击之后会把请求 post 到 ConsentController 处理,如果同意会通过 return ...

  8. ASP.NET Core分布式项目实战(运行Consent Page)--学习笔记

    任务21:运行Consent Page 修改 Config.cs 中的 RequireConsent 为 true,这样登录的时候就会跳转到 Consent 页面 修改 ConsentControll ...

  9. ASP.NET Core分布式项目实战(Consent Controller Get请求逻辑实现)--学习笔记

    任务20:Consent Controller Get请求逻辑实现 接着上一节的思路,实现一下 ConsentController 根据流程图在构造函数注入 IClientStore,IResourc ...

最新文章

  1. BZOJ5323 [Jxoi2018]游戏 【数论/数学】
  2. zookeeper 分布式协调服务
  3. 前端预览word文件_[装机必备] QuickLook —— 敲击空格即可快速预览文件
  4. 三数之和—leetcode15
  5. 05 切片、迭代、列表生成
  6. python正则表达式元字符用法_正则表达式-常用元字符的基本使用
  7. 备份linux分区到usb,将Linux引导加载程序备份到USB的方法
  8. 9个元素换6次达到排序序列_排序总结:二大种,六小种排序方式
  9. Android 系统(88)---Android关键字persistent
  10. python语言实现rsa公钥密码算法_python 实现 rsa 算法加解密密码
  11. 做了一个阿里云MQTT单片机编程小工具
  12. 三维重建:三维重建技术概述
  13. 12306系统升级对电力营销系统改造的启示
  14. 解决页面刷新数据丢失,数据持久化问题
  15. 完整的电商网页,技术html,css
  16. linux设置NLS_LANG
  17. 设计模式之Tank大战02
  18. 【封面】把握软件产业发展新机遇 ——记第二十届中国国际软件博览会
  19. Java多线程读取excel文件_解决springboot 多线程使用MultipartFile读取excel文件内容报错问题...
  20. 自顶向下浅析go-iris框架

热门文章

  1. ctdb main loop
  2. TeamCity : 安装 Server
  3. oracle两种导出导入方式,即imp与impdp之比较
  4. VS2005常用插件
  5. APICACHE : Express/Node的API响应缓存中间件
  6. 容器编排技术 -- Kubernetes kubectl create service 命令详解
  7. 容器编排技术 -- Kubernetes kubectl create configmap 命令详解
  8. Java多线程相关的几十个问题
  9. Linux(服务器编程):25---epoll复用技术实现统一处理信号事件源
  10. js实现点击按钮复制文本功能