1、打开cmd,进入到项目准备所放在的文件夹,执行命令:

scrapy startproject douban

然后就可以使用pycharm打开项目了
2、建立spider文件
cmd命令行进入到项目的spiders文件夹,执行:
scrapy genspider douban_spider url

scrapy genspider douban_spider movie.douban.com

其中 spiderFileName为你所想创建的spider的文件名,url为你准备爬取的服务器域名,如 http://www.abc.com

然后可以在pycharm中进行编写了,如果没有新建的文件,就同步一下项目(项目名右键)

3、命令行中运行(spiders目录下):
scrapy crawl spiderName
其中,spiderName为 你建立的spiderFileName.py文件 中 name的值,默认与spiderFileName相同

4、在pycharm中直接运行项目:
可以在setting.py同目录下新建一个main.py文件,内容为:

  1. from scrapy import cmdline
  2. cmdline.execute(‘scrapy crawl douban_spider’.split())

后续在pycharm中需要运行项目时,只需要运行此文件即可
5、将爬到的数据存储到文件中,比如 test.json或test.csv或其它,在spiders文件夹下执行cmd指令:

  1. scrapy crawl spiderName -o test.json



可以在spiders目录下看到一个test.json文件,文件编码utf-8,如果用Excel打开csv文件为乱码,可以使用文本编辑器修改编码为utf-8(bom)即可
6、将爬到的数据存储到mongo数据库
mongodb GUI管理工具下载

python scrapy框架爬取豆瓣top250电影篇一Windows下建立Scrapy项目,pycharm编辑相关推荐

  1. scrapy爬取豆瓣top250电影数据

    scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...

  2. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  3. Python爬取豆瓣Top250电影中2000年后上映的影片信息

    Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

  4. Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除)

    Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除) import requests from bs4 import BeautifulSoup import ti ...

  5. Python爬取豆瓣Top250电影可见资料并保存为excel形式

    Python爬取豆瓣Top250电影可见资料并保存为excel形式 利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入. 具体思路 1.分析网页的headers. ...

  6. python采用requests+bs4爬取豆瓣top250电影信息

    爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...

  7. 基于Scrapy框架爬取豆瓣《复联4》影评,并生成词云

    基于Scrapy框架爬取豆瓣<复联4>影评,并生成词云 1. 介绍及开发环境 2. 爬虫实现 2.1 新建项目 2.2 构造请求 2.3 提取信息 2.4 数据存储 2.4 运行结果 3. ...

  8. 爬取豆瓣TOP250电影的评分、评价人数、短评等信息,并在其保存在sql数据库中。

    爬取目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在sql数据库中. 最终实现效果如图: 确定爬取的URL 爬取的网页地址为:https://movie.douban.com/ ...

  9. 爬取豆瓣top250电影并分析

    爬取豆瓣top250电影,提取评论关键词,然后将同一国家的关键词做成一个词云,轮廓是每个国家的地图轮廓 爬取数据 需要爬取电影名称.导演.年份.地区和前10个评论除了地区,其他的都没什么问题,我们来研 ...

最新文章

  1. MySQL中的时间函数用法集合
  2. 8086标志寄存器介绍及作用(未完)
  3. SFB 项目经验-55-另类更新Exchange 2016 KB
  4. POJ 3164 Command Network
  5. C++成员访问限定符 private public
  6. Java中对数组的排序方法总汇分析
  7. MFC开发IM-第十三篇、MFC改变字体重影的问题
  8. ros melodic控制真实机械臂之获取moveit规划插补点
  9. 密码学家王小云:十年破解MD5和SHA-1两大国际密码
  10. 使用Directshow + LAVFilter做一个万能格式的多媒体播放器
  11. Web安全—information_schema数据库详解基础补充
  12. 6.5-6.7 理解线性方程组解的结构
  13. hadoop day02
  14. zcmu-1359 NBA (水题)
  15. 使用rem,使字体大小自适应屏幕
  16. MySQL基础(三):视图、存储过程、事务与索引
  17. svn 命令行创建分支、合并主干
  18. android底层之什么是Zram?
  19. 简单的位图转换矢量图方法
  20. 2019年PMP考试报名费用介绍

热门文章

  1. Exchanger的工作原理及实例
  2. Odoo性能优化实战
  3. 是时候换个姿势使用 JavaScript 数组了
  4. 数据库复试--关系数据理论(主观题)
  5. ICNet: Information Conversion Network for RGB-D Based Salient Object Detection
  6. python进程磁盘满_Python填满磁盘
  7. Oracle数据库出现-12514错误
  8. PostgreSQL源码结构
  9. 五一大降价,骁龙8+手机比骁龙7G2手机划算
  10. ssm+vue基本微信小程序的购物商城小程序