近期需要爬取一些关于银行的新闻,通过尚硅谷老师的讲课进行学习,然后应用到东方财富网和新浪财经,现在以新浪财经为例,记录一下学习成果(有一说一,尚硅谷老师教的真不错(>ω<)喵)。此部分只讲操作,具体scrapy框架原理可以自行学习和了解。

1.首先是scrapy的安装
正常pip install scrapy就行,可能会遇到各种各样的报错,把错误复制到百度,一堆解决方案,这里就不赘述了。

2.scrapy项目创建
我想在E:\PythonProject\Crawl_Eastmoney_news下面创建,其中Crawl_Eastmoney_news是一个python工程

在终端中进入到E:\PythonProject\Crawl_Eastmoney_news路径,
然后输入命令 scrapy stratproject sinanews
这里sinanews是我项目的名字,大家可以根据需要改成自己项目的名字

回车运行一下,可以发现此时Crawl_Eastmoney_news项目下多了一个目录,就是我们刚刚新建的sinanews,sinanews下会出现一个spider目录、一个items.py文件、一个middlewares.py、一个pipelines.py文件和一个settings.py文件

3.创建爬虫文件
(1)首先在终端进入到spiders目录下

(2)终端输入 scrapy genspider sina_news finance.sina.com.cn

注意到sina_news是爬虫名称,不能跟爬虫项目名称sinanews一样

(3)结果
spiders下面会产生一个爬虫文件

爬虫文件的内容如下:

4.对网站进行简单测试
(1)修改parse

(2)运行scrapy crawl sina_news可以看到打印内容


如果不想看到这么多日志内容,可以在settings.py文件中加入:LOG_LEVEL = 'WARNING’

查看网页内容,则用response.text


可以在控制台或者终端查看到网页源码

1.scrapy项目创建——python scrapy 爬取新浪财经财经新闻相关推荐

  1. python 爬取财经新闻股票_70行python代码爬取新浪财经中股票历史成交明细

    70行python代码爬取新浪财经中股票历史成交明细 发布时间:2018-07-28 01:55, 浏览次数:635 , 标签: python 最近在研究股票量化,想从每笔成交的明细着手,但历史数据的 ...

  2. Python爬虫爬取懂球帝足球新闻(分类,分标签,多页,存数据库,去重)

    爬虫目标网址:https://www.dongqiudi.com/news 打开网址后向下滑动看到我即将爬取的国际新闻板块 咦?说好的五大联赛的呢?看不起法甲?好吧,将就一下,就爬取"欧洲四 ...

  3. python指定爬取新浪新闻

    目录 前言 xpath工具和requests 步骤 爬虫的四大步骤 思路 代码 效果 最终效果 总结 前言 又是一个宁静的晚上,看到同学们聊的新闻如此的开心,有说有笑的,我仿佛像个空气一样找不到话题, ...

  4. 70行python代码爬取新浪财经中股票历史成交明细

    最近在研究股票量化,想从每笔成交的明细着手,但历史数据的获取便是一个大问题,一些股票证券软件又不能批量导出成交数据.所以,我花了两天时间,成功的从新浪财经爬取了我要的数据 下面开始 新浪股票明细数据接 ...

  5. python爬取路透社财经新闻

    一.需求: 近期打算做一个财经事件分析预测的系统,需要爬取大量新闻作为数据集训练模型,于是写了爬虫去爬取路透社的财经新闻. 二.思路: 观察: i. 观察路透社财经新闻的网页源代码,发现该网页每页显示 ...

  6. python爬虫爬取新浪网站新闻内容

    我们以爬取sina时尚模块为例 准备工作 为进行爬虫爬取工作,我们需要进行相关库的准备以及对网页设置布局的了解 相关库的准备 import os import re import urllib fro ...

  7. Python爬虫爬取新浪新闻内容

    首先感谢丘祐玮老师在网易云课堂的Python网络爬虫实战课程,接下来也都是根据课程内容而写.一来算是自己的学习笔记,二来分享给大家参考之用. 课程视频大概是在16年11月录制的,现在是18年2月.其中 ...

  8. python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)

    废话不多说,直接贴代码,主要采用BeautifulSoup写的 #coding:utf8from bs4 import BeautifulSoup import urllib2 import urll ...

  9. Python爬虫——爬取某网站新闻

    文章目录 前言 一.基本目标 二.使用步骤 整体代码 结果 总结 前言

  10. 用 Python selenium爬取股票新闻并存入mysql数据库中带翻页功能demo可下载

    用 Python selenium爬取实时股票新闻并存入mysql数据库中 1.分析需求 2.创建表 3.分析需要爬取的网页内容 4.python里面selenium进行爬虫操作 1.添加包 2.连接 ...

最新文章

  1. mesos安装,webui显示不正常
  2. PAT甲级1031 Hello World for U:[C++题解]模拟、数学运算
  3. 安装win2008R2启动修复失败
  4. php定时发送生日模块消息_RocketMQ消息队列介绍与应用
  5. mysql 时间周期_数据库三大周期阶段
  6. 作为曾经的 Web 开发“王者”,jQuery 的传奇怎么续写?
  7. LOJ2181 排序
  8. paip.log4j 日志系统 参数以及最佳实践
  9. MACD神器 通达信指标公式 副图 源码 无加密 无未来
  10. ubuntu中颜色拾取器的安装以及16进制ARGB值在线转颜色
  11. 动名词到底什么时候才用? ———— 英语菜鸟最后的倔强!
  12. 集成 FileDownloader 总结
  13. 【CTF】Misc4——多种方法解决+闪的好快+come_game+白哥的鸽子+linux
  14. 椭圆机和跑步机哪个更好
  15. 11.[STM32]PWM脉宽调制-呼吸灯
  16. C++11时代的标准库快餐教程(4) - 排序算法的应用
  17. 基于AForge的C#摄像头视频录制
  18. 实用技巧 | Chrome浏览器如何对标签页进行分组整理?
  19. 36岁女博士找教职之路,真的懵了....
  20. 50个好用的前端框架,千万收好以留备用!

热门文章

  1. 深入理解5G SSB协议
  2. 无线网络有信号显示未连接网络连接服务器,无线上网显示未识别网络怎么办
  3. ESP32彩屏显示入门(一):我要五彩斑斓的黑,还有五光十色的白 | ESP32轻松学(Arduino版)
  4. 日常部署之OA办公系统源码OA协同办公源码包含CRM客户管理系统+内部聊天工具+自适应手机(含php源码)
  5. C++ 小游戏 视频及资料集(9)
  6. 电子计算机eniac的储存能力有限 只能,电子计算机ENIAC的存储能力有限,只能存储简单的控制程序代码。...
  7. 飞信登录时SIPC认证失败解决
  8. 学计算机如何防辐射,如何防辐射?学这五招_39健康网
  9. elasticsearch搜索引擎搭建
  10. html计时加速,HTML-加速、再加速(下)_html