1.scrapy项目创建——python scrapy 爬取新浪财经财经新闻
近期需要爬取一些关于银行的新闻,通过尚硅谷老师的讲课进行学习,然后应用到东方财富网和新浪财经,现在以新浪财经为例,记录一下学习成果(有一说一,尚硅谷老师教的真不错(>ω<)喵)。此部分只讲操作,具体scrapy框架原理可以自行学习和了解。
1.首先是scrapy的安装
正常pip install scrapy就行,可能会遇到各种各样的报错,把错误复制到百度,一堆解决方案,这里就不赘述了。
2.scrapy项目创建
我想在E:\PythonProject\Crawl_Eastmoney_news下面创建,其中Crawl_Eastmoney_news是一个python工程
在终端中进入到E:\PythonProject\Crawl_Eastmoney_news路径,
然后输入命令 scrapy stratproject sinanews
这里sinanews是我项目的名字,大家可以根据需要改成自己项目的名字
回车运行一下,可以发现此时Crawl_Eastmoney_news项目下多了一个目录,就是我们刚刚新建的sinanews,sinanews下会出现一个spider目录、一个items.py文件、一个middlewares.py、一个pipelines.py文件和一个settings.py文件
3.创建爬虫文件
(1)首先在终端进入到spiders目录下
(2)终端输入 scrapy genspider sina_news finance.sina.com.cn
注意到sina_news是爬虫名称,不能跟爬虫项目名称sinanews一样
(3)结果
spiders下面会产生一个爬虫文件
爬虫文件的内容如下:
4.对网站进行简单测试
(1)修改parse
(2)运行scrapy crawl sina_news可以看到打印内容
如果不想看到这么多日志内容,可以在settings.py文件中加入:LOG_LEVEL = 'WARNING’
查看网页内容,则用response.text
可以在控制台或者终端查看到网页源码
1.scrapy项目创建——python scrapy 爬取新浪财经财经新闻相关推荐
- python 爬取财经新闻股票_70行python代码爬取新浪财经中股票历史成交明细
70行python代码爬取新浪财经中股票历史成交明细 发布时间:2018-07-28 01:55, 浏览次数:635 , 标签: python 最近在研究股票量化,想从每笔成交的明细着手,但历史数据的 ...
- Python爬虫爬取懂球帝足球新闻(分类,分标签,多页,存数据库,去重)
爬虫目标网址:https://www.dongqiudi.com/news 打开网址后向下滑动看到我即将爬取的国际新闻板块 咦?说好的五大联赛的呢?看不起法甲?好吧,将就一下,就爬取"欧洲四 ...
- python指定爬取新浪新闻
目录 前言 xpath工具和requests 步骤 爬虫的四大步骤 思路 代码 效果 最终效果 总结 前言 又是一个宁静的晚上,看到同学们聊的新闻如此的开心,有说有笑的,我仿佛像个空气一样找不到话题, ...
- 70行python代码爬取新浪财经中股票历史成交明细
最近在研究股票量化,想从每笔成交的明细着手,但历史数据的获取便是一个大问题,一些股票证券软件又不能批量导出成交数据.所以,我花了两天时间,成功的从新浪财经爬取了我要的数据 下面开始 新浪股票明细数据接 ...
- python爬取路透社财经新闻
一.需求: 近期打算做一个财经事件分析预测的系统,需要爬取大量新闻作为数据集训练模型,于是写了爬虫去爬取路透社的财经新闻. 二.思路: 观察: i. 观察路透社财经新闻的网页源代码,发现该网页每页显示 ...
- python爬虫爬取新浪网站新闻内容
我们以爬取sina时尚模块为例 准备工作 为进行爬虫爬取工作,我们需要进行相关库的准备以及对网页设置布局的了解 相关库的准备 import os import re import urllib fro ...
- Python爬虫爬取新浪新闻内容
首先感谢丘祐玮老师在网易云课堂的Python网络爬虫实战课程,接下来也都是根据课程内容而写.一来算是自己的学习笔记,二来分享给大家参考之用. 课程视频大概是在16年11月录制的,现在是18年2月.其中 ...
- python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)
废话不多说,直接贴代码,主要采用BeautifulSoup写的 #coding:utf8from bs4 import BeautifulSoup import urllib2 import urll ...
- Python爬虫——爬取某网站新闻
文章目录 前言 一.基本目标 二.使用步骤 整体代码 结果 总结 前言
- 用 Python selenium爬取股票新闻并存入mysql数据库中带翻页功能demo可下载
用 Python selenium爬取实时股票新闻并存入mysql数据库中 1.分析需求 2.创建表 3.分析需要爬取的网页内容 4.python里面selenium进行爬虫操作 1.添加包 2.连接 ...
最新文章
- mesos安装,webui显示不正常
- PAT甲级1031 Hello World for U:[C++题解]模拟、数学运算
- 安装win2008R2启动修复失败
- php定时发送生日模块消息_RocketMQ消息队列介绍与应用
- mysql 时间周期_数据库三大周期阶段
- 作为曾经的 Web 开发“王者”,jQuery 的传奇怎么续写?
- LOJ2181 排序
- paip.log4j 日志系统 参数以及最佳实践
- MACD神器 通达信指标公式 副图 源码 无加密 无未来
- ubuntu中颜色拾取器的安装以及16进制ARGB值在线转颜色
- 动名词到底什么时候才用? ———— 英语菜鸟最后的倔强!
- 集成 FileDownloader 总结
- 【CTF】Misc4——多种方法解决+闪的好快+come_game+白哥的鸽子+linux
- 椭圆机和跑步机哪个更好
- 11.[STM32]PWM脉宽调制-呼吸灯
- C++11时代的标准库快餐教程(4) - 排序算法的应用
- 基于AForge的C#摄像头视频录制
- 实用技巧 | Chrome浏览器如何对标签页进行分组整理?
- 36岁女博士找教职之路,真的懵了....
- 50个好用的前端框架,千万收好以留备用!
热门文章
- 深入理解5G SSB协议
- 无线网络有信号显示未连接网络连接服务器,无线上网显示未识别网络怎么办
- ESP32彩屏显示入门(一):我要五彩斑斓的黑,还有五光十色的白 | ESP32轻松学(Arduino版)
- 日常部署之OA办公系统源码OA协同办公源码包含CRM客户管理系统+内部聊天工具+自适应手机(含php源码)
- C++ 小游戏 视频及资料集(9)
- 电子计算机eniac的储存能力有限 只能,电子计算机ENIAC的存储能力有限,只能存储简单的控制程序代码。...
- 飞信登录时SIPC认证失败解决
- 学计算机如何防辐射,如何防辐射?学这五招_39健康网
- elasticsearch搜索引擎搭建
- html计时加速,HTML-加速、再加速(下)_html