华尔街见闻下操作mysql_GitHub - boshengw-shzq/reainl: 华尔街见闻和新浪财经新闻采集...
华尔街和新浪财经新闻采集文档
一.技术选型
1.requests作为爬虫程序处理网络请求的框架
2.Beautiful作为解析网页的dom解析器
3.数据库用postgresql,自动化测试工具使用的是谷歌浏览器的测试软件chromedriver
二.开发环境
1.下载安装python3.4,debian8最新发行版自带python3.4版本,可通过在终端输入python3测试;若系统没有python3.4,使用以下命令安装:
# apt-get install python3.4
2.安装python包管理工具pip
# apt-get install python3-pip
3.下载安装pandas、python-dateutil、numpy、requests、bs4、selenium、psycopg2、lxml、tushare、forex_python、sqlalchemy包
# apt-get install python3-pandas
# pip3 install python-dateutil
# pip3 install numpy
# pip3 install requests
# pip3 install bs4
# pip3 install selenium
# pip3 install psycopg2
# pip3 install lxml
# pip3 install tushare
# pip3 install forex_python
# pip3 install sqlalchemy
4.下载谷歌浏览器,终端输入以下命令
# wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
# dpkg -i google-chrome*; sudo apt-get -f install
5.配置postgresql数据库
# apt-get install -y postgresql-9.4 postgresql-client-9.4 postgresql-contrib-9.4 postgresql-server-dev-9.4
安装postgresql图形化客户端
# apt-get install pgadmin3
三.前期准备
1.创建数据库表:在pgadmin III使用如下表语句创建table
新闻表:
CREATE TABLE public.news_cj(
news_date character varying(20),
spider_data timestamp,
news_source text,
news_type text,
news text
);
字段名
字段说明
news_data
新闻日期
spider_data
操作时间
news_source
新闻来源
news_type
新闻类型
news
新闻内容
2.晨报相关指数信息及涨跌幅数据库:middle_news_market会自动创建
字段名
字段说明
code
指数代码
name
指数名称
change
涨跌幅
open
字段说明
preclose
开盘点位
close
收盘点位
high
最高点位
low
最低点位
volume
成交量(手)
amount
成交金额(亿元)
3.美元指数信息表
CREATE TABLE public.stock_code (
stock_time character(20),
spider_data timestamp,
stock_name bpchar(5) NULL,
stock_price numeric(5,4) NULL,
stock_applies numeric(5,4) NULL
);
字段名
字段说明
stock_time
行情时间
spider_data
操作时间
stock_name
指数名称
stock_price
指数价格
stock_applies
涨跌幅
四、项目工程目录
系统各个模块之间的联系如下:
common/pgutils.py:主要连接postgresql数据库
db_init/morningdata.sql:主要是数据库建表语句
config.py:调用配置文件
index_read_time.py:主要是通过第三方包对相关指数信息及涨跌幅的信息进行采集
new_cj.py:主要是对新浪财经及华尔街见闻进行数据采集
settings.conf.template:主要是项目的一些配置文件模板,需拷贝至当前目录配置环境
logging.conf.template:主要是项目的日志文件模板
task_morning.sh:shell脚本执行程序
华尔街见闻下操作mysql_GitHub - boshengw-shzq/reainl: 华尔街见闻和新浪财经新闻采集...相关推荐
- classlist使用方法_如何通过使用HTML5的classList API在没有jQuery的情况下操作类
classlist使用方法 by Ayo Isaiah 通过Ayo Isaiah 如何通过使用HTML5的classList API在没有jQuery的情况下操作类 (How to manipulat ...
- python在windows下操作word的方法的代码
把写内容过程经常用的一些内容收藏起来,下边内容内容是关于python在windows下操作word的方法的内容,希望能对各位朋友有些好处. import win32com from win32com. ...
- Visual Studio 2017错误:无法启动程序,在当前状态下操作不合法
本文翻译自:Visual Studio 2017 error: Unable to start program, An operation is not legal in the current st ...
- word python 域 操作_python实现在windows下操作word的方法
本文实例讲述了python实现在windows下操作word的方法.分享给大家供大家参考.具体实现方法如下: import win32com from win32com.client import D ...
- 【OS学习笔记】二十二 保护模式六:保户模式下操作系统内核如何加载用户程序并运行 对应的汇编代码之用户程序
本汇编代码对应文章:保户模式下操作系统内核如何加载用户程序并运行中的实际用户程序代码. 对应的主引导扇区代码:主引导扇区代码 对应的内核代码:内核代码 ;代码清单13-3;文件名:c13.asm;文件 ...
- 【OS学习笔记】二十一 保护模式六:保户模式下操作系统内核如何加载用户程序并运行 对应的汇编代码之内核代码
本汇编代码对应文章保户模式下操作系统内核如何加载用户程序并运行 中的实际内核代码 对应的主引导扇区代码:主引导扇区代码 对应的用户程序代码:用户程序代码 ;代码清单13-2;文件名:c13_core. ...
- 【OS学习笔记】二十 保护模式六:保户模式下操作系统内核如何加载用户程序并运行 对应的汇编代码之主引导扇区程序
本汇编代码对应保户模式下操作系统内核如何加载用户程序并运行 的实际主引导扇区代码: 对应的内核代码在:内核代码 对应的用户程序代码在:用户程序代码 ;代码清单13-1;文件名:c13_mbr.asm; ...
- hbase linux 命令,在linux下操作hbase
在linux下操作hbase作者:bin 这个月比较忙,一直都没有时间整理最近学习的东西,T_T 这里介绍如何使用hbase shell进行操作hbase 具体的安装.配置,可以随意在网上找到,这里不 ...
- 怎么利用linux来操作手机,Linux_在Linux操作系统下操作蓝牙手机的方法,所谓操作,到现在只是通过蓝 - phpStudy...
在Linux操作系统下操作蓝牙手机的方法 所谓操作,到现在只是通过蓝牙做了二件事: 一.通过虚拟串口连接上手机,执行AT命令操作手机(发短信而已) 二.手机和电脑互传文件 如果使用redhat 9.0 ...
最新文章
- vlookup示例_VLOOKUP示例–如何在Excel中执行VLOOKUP
- 分享HTML5 canvas 的总结
- AgilePoint模型驱动BPM(业务流程管理)介绍
- 360安全路由器v2处理器_您的路由器有多不安全?
- 初学者UI设计临摹素材模板,请先搞清楚这4个分类!
- LeetCode刷题(43)--Combinations
- 钱少事多,开源项目维护人员几乎集体出走
- android mvp快速创建,学习MVPArms历程之Android Studio快速创建ArmsComponent组件化项目
- 【高等数学】基本求导法则与导数公式
- 334个地级市名单_2016年最新中国地级市名单
- 语音端点matlab,语音端点检测及其在Matlab中的实现
- mc服务器fabric安装位置,也许这是史上最详细的Fabric安装教程,助你在1.14/1.15安装mod...
- FOC矢量控制及BLDC控制中的端电压、相电压、线电压等概念别还傻傻分不清楚
- 我精心整理的一些大牌男装正品店
- PHP头条爬虫,今日头条爬虫分析-爬取用户发的所有内容
- Linux进程间通信(五)——进程间通信
- winsock和winsock2冲突
- EBS R12多组织的实现原理
- IPRAN学习中———整体网络部署设计思路
- 有声小说php源码,魅雅有声小说联盟程序 v5.0(PHP免费版)