华尔街和新浪财经新闻采集文档

一.技术选型

1.requests作为爬虫程序处理网络请求的框架

2.Beautiful作为解析网页的dom解析器

3.数据库用postgresql,自动化测试工具使用的是谷歌浏览器的测试软件chromedriver

二.开发环境

1.下载安装python3.4,debian8最新发行版自带python3.4版本,可通过在终端输入python3测试;若系统没有python3.4,使用以下命令安装:

# apt-get install python3.4

2.安装python包管理工具pip

# apt-get install python3-pip

3.下载安装pandas、python-dateutil、numpy、requests、bs4、selenium、psycopg2、lxml、tushare、forex_python、sqlalchemy包

# apt-get install python3-pandas

# pip3 install python-dateutil

# pip3 install numpy

# pip3 install requests

# pip3 install bs4

# pip3 install selenium

# pip3 install psycopg2

# pip3 install lxml

# pip3 install tushare

# pip3 install forex_python

# pip3 install sqlalchemy

4.下载谷歌浏览器,终端输入以下命令

# wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb

# dpkg -i google-chrome*; sudo apt-get -f install

5.配置postgresql数据库

# apt-get install -y postgresql-9.4 postgresql-client-9.4 postgresql-contrib-9.4 postgresql-server-dev-9.4

安装postgresql图形化客户端

# apt-get install pgadmin3

三.前期准备

1.创建数据库表:在pgadmin III使用如下表语句创建table

新闻表:

CREATE TABLE public.news_cj(

news_date character varying(20),

spider_data timestamp,

news_source text,

news_type text,

news text

);

字段名

字段说明

news_data

新闻日期

spider_data

操作时间

news_source

新闻来源

news_type

新闻类型

news

新闻内容

2.晨报相关指数信息及涨跌幅数据库:middle_news_market会自动创建

字段名

字段说明

code

指数代码

name

指数名称

change

涨跌幅

open

字段说明

preclose

开盘点位

close

收盘点位

high

最高点位

low

最低点位

volume

成交量(手)

amount

成交金额(亿元)

3.美元指数信息表

CREATE TABLE public.stock_code (

stock_time character(20),

spider_data timestamp,

stock_name bpchar(5) NULL,

stock_price numeric(5,4) NULL,

stock_applies numeric(5,4) NULL

);

字段名

字段说明

stock_time

行情时间

spider_data

操作时间

stock_name

指数名称

stock_price

指数价格

stock_applies

涨跌幅

四、项目工程目录

系统各个模块之间的联系如下:

common/pgutils.py:主要连接postgresql数据库

db_init/morningdata.sql:主要是数据库建表语句

config.py:调用配置文件

index_read_time.py:主要是通过第三方包对相关指数信息及涨跌幅的信息进行采集

new_cj.py:主要是对新浪财经及华尔街见闻进行数据采集

settings.conf.template:主要是项目的一些配置文件模板,需拷贝至当前目录配置环境

logging.conf.template:主要是项目的日志文件模板

task_morning.sh:shell脚本执行程序

华尔街见闻下操作mysql_GitHub - boshengw-shzq/reainl: 华尔街见闻和新浪财经新闻采集...相关推荐

  1. classlist使用方法_如何通过使用HTML5的classList API在没有jQuery的情况下操作类

    classlist使用方法 by Ayo Isaiah 通过Ayo Isaiah 如何通过使用HTML5的classList API在没有jQuery的情况下操作类 (How to manipulat ...

  2. python在windows下操作word的方法的代码

    把写内容过程经常用的一些内容收藏起来,下边内容内容是关于python在windows下操作word的方法的内容,希望能对各位朋友有些好处. import win32com from win32com. ...

  3. Visual Studio 2017错误:无法启动程序,在当前状态下操作不合法

    本文翻译自:Visual Studio 2017 error: Unable to start program, An operation is not legal in the current st ...

  4. word python 域 操作_python实现在windows下操作word的方法

    本文实例讲述了python实现在windows下操作word的方法.分享给大家供大家参考.具体实现方法如下: import win32com from win32com.client import D ...

  5. 【OS学习笔记】二十二 保护模式六:保户模式下操作系统内核如何加载用户程序并运行 对应的汇编代码之用户程序

    本汇编代码对应文章:保户模式下操作系统内核如何加载用户程序并运行中的实际用户程序代码. 对应的主引导扇区代码:主引导扇区代码 对应的内核代码:内核代码 ;代码清单13-3;文件名:c13.asm;文件 ...

  6. 【OS学习笔记】二十一 保护模式六:保户模式下操作系统内核如何加载用户程序并运行 对应的汇编代码之内核代码

    本汇编代码对应文章保户模式下操作系统内核如何加载用户程序并运行 中的实际内核代码 对应的主引导扇区代码:主引导扇区代码 对应的用户程序代码:用户程序代码 ;代码清单13-2;文件名:c13_core. ...

  7. 【OS学习笔记】二十 保护模式六:保户模式下操作系统内核如何加载用户程序并运行 对应的汇编代码之主引导扇区程序

    本汇编代码对应保户模式下操作系统内核如何加载用户程序并运行 的实际主引导扇区代码: 对应的内核代码在:内核代码 对应的用户程序代码在:用户程序代码 ;代码清单13-1;文件名:c13_mbr.asm; ...

  8. hbase linux 命令,在linux下操作hbase

    在linux下操作hbase作者:bin 这个月比较忙,一直都没有时间整理最近学习的东西,T_T 这里介绍如何使用hbase shell进行操作hbase 具体的安装.配置,可以随意在网上找到,这里不 ...

  9. 怎么利用linux来操作手机,Linux_在Linux操作系统下操作蓝牙手机的方法,所谓操作,到现在只是通过蓝 - phpStudy...

    在Linux操作系统下操作蓝牙手机的方法 所谓操作,到现在只是通过蓝牙做了二件事: 一.通过虚拟串口连接上手机,执行AT命令操作手机(发短信而已) 二.手机和电脑互传文件 如果使用redhat 9.0 ...

最新文章

  1. vlookup示例_VLOOKUP示例–如何在Excel中执行VLOOKUP
  2. 分享HTML5 canvas 的总结
  3. AgilePoint模型驱动BPM(业务流程管理)介绍
  4. 360安全路由器v2处理器_您的路由器有多不安全?
  5. 初学者UI设计临摹素材模板,请先搞清楚这4个分类!
  6. LeetCode刷题(43)--Combinations
  7. 钱少事多,开源项目维护人员几乎集体出走
  8. android mvp快速创建,学习MVPArms历程之Android Studio快速创建ArmsComponent组件化项目
  9. 【高等数学】基本求导法则与导数公式
  10. 334个地级市名单_2016年最新中国地级市名单
  11. 语音端点matlab,语音端点检测及其在Matlab中的实现
  12. mc服务器fabric安装位置,也许这是史上最详细的Fabric安装教程,助你在1.14/1.15安装mod...
  13. FOC矢量控制及BLDC控制中的端电压、相电压、线电压等概念别还傻傻分不清楚
  14. 我精心整理的一些大牌男装正品店
  15. PHP头条爬虫,今日头条爬虫分析-爬取用户发的所有内容
  16. Linux进程间通信(五)——进程间通信
  17. winsock和winsock2冲突
  18. EBS R12多组织的实现原理
  19. IPRAN学习中———整体网络部署设计思路
  20. 有声小说php源码,魅雅有声小说联盟程序 v5.0(PHP免费版)

热门文章

  1. GIS标准分幅工具——制作图幅接合表
  2. 如何从访客属性分析网站用户群
  3. 【遇见Doris】Apache Doris 在京东广告平台的应用
  4. 浙江一盗窃案犯罪嫌疑人陪朋友去警局“打酱油”被抓
  5. UR5机械臂仿真环境搭建
  6. chrome64新增的Performance Monitor
  7. Android手机QQ的UI自动化实践,音视频服务器开发难点
  8. QT西游回合制源码+java后台管理系统
  9. 基于最小错误率的贝叶斯决策实现手写数字识别
  10. IT业界新闻资讯网站推荐