金融作业:股吧评论_爬取、情绪与股价对比(贵州茅台和上证指数)
效果图(情绪与股价)
文件夹“上证指数吧——股评文本情感分析”爬取了40W+条股吧——上证指数吧的股评文本数据,并通过分析这些股评文本积极、消极情况,计算每天的情绪指数(BI_index),并和上证指数的走势做对比
文件夹data内容介绍:
negative.txt:用作训练集的消极文本语料,Github上的前辈提供
positive.txt:用作训练集的积极文本语料,Github上的前辈提供
股吧评论爬取.ipynb:对上证指数吧的发帖标题、发帖时间进行爬取(下午1点-4点之间爬取,不容易被封IP,其他时间段爬取100页数据后,IP地址会被股吧封禁,大概半小时后解封)
comments.xlsx:爬取的原始股评文本数据
jieba_cut.ipynb:给时间加上年份;对评论进行分词
sh000001.CSV:爬取的评论所处的这段时间里,上证指数的走势数据
sh000001.xlsx:也是爬取的评论所处的这段时间里,上证指数的走势数据
stock_comments_seg.csv:分好词的股评文本数据
金融作业:股吧评论_爬取、情绪与股价对比(贵州茅台和上证指数)相关推荐
- python爬取饿了么评论_爬取饿了么官网数据 scrapy
展开全部 Scrapy框架的初步运用 上午刚配置好scrapy框架,32313133353236313431303231363533e58685e5aeb931333363393734下午我就迫不及待 ...
- 股吧评论的爬取及词云图的制作
#导入模块 import requests import pandas as pd import time from bs4 import BeautifulSoup import jieba fro ...
- python爬取抖音评论_爬取抖音299w用户数据后的分析
纯好奇抖音用户构成做了这件事.抓取数据2999801条. (1) AnyProxy 查看app网络请求.发现url 会直接返回某个粉丝列表 . https://api.amemv.com/aweme/ ...
- python爬携程景区评论_python爬取携程景点评论信息
python爬取携程景点评论信息 今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为P ...
- 京东书籍信息及评论内容爬取
京东书籍信息及评论内容爬取 文章目录 京东书籍信息及评论内容爬取 前言 一.京东书籍商品页面分析 二.解析获取评论数 1.每个商品都有一个唯一的ID 2.分析标签,找到过滤词,进而找到需要的请求头 3 ...
- 腾讯新闻评论数据爬取
前言 鉴于最近在做观点挖掘的相关工作,观点的数据源是网络评论数据,于是第一个想到的就是新闻观点数据,一个热门的新闻可能一晚上就会有上万条评论,所以如何分析并利用好这些评论信息,将会是一件非常有意思的事 ...
- 爬虫项目八:Python对天猫商品数据、评论数据爬取
文章目录 前言 一.商品数据 1.分析url 2.登录账号 3.解析数据 4.模拟滑动滑块 二.评论数据 1.分析url 2.解析数据 前言 天猫商城商品数据.评论数据爬取 提示:以下是本篇文章正文内 ...
- 大数据信息资料采集:视频信息采集及评论内容爬取八爪鱼采集规则
大数据信息资料采集:视频信息采集及评论内容爬取八爪鱼采集规则 数据采集满足多种业务场景:适合产品.运营.销售.数据分析.政府机关.电商从业者.学术研究等多种身份职业. 舆情监控:全方位监测公开信息,抢 ...
- python抓取微博评论_Python爬取新浪微博评论数据,你有空了解一下?
开发工具 Python版本:3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装Pyth ...
最新文章
- CMU创建一个开源的AI代码生成模型,C语言表现优于Codex
- 写给非技术人员的机器学习指南
- linux将b1内容重定向到b3,linux
- flask基础(上篇)
- 电气:通过转移因子算法求解潮流
- 一文说通C#中的异步迭代器
- iOS开发之普通网络异步请求与文件下载方法
- 图像处理-空间域平滑滤波
- C#巧妙实现服务器端应用程序和asp网页交互
- 如何安装html启动器,如何在Spring Boot中创建自己的启动器?
- Poco官方PPT_020-ErrorHandlingAndDebugging双语对照翻译
- 前端怎么携带cookie发送php,PHP如何执行传递cookie的http请求并将结果保存到字符串...
- 外部接口需求怎么写_怎么写财务工作报告?送你16套高逼格财务工作报告范文PPT模板,满足不同行业会计需求!...
- java多线程访问beans对象_java-多线程同时操作同一个对象之解决方法:读写锁ReadWriteLock的使用...
- 数据存储: CheckBoxPreference
- 我是技术男,也曾创业过,也拿过风投......
- python下载电影_python爬取电影并下载
- HttpException: 503: Server Error for url:http://cic-1:9696/v2.0/security-groups, Service Unavailable
- 【机器学习】吴恩达机器学习Deeplearning.ai
- 【Java之五子棋】——java五子棋游戏