爬取网易,搜狐,凤凰和澎湃网站评论数据,正负面情感分析
向AI转型的程序员都关注了这个号????????????
机器学习AI算法工程 公众号:datayx
Scrapy爬虫项目
基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地。
项目需求
1:爬取网易,搜狐,凤凰和澎湃新闻网站的文章及评论
2:新闻网页数目不少于10万页
3:每个新闻网页及其评论能在1天内更新
项目技术
1:设计一个网络爬虫,能够爬取指定网站的全部页面,并提取其中的文章及评论内容
2:定时运行网络爬虫,实现每日更新数据
首先从初始URL 开始,Scheduler 会将其交给 Downloader 进行下载,下载之后会交给 Spider 进行分析,这里的spider就是爬虫的核心功能代码,Spider分析出来的结果有两种:一种是需要进一步抓取的链接,它们会通过middleware传回 Scheduler ;另一种是需要保存的数据,送入Item Pipeline ,进行处理和存储,最后将所有数据输出并保存为文件
项目相关代码获取:
关注微信公众号 datayx 然后回复 情感分析 即可获取。
AI项目体验地址 https://loveai.tech
正负面情感分析
从舆情系统中爬取出了5000条关于电商评价的数据,人工进行对这5000条数据标注,分为正面和负面,做情感分析。训练模型,对后面爬取出的电商评论进行预测。
项目是一个NLP中的一个情感分析的业务,属于二分类任务。数据是舆情系统中从某电商平台上爬取下来的评论数据。人工对数据进行标记,分为两个类:分别为正面和负面。在很多模型进行比较后,决定用卷积网络,取得了很好的效果。
电商数据为csv格式,由evalution和label两个字段组成,风别为用户评论和正负面标签。对原始的文本进行分词,转编码等预处理。
模型训练:net.py和text_classification.py net.py:CNN模型和模型的参数 text_classification.py:训练模型。
模型预测:demo.py 保存模型,输出score为0.9334
阅读过本文的人还看了以下文章:
【全套视频课】最全的目标检测算法系列讲解,通俗易懂!
《美团机器学习实践》_美团算法团队.pdf
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
特征提取与图像处理(第二版).pdf
python就业班学习视频,从入门到实战项目
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
《深度学习之pytorch》pdf+附书源码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
《Python数据分析与挖掘实战》PDF+完整源码
汽车行业完整知识图谱项目实战视频(全23课)
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!
《神经网络与深度学习》最新2018版中英PDF+源码
将机器学习模型部署为REST API
FashionAI服装属性标签图像识别Top1-5方案分享
重要开源!CNN-RNN-CTC 实现手写汉字识别
yolo3 检测出图像中的不规则汉字
同样是机器学习算法工程师,你的面试为什么过不了?
前海征信大数据算法:风险概率预测
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
VGG16迁移学习,实现医学图像识别分类工程项目
特征工程(一)
特征工程(二) :文本数据的展开、过滤和分块
特征工程(三):特征缩放,从词袋到 TF-IDF
特征工程(四): 类别特征
特征工程(五): PCA 降维
特征工程(六): 非线性特征提取和模型堆叠
特征工程(七):图像特征提取和深度学习
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
蚂蚁金服2018秋招-算法工程师(共四面)通过
全球AI挑战-场景分类的比赛源码(多模型融合)
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在线识别手写中文网站
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx
QQ群
333972581
爬取网易,搜狐,凤凰和澎湃网站评论数据,正负面情感分析相关推荐
- python爬取凤凰新闻网_爬取网易,搜狐,凤凰和澎湃网站评论数据,正负面情感分析...
向AI转型的程序员都关注了这个号
- 爬取了京东商城上的部分手机评论数据,仅供学习使用
京东的手机评论数据爬虫,仅供学习使用 说明 爬取了京东商城上的部分手机评论数据.由于项目的数据量要求不大,仅仅采用了比较简单的方式来进行数据的爬取,过程分为两个部分: 根据不同的手机品牌选择了第一页的 ...
- 爬取携程和蚂蜂窝的景点评论数据\携程评论数据爬取\旅游网站数据爬取
本人长期出售超大量微博数据.旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com.同时欢迎加入社交媒体数据交流群:99918768 前言 ...
- python 携程_python爬取携程和蚂蜂窝的景点评论数据\python爬取携程评论数据\python旅游网站评论数...
本人长期出售超大量微博数据.旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com.同时欢迎加入社交媒体数据交流群:99918768 前言 为 ...
- Python爬取全球是最大的电影数据库网站IMDb数据
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 作者 Dark Horse 前言 在使用 Python 开发爬虫的过程中,requests 和 B ...
- python爬取《你好, 李焕英》豆瓣评论数据
# 导入工具包 import requests from bs4 import BeautifulSoup import time import pandas as pd import numpy a ...
- 爬取Google Scholar论文列表,如何利用公开数据进行合著作者分析?
Preface 之前同学读研选导师,帮忙参考了一下.我发现有些老师很年轻,但是 Google Scholar 各项数据都高得离谱(主要是 citation 和 h-index ),甚至轻松碾压一些在人 ...
- 爬取网易某只股票2017-01到2018-01的数据
import urllib.request import re import urllib import csv from selenium import webdriver from lxml im ...
- 爬取网易buff CSGO饰品数据 - 优化篇
文章目录 思路回顾 配置优化 RawConfigParser 处理配置列表 价格取舍 价格过滤 饰品类别限定 内部实现优化:结合价格筛选和饰品类别筛选 其他限定? 命名 The End 继上周末搞了c ...
最新文章
- R语言配对图可视化:配对图(pair plot)可视化(根据分类变量的值为散点图上的数据点添加颜色和形状、Add color and shape by variables)
- 有人统计了2万篇论文发现:想增加引用量,最好少说「黑话」
- eclipse hibernate配置文件(*.hbm.xml)加上自动提示功能
- 如何在Python中捕获SIGINT?
- ios 设置属性的center_ios-坐标系统(详解UIView的frame、bounds跟center属性[图])
- OpenCV 中的图像处理 004_平滑图像
- 193. 有效电话号码
- java一个式子开根号语句_Oracle查询语句,你知道几个?(上)
- js获取地址栏url以及获取url参数
- console ouput 与 重定向输出 效率对比
- 浅谈机器学习评估中的穿越问题
- 轻松打造自己的站内搜索引擎
- 交换机与路由器技术:静态路由配置和路由器上配置DHCP、虚拟局域网VLAN
- 多序列比对要多久时间_多序列比对软件Clustalw使用方法
- 监控记录交换机端口流量及性能,MSRM3一分钟搞定
- accept()函数说明
- (找规律)3,5,7,2,4,11,7,5,29,23,? 填什么数字
- Oracle总结(三):Oracle统计分析
- linux下修改ext3硬盘为nst,Linux系统备份与恢复
- STM32Cube_FW_F4_V1.17 F4固件包百度网盘下载
热门文章
- Windows 下安装 tensorflow keras opencv 的避坑指南!
- java.text.NumberFormat使用方法
- json and .net
- LaTeX tikz初探——空间矢量旋转示意图,四元数(4)
- python判断不等_Python黑魔法笔记第六关:消灭该死的重复(下)
- Some personal records
- 高性能游戏本搭服务器,为吃鸡而生,这几款高性能游戏本不容错过!
- php 创建自定义文件夹,Laravel 自定命令以及生成文件的例子
- mysql错误归纳_MySQL错误信息总结
- 提醒 顶部弹窗_电脑桌面怎么增加文字提醒?