卷积神经网络&&爬虫实现网易新闻自动爬取并分类

项目地址

采用THUCnews全部数据集进行训练,效果如下。 详细实现见./text_classification

部署步骤如下:


运行环境

服务器:Ubuntu 16.04
数据库:Mysql 5.6
python:Anaconda 5.1
Tensorflow-CPU:1.7
额外的包:参考requirements.txt,有则忽略,无则安装。

certifi==2018.1.18
chardet==3.0.4
Django==2.0.4
docopt==0.6.2
idna==2.6
mysql-connector==2.1.6
pipreqs==0.4.9
pytz==2018.4
requests==2.18.4
SQLAlchemy==1.2.6
urllib3==1.22
yarg==0.1.9

  1. 首先安装mysql到数据库,执行text_classification.sql创建数据库。更改数据库配置./text_classification/connect_mysql.py
  2. 服务器安装Anaconda(清华大学镜像站自行下载安装),安装TensorFlow-CPU版
  3. 将本项目部署至/home/www目录下
  4. 安装其他依赖包

pip install -r requirements.txt 服务器部署Django环境(apache2.4)
参考:https://code.ziqiangxuetang.com/django/django-deploy.html 关于本项目部署中的Django配置请看以下操作
安装 apache2 和 mod_wsgi
sudo apt-get install apache2
sudo apt-get install libapache2-mod-wsgi-py3
新建网站配置文件
vim /etc/apache2/sites-available/text_classification.conf
输入以下内容

<VirtualHost classify.i-ll.cc:80>ServerName classify.i-ll.ccServerAlias classify.i-ll.ccServerAdmin dandanv5@hotmail.comAlias /static /home/www/text_classification/static<Directory /home/www/text_classification>Require all granted</Directory>WSGIScriptAlias / /home/www/text_classification/myweb/wsgi.py<Directory /home/www/text_classification/myweb><Files wsgi.py>Require all granted</Files></Directory>
</VirtualHost>

激活新网站

sudo a2ensite sitename.conf
7. 启动项目
cd /home/www/text_classification/text_classification && sh startproject.sh
项目运行日志在./log下

最后本项目使用的THUCNews中文新闻数据集,可以去官网下载。我对数据集进行了整合处理,下载地址见./text_classification/data/cnews/README.md
关于本项目中模型和爬虫部分,详见./text_classification/README.md

代码有问题请直接提issues。

部署有疑问请直接联系:

QQ:447600334
Email:dandanv5@hotmail.com

参考:CNN字符级中文文本分类-基于TensorFlow实现

转载于:https://www.cnblogs.com/Chizhao/p/10439733.html

卷积神经网络爬虫实现新闻在线分类系统相关推荐

  1. 卷积神经网络实现THUCNews新闻文本分类(Pytorch实现)

    代码结构 整体代码结构如下图所示: 点击run.py文件,直接运行.可以手动调节参数以及更换模型 1数据集 本文采用的数据集属于清华NLP组提供的THUCNews新闻文本分类数据集的一个子集(原始的数 ...

  2. 卷积神经网络(CNN)实现CIFAR100类别分类

    卷积神经网络(CNN)实现CIFAR100类别分类 1. CIFAR100数据集介绍 这个数据集就像CIFAR-10,除了它有100个类,每个类包含600个图像.,每类各有500个训练图像和100个测 ...

  3. 基于卷积神经网络的温室黄瓜病害识别系统

    基于卷积神经网络的温室黄瓜病害识别系统 1.研究思路 针对温室现场采集的黄瓜病害图像中含有较多光照不均匀和复杂背景等噪声的情况,采用了一种复合颜色特征(combinations of color fe ...

  4. python裂缝检测_基于卷积神经网络的高楼外墙裂缝检测系统

    fy the severity, general or slight damage degree of external wall cracks, and the effective identifi ...

  5. 深度学习实战——利用卷积神经网络对手写数字二值图像分类(附代码)

    系列文章目录 深度学习实战--利用卷积神经网络对手写数字二值图像分类(附代码) 目录 系列文章目录 前言 一.案例需求 二.MATLAB算法实现 三.MATLAB源代码 参考文献 前言 本案例利用MA ...

  6. Kaggle深度学习与卷积神经网络项目实战-猫狗分类检测数据集

    Kaggle深度学习与卷积神经网络项目实战-猫狗分类检测数据集 一.相关介绍 二.下载数据集 三.代码示例 1.导入keras库,并显示版本号 2.构建网络 3.数据预处理 4.使用数据增强 四.使用 ...

  7. 基于卷积神经网络的多类别乳腺癌分类(IEEE会议)

    Multiclass Breast Cancer Classification Using Convolutional Neural Network  摘要:如今,分类系统的质量依赖于数据集的表示,这 ...

  8. 前 Google 科学家林德康详解:卷积神经网络如何应用于文本分类 | AI 研习社

    提起卷积神经网络(Convolutional Neural Network, CNN),大部分人首先会想到图像识别.图像分类.图像处理等视觉应用场景.的确,CNN 在计算机视觉领域做出了巨大贡献,是当 ...

  9. 卷积神经网络图像分类之猫狗分类实验

    TensorFlow+Keras实现猫狗图像分类 一.前期工作 二.分类实现 1.分类训练图片 2.卷积神经网络 3. 优化模型 三.小结 一.前期工作 安装anaconda 新建一个工作空间,在里面 ...

最新文章

  1. Linux下环境变量配置方法梳理(.bash_profile和.bashrc的区别)
  2. python处理excel表格实例-python读写Excel表格的实例代码
  3. javascript Array方法总结
  4. IBM携手三菱东京日联银行 将区块链用于合同管理
  5. 20120321java
  6. 移除Kubeadm部署的kubernetes环境
  7. linux系统防火墙白名单,linux系统防火墙如何结束白名单
  8. 斜齿轮重合度计算公式_斜齿齿轮传动中重合度计算的探讨
  9. 五种百度云盘下载速度慢解决方法
  10. 大气数据计算机英语,大气数据计算机(ADC)
  11. 康师傅就“水源事件”发声明 称矿物质水合标
  12. 软件工程人才的社会需求现状与发展趋势分析
  13. linux获取笔记本摄像头视频,Linux下利用Opencv打开笔记本摄像头问题
  14. 服务器C盘内存不足,发现C盘TEMP文件夹占用44G
  15. NSDate计算时间差
  16. oracle禁用系统用户登录,关闭系统 - 在 x86 平台上引导和关闭 Oracle Solaris
  17. [译] Dweb: 用 WebTorrent 搭建一个可复原的 Web (中英)
  18. 分享一个查看电脑卡顿原因的神器Process Explorer
  19. ERROR: Could not find a version that satisfies the requirement flake8 (from versions: none) ERROR: N
  20. 译文 Ceph:一个可扩展,高性能分布式文件系统

热门文章

  1. 百钱买白鸡与啤酒饮料
  2. ajax 五种状态,ajax的五种状态
  3. linux数字雨代码解释,linux提权 漏洞合集 linux-kernel-exploits
  4. rabbitmq如何保证消息不被重复消费_如何保证消息不被重复消费
  5. ERROR 2384 — [ main] o.s.boot.SpringApplication : Application run failed
  6. 大学python教材思维导图_Python核心知识体系的14张思维导图
  7. LeetCode 1798. 你能构造出连续值的最大数目
  8. activiti页面展示流程图乱码_activiti 5.17 流程图中文乱码问题
  9. java 流程控制篇 2021/02/26持续更新中
  10. 基于uCOSII的LCD驱动实验