基于网络爬虫技术的网络新闻分析系统
20002 基于网络爬虫技术的网络新闻分析系统
运行视频、代码等:
链接:https://pan.baidu.com/s/1tw4Qvtcuwt7ys36M7HvLSg
提取码:1589
复制这段内容后打开百度网盘手机App,操作更方便哦
技术
Java + HttpClient + IK Analyze(分词器) + JFreeChart
功能详情
- 数据抽取
- 数据清洗
- 数据分析
- 数据展示
主要包括了网络爬虫模块、中文分词模块、中文相似度判定模块、数据结构化存储模块、数据可视化展示模块
系统相关截图
- 系统结构图
- 中文分词结果
- 爬虫结果
# -*- coding: utf-8 -*-
from django.http import HttpResponse
from django.conf import settings
from django.views.decorators.csrf import csrf_exempt
import os
import uuid
import json
import datetime as dt@csrf_exempt
def upload_image(request, dir_name):################### kindeditor图片上传返回数据格式说明:# {"error": 1, "message": "出错信息"}# {"error": 0, "url": "图片地址"}##################result = {"error": 1, "message": "上传出错"}files = request.FILES.get("imgFile", None)print(dir_name)print(files)print(files.__dict__)if files:result = image_upload(files, dir_name)return HttpResponse(json.dumps(result), content_type="application/json")# 目录创建
def upload_generation_dir(dir_name):today = dt.datetime.today()print(today)print(today.year,today.month,today.minute,today.second)# 生成递归目录dir_name = dir_name + '/%d/%d/' % (today.year, today.month)print(dir_name) # kindeditor/2018/10/if not os.path.exists(settings.RICHTEXT_ROOT):os.makedirs(settings.RICHTEXT_ROOT)return dir_name# 图片上传
def image_upload(files, dir_name):# 允许上传文件类型allow_suffix = ['jpg', 'png', 'jpeg', 'gif', 'bmp']file_suffix = files.name.split(".")[-1]if file_suffix not in allow_suffix:return {"error": 1, "message": "图片格式不正确"}relative_path_file = upload_generation_dir(dir_name)# print(relative_path_file)path = os.path.join(settings.RICHTEXT_ROOT, relative_path_file)print(path)if not os.path.exists(path): # 如果目录不存在创建目录os.makedirs(path)file_name = str(uuid.uuid1()) + "." + file_suffix # 给上传的图片重命名# print(file_name)path_file = os.path.join(path, file_name) #拼接文件的在服务器下的绝对路径print(path_file)file_url = '/static/uploadsTheRichText/' + relative_path_file + file_nameprint(file_url)open(path_file, 'wb').write(files.file.read())return {"error": 0, "url": file_url}
"""
Django settings for yg project.Generated by 'django-admin startproject' using Django 1.11.3.For more information on this file, see
https://docs.djangoproject.com/en/1.11/topics/settings/For the full list of settings and their values, see
https://docs.djangoproject.com/en/1.11/ref/settings/
"""import os# Build paths inside the project like this: os.path.join(BASE_DIR, ...)
BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))# Quick-start development settings - unsuitable for production
# See https://docs.djangoproject.com/en/1.11/howto/deployment/checklist/# SECURITY WARNING: keep the secret key used in production secret!
SECRET_KEY = 'm9&8nug2$p(kh1g$w8z(gl7$h&sqfw3ar!3r@j3oxdb*q*b*50'# SECURITY WARNING: don't run with debug turned on in production!
DEBUG = TrueALLOWED_HOSTS = ['*']# Application definitionINSTALLED_APPS = ['django.contrib.admin','django.contrib.auth','django.contrib.contenttypes','django.contrib.sessions','django.contrib.messages','django.contrib.staticfiles','manager.apps.ManagerConfig','goods.apps.GoodsConfig','user','news'
]MIDDLEWARE = ['django.middleware.security.SecurityMiddleware','django.contrib.sessions.middleware.SessionMiddleware','django.middleware.common.CommonMiddleware','django.middleware.csrf.CsrfViewMiddleware','django.contrib.auth.middleware.AuthenticationMiddleware','django.contrib.messages.middleware.MessageMiddleware','django.middleware.clickjacking.XFrameOptionsMiddleware',
]ROOT_URLCONF = 'yg.urls'TEMPLATES = [{'BACKEND': 'django.template.backends.django.DjangoTemplates','DIRS': [os.path.join(BASE_DIR, 'templates')],'APP_DIRS': False,'OPTIONS': {'context_processors': ['django.template.context_processors.debug','django.template.context_processors.request','django.contrib.auth.context_processors.auth','django.contrib.messages.context_processors.messages',],},},
]WSGI_APPLICATION = 'yg.wsgi.application'# Database
# https://docs.djangoproject.com/en/1.11/ref/settings/#databases#
DATABASES = {'default': {# 'ENGINE': 'django.db.backends.sqlite3',# 'NAME': os.path.join(BASE_DIR, 'db.sqlite3'),'ENGINE': 'django.db.backends.mysql','NAME': 'xianhua','USER': 'outcome','PASSWORD': 'ALHc79JvoHmxJ9Xifj','HOST': 'rm-wz9yxho9eg3x33hpono.mysql.rds.aliyuncs.com','PORT': '3306'},}# Password validation
# https://docs.djangoproject.com/en/1.11/ref/settings/#auth-password-validatorsAUTH_PASSWORD_VALIDATORS = [{'NAME': 'django.contrib.auth.password_validation.UserAttributeSimilarityValidator',},{'NAME': 'django.contrib.auth.password_validation.MinimumLengthValidator',},{'NAME': 'django.contrib.auth.password_validation.CommonPasswordValidator',},{'NAME': 'django.contrib.auth.password_validation.NumericPasswordValidator',},
]# Internationalization
# https://docs.djangoproject.com/en/1.11/topics/i18n/LANGUAGE_CODE = 'en-us'TIME_ZONE = 'UTC'USE_I18N = TrueUSE_L10N = TrueUSE_TZ = True# Static files (CSS, JavaScript, Images)
# https://docs.djangoproject.com/en/1.11/howto/static-files/#静态文件 的路由
STATIC_URL = '/static/'
STATICFILES_DIRS = [os.path.join(BASE_DIR,'static')] # 上传商品图片路径和显示商品根路径
MEDIA_ROOT = os.path.join(BASE_DIR,'static') # 商家logo上传路径和商家logo显示路径# 设置富文本的上传存储路径
RICHTEXT_URL = '/uploads/'
RICHTEXT_ROOT = os.path.join(BASE_DIR,'static/uploadsTheRichText') # BASE_DIR 绝对路径# 关闭浏览器 cookie 失效
SESSION_EXPIRE_AT_BROWSER_CLOSE = FalseEMAIL_BACKEND = 'django.core.mail.backends.smtp.EmailBackend'# smtp服务的邮箱服务器 我用的是163
EMAIL_HOST = 'smtp.163.com'#smtp服务固定的端口是25
EMAIL_PORT = 25# #smtp服务固定的端口是25;ssl端口为:465/994
# EMAIL_PORT = 994
# #打开SSL加密传输
# EMAIL_USE_SSL = True#发送邮件的邮箱
EMAIL_HOST_USER = '17854168235@163.com'#在邮箱中设置的客户端授权密码
EMAIL_HOST_PASSWORD = 'szm123'#收件人看到的发件人
EMAIL_FROM = '<admin@163.com>'# DATABASE_ROUTERS = ['yg.myrouter.DBRouter']SIMPLEUI_STATIC_OFFLINE = True
基于网络爬虫技术的网络新闻分析系统相关推荐
- 【项目精选】基于网络爬虫技术的网络新闻分析(论文+源码+视频)
基于网络爬虫技术的网络新闻分析主要用于网络数据爬取.本系统结构如下: (1)网络爬虫模块. (2)中文分词模块. (3)中3文相似度判定模块. (4)数据结构化存储模块. (5)数据可视化展示模块. ...
- 爬虫应用|基于网络爬虫技术的网络新闻分析
作者主页:编程指南针 作者简介:Java领域优质创作者.CSDN博客专家 .掘金特邀作者.多年架构师设计经验.腾讯课堂常驻讲师 主要内容:Java项目.毕业设计.简历模板.学习资料.面试题库.技术互助 ...
- java毕业设计——基于java+Jsoup+HttpClient的网络爬虫技术的网络新闻分析系统设计与实现(毕业论文+程序源码)——网络新闻分析系统
基于java+Jsoup+HttpClient的网络爬虫技术的网络新闻分析系统设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于java+Jsoup+HttpClient的网络爬虫技术的网络 ...
- 基于网络爬虫的负面信息搜集系统
这篇应该早就写的,该程序已实际运行了一段时间. 主要模块(网络爬虫+微信交互) 1.网络爬虫毫无疑问是本项目的核心,由于定位搜集p2p的负面信息,我们尝试了三个目标源(百度.网贷之家.网贷天眼) 核心 ...
- 网络爬虫技术的设计与实现
基于网络爬虫技术的网络新闻分析主要用于网络数据爬取.本系统结构如下: (1)网络爬虫模块. (2)中文分词模块. (3)中3文相似度判定模块. (4)数据结构化存储模块. (5)数据可视化展示模块. ...
- java网络爬虫技术也可以代替Python实现网络新闻分析系统
导读:自从大数据的概念被提出后,互联网数据成为了越来越多的科研单位进行数据挖掘的对象.网络新闻数据占据了互联网数据的半壁江山,相比传统媒体,其具有传播迅速.曝光时间短.含有网民舆论等相关特征,其蕴含的 ...
- python网络爬虫_python小知识,基于Python 的网络爬虫技术分析
在现阶段大数据的时代中,想要实现对数据的获取和分析,要先具备足够的数据源,网络爬虫技术就为其数据获取提供了良好的条件,且还能够实现对数据源的目的性采集. 在网络爬虫技术应用中,Python 脚本语言的 ...
- 爬虫技术python流程图_基于Python的网络爬虫技术研究
基于 Python 的网络爬虫技术研究 王碧瑶 [摘 要] 摘要:专用型的网络爬虫能够得到想要的返回结果 , 本文就以拉勾网作 为例子 , 对基于 Python 的网络爬虫技术进行研究和分析. [期刊 ...
- 【毕业设计_课程设计】基于网络爬虫的新闻采集和订阅系统的设计与实现(源码+论文)
文章目录 0 项目说明 1 项目说明 2 系统需求 3 系统架构 4 效果展示 5 论文目录 6 项目工程 0 项目说明 基于网络爬虫的新闻采集和订阅系统的设计与实现 提示:适合用于课程设计或毕业设计 ...
最新文章
- VUE的本地应用-V-TEXT
- Web3.js 0.20.x API 中文版翻译 1
- 【观点】开发人员的测试悖论
- [原创]java WEB学习笔记02:javaWeb开发的目录结构
- c获取当前系统时间_Python系统:程序和进程
- Li Fei-fei写给她学生的一封信,如何做好研究以及写好PAPER
- Failed to initiate service connection to simulator
- 基于JAVA+Servlet+JSP+MYSQL的在线购物系统
- No package 'glib-2.0' found
- Linux 3.2.8 内核启动过程
- java从0单排之java就业培训教程复习与面试题回顾——02
- win10下Miracast无线投屏使用教程及异常解决方案(超详细)
- 给我一个支点,我要撬动地球。
- 基于mysql+php065企业公文流转系统
- 涉密计算机设备保密管理系统,保密室设备——涉密计算机及移动存储介质保密管理系统(三合一)...
- java 构造方法 继承_java-继承/构造方法?
- Who is the lion(谁是狮子)!
- Linux 下的chromium浏览器出现no internet connection错误
- idea下maven下载依赖ssl错误
- 最新成果展示:Ga2O3-SBD计算模型