孙建言 马雨欣 武文杰

摘要:通过Python和Scrapy框架的使用,实现了一个对电商商品和商品评价信息的爬取系统,文中详细地介绍了该系统的设计过程,能够完成需求中的功能,并且对所有爬取下来的数据进行了分析,对商品的不同品牌各类信息进行比对。

关键词:网络爬虫;Python;数据分析

中图分类号:G434        文献标识码:A

文章编号:1009-3044(2019)26-0061-03

开放科学(资源服务)标识码(OSID):

Abstract: Through the use of Python and Scrapy framework, a crawling system for commercial mobile phone products and commodity evaluation information is realized. The design process of the system is introduced in detail, which can complete the functions in demand. All the crawled data are analyzed and the information of different brands of products is compared.

Key words: network crawler; Python; data analysis

1 引言

近年来,随着电商行业的兴起和物流产业的飞速发展,人们网上购物日益普遍。电商平台商品琳琅满目良莠不齐,加上商家往往夸大商品效果,甚至采用刷单手段增加商品人气,往往造成消费者不能理性选择优质商品。

人们早已意识到互联网中的数据是有待开采的巨大金矿,这些数据将会改善我们的生活,网络爬虫的出现以及相应人才的增多正是基于对数据价值的重视。目前已经存在很多基于网络爬虫的比货网站,但大多数都只是爬取商品的参数的比较,难以站在消费者的角度上去比较商品之间的优劣。

本課题目的是通过爬虫技术,使得在电商购买商品时能从各参数和用户体验方面给消费者一个客观、可靠、可信的购机推荐。

2 关键性开发技术

2.1 Python

Python是一种开源的面向对象的脚本语言。Python由于其易理解性、易读性以及简洁性,以及对云计算、大数据与人工智能开发有很好的支持,因此越来越受到大众的喜欢。它的代码重用性很高,Python的模块库庞大到恐怖,几乎无所不包。因此,没有特殊要求的网络爬虫,最好选择使用Python。

2.2 Scrapy

Scrapy是一个使用Python语言编写的开源网络爬虫框架,目前由Scrapinghub Ltd维护。Scrapy具有简单易用、灵活易拓展、开发社区活跃,并且是跨平台的等优点。在Linux、MaxOS以及Windows平台都可以使用。Scrapy是Python语言下最流行的网络爬虫框架,开发者只需要对几个特定的模块进行开发就能写出一个稳定高效的网络爬虫。所以本爬虫程序选择了这个框架。

2.3 Django

Django项目是Python语言的定制框架,它源自一个在线新闻Web站点,于2005年以开源的形式被释放出来。Django框架的核心组件包括用于创建模型的对象关系映射、为最终用户设计完美的管理界面、一流的URL设计、设计者友好的模板语言、缓存系统。Django鼓励快速开发,并遵循MVC设计理念。它的主要目的是简便、快速地开发数据库驱动的网站。它强调代码的复用,还有许多功能强大的第三方插件,甚至可以很方便地开发出自己的工具包,这使Django具有很强的可拓展性。

2.4  Ajax

AJAX(Asynchronous JavaScript and XML,异步JavaScript和XML)是使用JavaScript向服务器发出请求,并获取返回信息,但是AJAX技术与传统方式不同的是,使用AJAX不会刷新整个页面。这种技术拓展了Web应用的功能,丰富了Web客户端表现的能力,体现出了特别好的交互性。大型网站一般都会用这种技术。

3  爬虫框架分析

在从网站中提取数据时,没有 "一刀切" 的方法。很多时候都会采取临时方法,如果开始为执行的每个小任务编写代码,那么使用Scrapy框架是最佳的选择,因为其提供了一系列方便的应用模板。

Scrapy 使用了Twisted异步网络库来处理网络通讯,并从数据流的角度揭示了Scrapy工作原理,整体架构大致如图1所示。

其中,各个组件的介绍如下表所示。

4系统整体模块设计

各个模块功能简述如下:

爬虫模块:主要是用来爬取数据,爬取京东商城上的手机商品信息的数据,包括手机的标题、手机的品牌、手机的价格、手机的图片链接、手机的参数。爬完这些信息后,接下来会对每个商品的评价的进行爬取,这里需要说明的是京东商品的评价只展示一百页,一百页之后就无法获取数据了。

数据分析模块:主要是对爬取的评论进行分析,采用了结巴中文分词包,对评论进行分词,再通过构造的stop字典、情感字典、程度词字典等,对每条评论进行情感极性判断,最终计算出每个商品积极情感率。

数据展示模块:主要是对爬取的商品信息以及数据分析的结果和pygal对获取的数据进行各种绘图,最终通过ajax与django后端交互在网页中显示出来。

由于分析网页评论加载方式,发现是和价格加载方式一样,通过json接口,而各商品评论直接json接口的主要区别也在于商品的id,于是就设计了如下爬虫方案:

基于python 爬虫网络舆情分析系统_基于Python的网络爬虫系统相关推荐

  1. 网络舆情分析技术 读书笔记2

    网络舆情的信息采集 网络舆情分析,广义上包括从网络舆情的信息采集开始到最后舆情信息服务这一系列流程,首先是从互联网上采集舆情信息,对采集得到的web页面进行信息预处理,在预处理的基础上进行关键信息的抽 ...

  2. 招商银行fintech选拔课题---《基于微博爬虫的舆情分析》上

    最近参加了招商银行总行的fintench精英技术训练营的选拔赛,在通过笔试后,进入了课题研究的环节.因为前段时间学习了一段时间Python,所以选择了<基于微博爬虫的舆情分析>这一课题.该 ...

  3. 网络舆情分析系统的研究与设计

    Quanlong Guan1, Saizhi Ye2, Guoxiang Yao2, Huanming Zhang1, Linfeng Wei2, Gazi Song2, Kejing He3 1中国 ...

  4. 网络舆情分析检测系统是干什么的,TOOM舆情分析提供哪些服务?

    网络舆情分析检测系统是一种利用自然语言处理和机器学习技术对社交媒体.新闻媒体.论坛等网络平台上的信息进行分析和监测的系统.它的主要功能是收集和分析网络上的信息,然后根据分析结果提供决策支持和预警服务. ...

  5. 网络舆情分析关键词怎么获取的系统平台方法

    舆情热点事件发生后,有效做好舆情应对工作的前提是先要做好舆情分析工作.一般来说,比较常见的舆情分析方式就是对舆情分析关键词进行提取,通过关键词来搜集精准有效的数据信息进行分析. 由于舆情热点产生后,会 ...

  6. 基于文本和图像的网络舆情分析方法研究

    基于文本和图像的网络舆情分析方法研究 一.舆情分析技术 (1)舆情数据采集与提取技术: (2)自动文摘技术: (3)事件发现与追踪技术: (4)舆情情感分析技术. 二.舆情情感分析模型 (1)基于知识 ...

  7. 网络舆情分析公司哪家的系统好推荐

    现在不管是线上还是线下专门做网络舆情分析服务的公司不在少数,比如我们去网上搜索舆情监测.舆情系统.舆情分析等这一类的关键词,可以看到好多相关的公司.但至于网络舆情分析公司哪家的系统好就不得而知了,毕竟 ...

  8. 舆情监测技术方案,网络舆情分析技术手段有哪些?

    网络舆情分析技术手段着力于利用技术实现对海量的网络舆情信息进行深度挖掘与分析,以快速汇总成舆情信息,从而代替人工阅读和分析网络舆情信息的繁复工作,接下来TOOM舆情监测小编带您简单了解舆情监测技术方案 ...

  9. 廊坊师范学院吧网络舆情分析报告

    1.背景介绍 1.1大数据背景 现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物.大数据并不在"大", ...

  10. 网络舆情分析的三个步骤及具体实施方案

    面对网上繁杂且多变的舆情信息数据,对于舆情分析师或舆情专员们来说,网络舆情怎么分析是其共同面临的一大难题. 接下来,小编就来为各位进行解答,提供了如下网络舆情监测公司的舆情平台解决方案,供参考,具体如 ...

最新文章

  1. 网络推广营销之网站优化选择优质友情链接的标准
  2. 【划分树】 POJ 2104 HDU 2665 K-th Number 裸题
  3. ADO.NET Entity Framework -Code Fisrt 开篇(一)
  4. Spring MVC一事务控制问题
  5. UVA 753 A Plug for UNIX (最大流)
  6. python用什么处理文件_利用Python如何快速处理文件
  7. Linux SD卡建立两个分区
  8. 类别的作用?继承和类别在实现中有何区别
  9. Java 病毒感染检测
  10. 禅道下载mysql_本地已有mysql 数据库,安装禅道后数据库访问不了
  11. 【学习笔记】生物数据库の初步了解
  12. 美通企业日报 | 易车收到腾讯等私有化要约;沃尔玛中国推出快时尚品牌George...
  13. Spring Boot(四)—— Spring MVC自动配置
  14. 并发编程——Forkjoin设计模式原理
  15. 血手耳机与笔记本驱动冲突
  16. 学校计算机专业春联大全带横批,关于学校的春联带横批.doc
  17. CentOS 7安装并启动Google浏览器
  18. 干货分享:小程序项目实践和经验总结
  19. IO进程——系统IO与文件IO
  20. 联发科2021笔试题1

热门文章

  1. FreeSWITCH会议指南
  2. 华为OSPF多区域配置实例
  3. 讲讲NVivo11的版本细节
  4. 深井地下水监测测量仪
  5. 2022最新Web前端经典面试试题及答案-史上最全前端面试题(含答案)
  6. HFSS - 侧馈矩形微带天线设计与仿真
  7. 加密解密之 crypto-js 知识
  8. Windows10系统JDK下载和安装
  9. 时间序列分析思维导图
  10. H5前端框架说明文档