Scrapy的简单使用

近期国内引进了一些动漫电影，然而博主还没有去看~(￣▽￣)~*，外面阳性太多，遂先看看网上的风评如何，兴趣使然，此处就用scrapy来收集下某站上该电影的短评

初始化scrapy项目

初始化项目

# 先安装下依赖包
(venv) xadocker@xadocker-virtual-machine:~/PycharmProjects/untitled1$
pip3 install bs4 scrapy# 使用scrapy创建一个采集项目douban
(venv) xadocker@xadocker-virtual-machine:~/PycharmProjects/untitled1$ scrapt startproject douban
(venv) xadocker@xadocker-virtual-machine:~/PycharmProjects/untitled1$ ll
total 20
drwxrwxr-x 5 xadocker xadocker 4096 12月 14 15:44 ./
drwxrwxr-x 4 xadocker xadocker 4096 12月 14 15:41 ../
drwxrwxr-x 3 xadocker xadocker 4096 12月 14 17:43 douban/
drwxrwxr-x 3 xadocker xadocker 4096 12月 14 19:08 .idea/
drwxrwxr-x 6 xadocker xadocker 4096 12月 14 15:41 venv/# 创建一个spider movie_comment
(venv) xadocker@xadocker-virtual-machine:~/PycharmProjects/untitled1$ scrap genspider movie_comment movie.xxx.com

调整settings.py

# 调整settings.py中以下两个参数即可
USER_AGENT = 'User-Agent=Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0'
# Obey robots.txt rules
ROBOTSTXT_OBEY = False

至此基本配置算是完成了，接下来就开始编写spider了

电影短评spider编写

上面初始项目时创建了一个名为movie_comment的spider

(venv) xadocker@xadocker-virtual-machine:~/PycharmProjects/untitled1$ ll douban/douban/spiders/
total 20
drwxrwxr-x 3 xadocker xadocker 4096 12月 14 19:39 ./
drwxrwxr-x 5 xadocker xadocker 4096 12月 14 19:40 ../
-rw-rw-r-- 1 xadocker xadocker  161 12月 14 15:43 __init__.py
-rw-rw-r-- 1 xadocker xadocker 1558 12月 14 19:39 movie_comment.py
drwxrwxr-x 2 xadocker xadocker 4096 12月 14 19:39 __pycache__/

使用bs4来解析页面，同时使用css解析器来过滤数据

通过观察页面分析，可以通过css选择器获取具有class=’comment-item’的集合

comment_set = soup.select('.comment-item')
print(type(comment_set))
for user in comment_set:print(user)

展开其中一个列表，我们先简单的获取第一页的短评中的几个字段：

用户名称：user.select(‘div.avatar > a’)[0][‘title’].strip()
短评时间：user.select(‘div.comment > h3 > span.comment-info > span.comment-time’)[0].string.strip()
短评内容：user.select(‘div.comment > p > span.short’)[0].string.strip()
短评票数：user.select(‘div.comment > h3 > span.comment-vote > span’)[0].string.strip()

所以我们初始的spider如下movie_comment.py

import scrapy
from bs4 import BeautifulSoupclass MovieCommentSpider(scrapy.Spider):name = 'movie_comment'allowed_domains = ['movie.douban.com']start_urls = ['https://movie.xxxx.com/subject/35675082/comments?limit=20&status=P&sort=new_score']def parse(self, response):item = {}r = response.text# print(r)soup = BeautifulSoup(r,'lxml')comment_set = soup.select('.comment-item')# print(type(comment_set))for user in comment_set:item['comment_date'] = user.select('div.comment > h3 > span.comment-info > span.comment-time')[0].string.strip()item['comment_user'] = user.select('div.avatar > a')[0]['title'].strip()item['comment_vote'] = user.select('div.comment > h3 > span.comment-vote > span')[0].string.strip()item['comment_content'] = user.select('div.comment > p > span.short')[0].string.strip()# print(comment_date,comment_user,comment_vote,comment_content)print(item,'\n')

运行spider开始采集

(venv) xadocker@xadocker-virtual-machine:~/PycharmProjects/untitled1/douban$ scrapy crawl movie_comment
2022-12-14 21:43:08 [scrapy.utils.log] INFO: Scrapy 2.7.1 started (bot: douban)
2022-12-14 21:43:08 [scrapy.utils.log] INFO: Versions: lxml 4.9.2.0, libxml2 2.9.14, cssselect 1.2.0, parsel 1.7.0, w3lib 2.1.1, Twisted 22.10.0, Python 3.8.0 (default, Dec  9 2021, 17:53:27) - [GCC 8.4.0], pyOpenSSL 22.1.0 (OpenSSL 3.0.7 1 Nov 2022), cryptography 38.0.4, Platform Linux-5.4.0-132-generic-x86_64-with-glibc2.27
2022-12-14 21:43:08 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'douban','NEWSPIDER_MODULE': 'douban.spiders','REQUEST_FINGERPRINTER_IMPLEMENTATION': '2.7','SPIDER_MODULES': ['douban.spiders'],'TWISTED_REACTOR': 'twisted.internet.asyncioreactor.AsyncioSelectorReactor','USER_AGENT': 'User-Agent=Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; ''rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0'}
2022-12-14 21:43:08 [asyncio] DEBUG: Using selector: EpollSelector
2022-12-14 21:43:08 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.asyncioreactor.AsyncioSelectorReactor
2022-12-14 21:43:08 [scrapy.utils.log] DEBUG: Using asyncio event loop: asyncio.unix_events._UnixSelectorEventLoop
2022-12-14 21:43:08 [scrapy.extensions.telnet] INFO: Telnet Password: 1d1e99a9f0b3f857
2022-12-14 21:43:08 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats','scrapy.extensions.telnet.TelnetConsole','scrapy.extensions.memusage.MemoryUsage','scrapy.extensions.logstats.LogStats']
2022-12-14 21:43:08 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware','scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware','scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware','scrapy.downloadermiddlewares.useragent.UserAgentMiddleware','scrapy.downloadermiddlewares.retry.RetryMiddleware','scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware','scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware','scrapy.downloadermiddlewares.redirect.RedirectMiddleware','scrapy.downloadermiddlewares.cookies.CookiesMiddleware','scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware','scrapy.downloadermiddlewares.stats.DownloaderStats']
2022-12-14 21:43:08 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware','scrapy.spidermiddlewares.offsite.OffsiteMiddleware','scrapy.spidermiddlewares.referer.RefererMiddleware','scrapy.spidermiddlewares.urllength.UrlLengthMiddleware','scrapy.spidermiddlewares.depth.DepthMiddleware']
2022-12-14 21:43:08 [scrapy.middleware] INFO: Enabled item pipelines:
['douban.pipelines.DoubanPipeline']
2022-12-14 21:43:08 [scrapy.core.engine] INFO: Spider opened
2022-12-14 21:43:08 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2022-12-14 21:43:08 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2022-12-14 21:43:09 [filelock] DEBUG: Attempting to acquire lock 140420844892016 on /home/xadocker/.cache/python-tldextract/3.8.0.final__venv__0354b0__tldextract-3.4.0/publicsuffix.org-tlds/de84b5ca2167d4c83e38fb162f2e8738.tldextract.json.lock
2022-12-14 21:43:09 [filelock] DEBUG: Lock 140420844892016 acquired on /home/xadocker/.cache/python-tldextract/3.8.0.final__venv__0354b0__tldextract-3.4.0/publicsuffix.org-tlds/de84b5ca2167d4c83e38fb162f2e8738.tldextract.json.lock
2022-12-14 21:43:09 [filelock] DEBUG: Attempting to release lock 140420844892016 on /home/xadocker/.cache/python-tldextract/3.8.0.final__venv__0354b0__tldextract-3.4.0/publicsuffix.org-tlds/de84b5ca2167d4c83e38fb162f2e8738.tldextract.json.lock
2022-12-14 21:43:09 [filelock] DEBUG: Lock 140420844892016 released on /home/xadocker/.cache/python-tldextract/3.8.0.final__venv__0354b0__tldextract-3.4.0/publicsuffix.org-tlds/de84b5ca2167d4c83e38fb162f2e8738.tldextract.json.lock
2022-12-14 21:43:09 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://movie.xxx.com/subject/35675082/comments?limit=20&status=P&sort=new_score> (referer: None)
{'comment_date': '2022-08-08 23:11:30', 'comment_user': '陈', 'comment_vote': '775', 'comment_content': '尬住了，敷衍的打斗和过度的特效溢出屏幕的光污染。'} {'comment_date': '2022-08-08 19:04:10', 'comment_user': 'Tei', 'comment_vote': '506', 'comment_content': 'ado个人演唱会'} {'comment_date': '2022-09-25 19:19:57', 'comment_user': '次等水货', 'comment_vote': '272', 'comment_content': '作为民工漫里最长寿的一部是有道理的，对粉丝来说这是一场蓄谋已久的狂欢，红发动容，热血和激情澎湃，贝波打call真的可爱极了。对非粉来说也没有观看难度，剧情对每一个出场的角色都有照顾，乌塔是香克斯的女儿自始至终都不会变，这是一次温柔的家庭和解，也是对银幕内外泛滥的负面情绪的一场救赎，乌塔想要创造一个没有苦难的世界，毫不意外最终是梦境一场，但一次完整的、有起有兴的ADO演唱会也能让人心头一软。'} {'comment_date': '2022-08-08 16:20:33', 'comment_user': '辣手修猫', 'comment_vote': '306', 'comment_content': '这是开了一场个人演唱会啊，我觉得这个很适合小朋友看，大人的话闭上眼睛听听音乐还是可以的，剧情几乎是为零。'} {'comment_date': '2022-09-29 11:58:38', 'comment_user': '林微云', 'comment_vote': '233', 'comment_content': '缤纷的色彩，华丽的音符，仿佛在电影院听了一场Live演唱会，让人梦回大和歌姬时代过是阴谋的一体两面。你是愿意沉迷在甜美的歌声中死去，还是宁愿辛苦努力踏实过每一天？魔法音乐的这个哲思，要怎么回答才能安全地活下去'} {'comment_date': '2022-09-21 23:46:44', 'comment_user': '犯罪嫌疑人', 'comment_vote': '463', 'comment_content': '这就是歌姬吧？'} {'comment_date': '2022-09-22 20:32:11', 'comment_user': '桃桃林林', 'comment_vote': '169', 'comment_content': '等于看了一场演唱会，ADO的歌还是不错的。'} {'comment_date': '2022-08-08 13:31:24', 'comment_user': '动物世界', 'comment_vote': '417', 'comment_content': '这也太粉丝向幼龄化了，海贼现在就疯狂过滤收集高浓缩粉丝吗？'} {'comment_date': '2022-12-01 23:06:37', 'comment_user': 'Rocktemple', 'comment_vote': '116', 'comment_content': '又是被自我感动的东亚爹气死的一天'} {'comment_date': '2022-12-02 21:27:24', 'comment_user': '问宝侠', 'comment_vote': '37', 'comment_content': '好漫长又随意的一部剧场版，槽点真的有比隔壁柯南少吗……加各种强行的设定也一定要促个三星吧。\n\n对池田秀一的声音都要有阴影了，又是这种被过度神话的装逼人物。另外，中文字幕强行翻译成航海王就很真的很能让人意识到，到底为什么这些不偷不杀不作恶的人要自称“海贼”。每次看乌塔和路飞就“为什么要当海贼”鸡同鸭讲地吵起来时，都很想打断他们，“其实他只是想当巡游世界的夺宝奇兵啦”。'} {'comment_date': '2022-08-06 23:02:52', 'comment_user': '盛夏朝颜', 'comment_vote': '997', 'comment_content': '尾田这两年没少看女团吧'} {'comment_date': '2022-08-09 16:47:33', 'comment_user': '血浆爱好者', 'comment_vote': '209', 'comment_content': '好烂的歌舞片。'} {'comment_date': '2022-12-02 11:47:08', 'comment_user': 'dddd', 'comment_vote': '151', 'comment_content': '买red电影票送uta演唱会门票'} {'comment_date': '2022-12-01 21:04:48', 'comment_user': 'Anything Goes!', 'comment_vote': '145', 'comment_content': '久违的在影院看电影，感谢海贼让我渡过近期最有意义的两个小时！\n乌塔那么出色，难怪路飞刚出海的时候，就嚷嚷着要找音乐家当伙伴												

											
Scrapy的简单使用相关推荐	

						使用python的scrapy框架简单的爬取豆瓣读书top250
		使用python的scrapy框架简单的爬取豆瓣读书top250 一.配置scrapy环境 1. 配置相应模块 如果没有配置过scrapy环境的一般需要安装lxml.PyOpenssl.Twisted ...
		
								scrapy初步-简单静态爬虫(爬取电影天堂所有电影)
		之前用java写过一个简单的爬取电影天堂信息的爬虫,后来发现用python写这种简单的爬虫程序更简单,异步网络框架在不使用多线程和多进程的情况下也能增加爬取的速度,目前刚开始学scrapy,用这个写了 ...
		
						Python:Scrapy 框架简单介绍
		Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非 ...
		
						scrapy 的简单应用 爬取图片之家
		scrapy 2.3版本 目的:https://www.tupianzj.com/meinv/ 网站的图片爬取 gitHUB:https://github.com/fddqfddq/scrapy/tr ...
		
						Python Scrapy 爬虫简单教程
		导览 1. Scrapy install 2. Scrapy 项目创建 3. Scrapy 自定义爬虫类 4. Scrapy 处理逻辑 5. Scrapy 扩展 1. Scrapy install 准 ...
		
						Scrapy框架简单爬虫demo
		一.导读 接着上一节的Scrapy环境搭建,这次我们开始长征的第二步,如果第一步的还没走,请出门右转(Scrapy爬虫框架环境搭建) 二.步骤 新建Scrapy项目 项目名称是scrapyDemo s ...
		
						Python Scrapy简单爬虫-爬取澳洲药店，代购党的福音
		身在澳洲,近期和ld决定开始做代购,一拍即合之后开始准备工作.众所周知,澳洲值得买的也就那么点东西,奶粉.UGG.各种保健品,其中奶粉价格基本万年不变,但是UGG和保健品的价格变化可能会比较大.所以, ...
		
						scrapy简单爬取内容
		scrapy的简单爬取不用新建项目.安装好scrapy后编写爬虫文件 import scrapyclass ZaobaoScrapy(scrapy.Spider):name = "zaoba ...
		
						python分布式爬虫框架_python之简单Scrapy分布式爬虫的实现
		分布式爬虫:爬虫共用同一个爬虫程序,即把同一个爬虫程序同时部署到多台电脑上运行,这样可以提高爬虫速度. 在默认情况下,scrapy爬虫是单机爬虫,只能在一台电脑上运行,因为爬虫调度器当中的队列queu ...
		
		

					
最新文章	

						Java 异常处理中对于 finally 的一些思考
		
						SVM针对中文文本分类
		
						html input ng model,Angular自定义指令中传递ngModel
		
						mysql 做回归模型_GitHub - themycode/intelligent-test-platform: intelligent-test-platform
		
						在Golang中使用Protobuf
		
						scp 一次拷贝多个文件
		
						python线程,进程,队列和缓存
		
						DB2 导入CSV文件
		
						使用dockerfile搭建java运行环境
		
						数据结构与算法分析Java版pdf
		
						数据透视表练习表格_将高级电子表格导出与PHP结合起来以创建数据透视表
		
						计算机专业，25岁成985高校博导，13篇顶会！入职半年发ICML，网友：万点暴击...
		
						只有一条线的生存分析图 复杂一点的生存分析 及其参数详细解释
		
						移动APP开发的三种常见模式
		
						tensorflow-serving docker模型部署(以mnist为例)
		
						springboot为什么返回Whitelabel Error Page
		
						annotation 的方法
		
						Non-local的一些理解
		
						计算机类普刊有哪些,可以快速发表论文的计算机普刊
		
						win10taskkill强行结束进程_win10强制关闭应用程序的方法
		
		
	

热门文章	

									奥尔良烤翅（自调腌料做法）
			
						Java Web（day05） —— 请求和响应
			
						疫情汹涌，餐饮行业如何修炼内功科学选址？——市场趋势及数据洞察篇
			
						阿里飞绪: poll 性能回归分析
			
						和菜头：在碎片化的轰炸中喘息
			
						隐匿的风暴，Saas海啸正瞄准企业IT业务
			
						案例精选 | 志翔科技：安全与高效并重 构筑芯片行业数据安全堡垒
			
						获取各大电商平台、1688app上商品详情原数据API调用展示
			
						WordPress网站加装SSL证书后无法正常加载图片问题
			
						一加5t刷android p,一加5T刷机包