新浪微博

[Scrapy 教程] 3. 利用 scrapy 爬取网站中的详细信息 - YouTube

def parse(self,response):

soup BeautifulSoup(response.body,'html.parser')

tags soup.find_all('a',href=re.compile(r"sina.*\d{4}-\d{2}-\d{2}.*shtmls"))#匹配日期,

for tag in tags:

url tag.get('href')

yield scrapy.Request(url,callback=self.parse_details) #迭代对象

def extract_title(self,soup):

selectors =['h1.main-title']

for selector in selectors:

if len(soup.select(selector))!=0:#判断你不等于零

title soup.select(selector)[0].text #选择器,取出文本

return title

python与数据库链接

(6条消息) pymysql详解(connect连接、游标cursor、获取查询结果集、获取实时数据、解决查询数据为历史数据问题、insert into需要注意的地方)_pymysql.connect_XC_SunnyBoy的博客-CSDN博客

这是一个连接到本地MySQL数据库服务器的命令,其中:

  • -h127.0.0.1指定要连接的主机名或IP地址,这里使用本地主机(localhost)的IP地址127.0.0.1。

  • -uroot指定要用哪个MySQL用户进行连接,这里使用root用户进行连接。

  • -p123456指定连接时使用的密码,这里使用123456作为root用户的密码。

整个命令的意思是使用root用户和密码123456连接到本地MySQL服务器。如果连接成功,将打开MySQL客户端命令行界面,可以在其中执行各种MySQL命令和查询。

#创建对象
db = pymysql.connect(host='localhost',
user='root',
password='@hdp020820',
database='maoyandb',)

pymysql.err.OperationalError: (1049, "Unknown database 'maoyandb'")

CREATE TABLE movieinfo (name VARCHAR(255),actor VARCHAR(255),release_date DATE
);

import pymysql

导出数据库

#创建对象
self.db = pymysql.connect(host='localhost',
user='root',
password='@hdp020820',
database='maoyandb',)cursor = db.cursor()
# sql语句执性,单行插入
info_list = ['刺杀,小说家','雷佳音,杨幂','2021-2-12']
sql = 'insert into filmtab values(%s,%s,%s)'
#列表传参
cursor.execute(sql,info_list)
db.commit()
# 关闭
cursor.close()
db.close()

导入包的问题

一直识别不赖哦

Traceback (most recent call last):File "C:\Users\韩东平\OneDrive\桌面\spider2017\spider2017\spiders\douban.py", line 3, in <module>from ..items import MovieItem
ImportError: attempted relative import with no known parent package
进程已结束,退出代码1

安装问题

(6条消息) Scrapy中的items导入问题解决!本地包导入不了怎么办?看这里!_OnTheOurWay的博客-CSDN博客

(6条消息) Python_Scrapy安装问题及解决_使用pip命令安装后在pycharm仍不能导入_Urila的博客-C

SDN博客

在一个package中,同级使用 . 在父级使用 ..

报错关键词
相对导入(relative import):报错模块(模块,区别于脚本不直接作为主程序运行,是一系列对象定义的集合)存在使用相对导入的包内模块调用关系,也即其中存在以 .(平级目录)或..(父级目录)起头的import语句。例如,from .<subpackage|module> import <subpackage|module|func> 表示从报错模块平级目录的包或模块中调用嵌套的包或模块或函数。
包(package):利用文件夹组织的模块的集合,一般通过在各层级文件夹中放置 __init__.py指示当前文件夹为一个包。
无法识别的包文件(no known parent package):当前 Python 解释器运行路径(python path/to/main.py 中 python 命令的执行位置)无法查找到当前执行脚本引用的包含相对导入的模块的最小包结构。

日志

这是一段 Scrapy 爬虫的日志,记录了运行过程中的一些信息。以下是日志的翻译:

  • INFO: Scrapy 2.8.0 started (bot: douban):Scrapy 2.8.0版本的爬虫开始运行,bot名称为douban。

  • INFO: Versions: lxml 4.9.2.0, libxml2 2.9.12, cssselect 1.2.0, parsel 1.7.0, w3lib 2.1.1, Twisted 22.10.0, Python 3.11.0 (main, Oct 24 2022, 18:26:48) [MSC v.1933 64 bit (AMD64)], pyOpenSSL 23.0.0 (OpenSSL 3.0.7 1 Nov 2022), cryptography 39.0.0, Platform Windows-10-10.0.22621-SP0:Scrapy使用的各种库和框架的版本信息,包括lxml、libxml2、cssselect、parsel、w3lib、Twisted、Python、pyOpenSSL和cryptography,以及运行平台的信息(Windows 10)。

  • INFO: Overridden settings: {'BOT_NAME': 'douban', 'NEWSPIDER_MODULE': 'douban.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['douban.spiders'], 'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}:覆盖的Scrapy设置信息,包括BOT_NAME、NEWSPIDER_MODULE、ROBOTSTXT_OBEY、SPIDER_MODULES和USER_AGENT等。

  • WARNING: C:\Users\韩东平\PycharmProjects\venv\Lib\site-packages\scrapy\utils\request.py:232: ScrapyDeprecationWarning: '2.6' is a deprecated value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting. ...:Scrapy的一个警告,指出设置中的REQUEST_FINGERPRINTER_IMPLEMENTATION值为已废弃的值,但该值是默认值,如果没有为该设置定义一个值,那么得到这个警告

scrpy学习-02相关推荐

  1. 微信小程序_基础组件学习02

    微信小程序_基础组件学习02 swiper组件 swiper是滑块容器,也就是手机端的轮播图. swiper组件有两部分组成swiper和swiper-item. swiper-item需要放在swi ...

  2. java虚拟机预先加载哪些类_Java虚拟机JVM学习02 类的加载概述

    Java虚拟机JVM学习02 类的加载概述 类的加载 类的加载指的是将类的.class文件中的二进制数据读入到内存中,将其放在运行时数据区的方法区内,然后在堆区创建一个java.lang.Class对 ...

  3. C++模板学习02(类模板)(类模板语法、类模板与函数模板的区别、类模板中的成员函数创建时机、类模板对象做函数参数、类模板与继承、类模板成员函数类外实现、类模板分文件编写、类模板与友元)

    C++引用详情(引用的基本语法,注意事项,做函数的参数以及引用的本质,常量引用) 函数高级C++(函数的默认参数,函数的占位参数,函数重载的基本语法以及注意事项) C++类和对象-封装(属性和行为作为 ...

  4. Matlab GUI学习02:使用GUIDE开发图形界面程序

    pdf版本笔记的下载地址: Matlab GUI学习02_使用GUIDE开发图形界面程序(访问密码:3834) Matlab GUI学习02:使用GUIDE开发图形界面程序 GUIDE GUIDE简介 ...

  5. Python 学习 02 —— Python如何爬取数据

    文章目录 系列文章 二.Python 爬 虫 1.任务介绍 2.简介 3.基本流程 3.1.准备工作 3.1.1.分析页面 3.1.2.编码规范 3.1.3.导入模块 3.1.4.程序流程 3.2.获 ...

  6. 深度学习——02、深度学习入门 1-7

    01深度学习与人工智能简介 什么是人工智能? 观察周围的世界,把看到的事物加以理解,最后通过理解进行一系列的决策. 感知+理解+决策. 学习的能力,是智能的本质! 大数据时代 大数据时代造就了人工智能 ...

  7. Android学习--02(猜猜我的星座App源码+Android常用控件TextView+EditText+Button+ImangeView+DatePicker+App间通信+跳转页面)

    猜猜我的星座App 1 Android常用控件 1.1 TextView控件 1.1.1 简介 1.1.2属性 1.1.3 扩展属性 1.1.4 TextView的使用方法 1.1.5总结 1.2 E ...

  8. 前端性能优化学习 02 Web 性能指标

    Web 性能指标 我们已经知道性能的重要性,但当我们讨论性能的时候,让一个网页变得更快,具体指哪些内容? 事实上性能是相对的: 对于一个用户而言,一个站点可能速度很快(在具有功能强大的设备的快速网络上 ...

  9. 前端学习02:jQuery 日历

    引言:学习前端已经接近1个月了,先后经历了1周的 html+css, 2周的"JavaScript 从入门到下跪",期间还看了vue+webpack.然鹅,Mentor Brigh ...

最新文章

  1. Silverlight Blend动画设计系列六:动画技巧(Animation Techniques)之对象与路径转化、波感特效...
  2. 寻找下一款Prisma APP:深度学习在图像处理中的应用探讨
  3. flask中url_for的作用
  4. php短链接api,PHP通过调用新浪API生成t.cn格式短网址链接的方法详解
  5. 在SQL Server中取得操作系统文件的最后修改日期 [Z]
  6. 萌新的Python练习菜鸟100例(十)暂停一秒输出,并格式化输出当前时间
  7. 关于获取安卓设备的mac地址
  8. Vue 获取验证码60s倒计时方法
  9. asp.net core跨域访问ajax的验证访问
  10. java项目 服务器部署Word转成PDF乱码
  11. 无需ROOT卸载或禁用vivo Z5手机的内置软件
  12. 电源压敏电阻的计算选择
  13. java后台学习资源汇总
  14. 按键精灵安卓版去除重复数组然后排序排序
  15. Linux中国对话龙蜥社区4位理事:龙蜥操作系统捐赠的背后,是谁在推动?
  16. 《Tsinghua os mooc》第1~4讲 启动、中断、异常和系统调用
  17. JavaSE语法(3)——【逻辑控制:各种分支循环语句】
  18. vue-seamless-scroll 从入坑到放弃
  19. matlab三点确定抛物线,曲线拟合 – 如何计算抛物线的顶点给定三点
  20. 百万点赞怎么来?用Python制作抖音视频原来这么简单!

热门文章

  1. opencc在linux环境中,linux - 安装OpenCC(简体繁体转换)
  2. 织梦编辑器加HTML视频显示很小,dede织梦编辑器中插入视频文件方法
  3. STM32学习之FSMC
  4. 物联网市场迅猛发展 “中国芯”如何把握机会?
  5. Carsim2018入门第一步—新建数据库datebase
  6. python文本分类汇总_用Python解决海量数据的分类汇总一键化办公的神器!
  7. 初学Java方法猜数字游戏猜1~99中的随机数字
  8. socket php(长连接传输数据)
  9. Qt6串口多功能助手64位版本上位机源码
  10. 山东科技大学计算机毕业论文,山东科技大学教务综合管理信息系统.pdf