一. 爬虫的流程

- requests库 (上手拿它和url lib都可以)

传递url参数时 可以将参数保存到字典中,用params构建至url

requests.get(url,params=dict)

除了get外,有时需要发送一些便码为表单形式的数据,在登陆的时候请求就为post,如果用get,密码会显示在url中,很不安全

r=requests.post(url,data=dict)

-bs4

soup.find(“h1”,class_=“”).text.strip()

-动态网页

打开网页检查功能,选择network,刷新网页, 此时network中会显示浏览器从网页服务器得到的所有文件,这个过程一般称为抓包。

一般数据以json文件格式获取,单击network中的xhr选项,可以找到真正的文件

import json

json_data=json.loadI(r.text)

c_list=json_data[""]  #这是一个列表

-selenium

data=driver.find_element_by_css_selector("div.bdy-inner")

这里bdy-inner 是class的值

也推荐selenium中xpath

-selenium高级操作

使用selenium和使用浏览器的检查方法爬取动态网页相比,因为selenium要在整个网页加载出来后才开始爬取内容,速度往往比较慢

因此在实际使用中,如果使用浏览器的检车功能进行网页的逆向工程不是很复杂,就最好使用浏览器的检查功能,不过也有一些方法可以加快selenium的速度:

①控制 css 的加载

②控制图片文件的显示

③控制 JavaScript 的运行

python网络爬虫实践_《python 网络爬虫从入门到实践》笔记相关推荐

  1. 微专业python爬虫工程师_从零起步 系统入门Python爬虫工程师

    课程简介: 从零起步 系统入门Python爬虫工程师 大数据时代,python爬虫工程师人才猛增,本课程专为爬虫工程师打造,课程有四个阶段,爬虫0基础入门->项目实战->爬虫难点突破-&g ...

  2. 潭州教育可以学python爬虫吗?_什么是爬虫?其运行原理是什么?只有Python才可以吗?...

    爬虫是什么? 本文所说的爬虫不是自然界中的爬行动物,而是运行在网络中的一个自动处理信息的程序. 爬虫是一个程序,该程序利用网络请求(HTTP/HTTPS)进行数据的筛选和录入.因为网络信息维度很广泛, ...

  3. python新特性赋值_变量与赋值_Python入门视频课程_Python视频-51CTO学院

    老男孩教育的PYTHON自动化开发课程自2013年第1期到现在已经走到了第12期,2年半的时间里,我们每一期都在对课程细节进行不同程度的优化,课程总时长也从最开始的2个月延长至第12期的五到六月,更新 ...

  4. python朋友圈刷屏_“Python太火了!请救救Java!”9万程序员刷屏朋友圈 !

    没想到有生之年,笔者能观察到"霸主陨落"的过程,继PLPY4月榜单官宣,Python躺赢,再度"夺"冠,实力甩下Java和C后,近期,Stack Overflo ...

  5. python 打包 小文件_[Python][小知识][NO.5] 使用 Pyinstaller 打包成.exe文件

    1.安装 pyinstaller 插件 cmd命令:pip install PyInstaller PS . o.o 不知道 easy_install 的百度吧. 2.pyinstaller 简介 他 ...

  6. python显示小数点后几位数_Python编程从入门到实践-连载1(变量和简单数据类型)...

    第二章 变量和简单数据类型 2.2.0 变量 我们添加了一个名为message的变量.每个变量都存储了一个值--与变量相关联的信息.在这里,存储的值为文本"Hello Python worl ...

  7. python编程从入门到实践第八章_Python编程从入门到实践的第三天

    #-*- coding = utf-8 -*- #今天是12月24号了,天气阴,不是太好,这是我看Python编程从入门到实践的第三天,现在是上午,我是皮卡丘,这是我敲的第八章的代码 #第八章练习题1 ...

  8. python开发web教学视频_Python快速Web开发入门与实践视频课程

    Python快速Web开发入门与实践欢迎来到KK的<Python快速Web开发入门与实践>捧场!下面请允许我为这套课程做一点介绍. <Python快速Web开发入门与实践>是一 ...

  9. python多进程编程实例_[python] Python多进程编程技术实例分析

    这篇文章主要介绍了Python多进程编程技术,包括了线程.队列.同步等概念及相关的技巧总结,需要的朋友可以参考下 本文以实例形式分析了Python多进程编程技术,有助于进一步Python程序设计技巧. ...

  10. python查看excel编码格式_[Python]实现处理读写xlsx xls excel文件格式(含中文处理方法)...

    最近有个需求要处理excel 格式的数据,数据量比较大.用传统的语言似乎不太好处理,于是改用python实现,这里记录一下实现过程. 首先,科普一下xlsx xls的excel文件区别是什么. xls ...

最新文章

  1. native 关键的理解
  2. PUTTY工具的使用
  3. 管理心得之学术,交通,作息,心态
  4. 2019年第十届蓝桥杯 - 省赛 - Java研究生组 - A. 立方和
  5. Linux MTD子系统 _从模型分析到Flash驱动模板
  6. 用户生命周期常用指标_生命周期管理工具如何使用指标
  7. linux定制环境变量,定制Linux系统环境变量.doc
  8. oracle中nvarchar2字符集不匹配
  9. 2021款iPad Pro渲染图曝光:依旧采用双摄+激光雷达扫描仪
  10. Spring Boot 学习之Controller
  11. [转载] numpy教程:矩阵matrix及其运算
  12. Integrity数据库简介
  13. 【HTML练习】登录注册界面模板1
  14. 春节感悟 - 原年人的爱和恨
  15. 软件测试工程师绩效考核细则,软件测试工程师绩效考核方案
  16. win10蓝牙已配对连接不上_win10蓝牙耳机连接不上怎么办_win10蓝牙耳机连接不上的解决方法...
  17. 文件里的三个重要时间:access time(访问时间), modify time(修改时间), change time(状态改动时间)
  18. 沈其荣院士团队解密根际有益菌VOCs消减土壤青枯菌生物障碍的生存-致病权衡机制...
  19. 用传感器建立地球中枢神经系统可预警天灾
  20. Frenetic Python实验(二)

热门文章

  1. springMVC文件的上传和页面静态化技术
  2. 教育大数据可视化研究综述笔记
  3. 计算机其它离的360云盘,win7系统将360云盘文件快速转移到百度云盘的方法
  4. 一级域名是什么?和二级域名有什么区别?
  5. Geotrust证书新申请及续费
  6. SpringBoot + Vue 结合支付宝支付(1)-- 准备工作
  7. 移动应用开发者的阶级状况:多数是无产阶级
  8. 【BZOJ2794】[Poi2012]Cloakroom 离线+背包
  9. opencv中step、step1、size、elemSize以及elemSize1区别
  10. php 邮箱反垃圾机制,企业邮箱中的反垃圾邮件规则