这节课我们学习了爬虫网页框架代码和媒体对象

我们在这节课运用到的第三方库有以下三个

(1)jieba库:
        jieba.luct(s):分割中文词语
    (2)beautifulsoup4库:
        安装:pip install bs4/beautifulsoup4
        常用导入方法:
            导入库:      from bs4 import BeautifulSoup
            创建对象:    soup=BeautifulSoup(文本/网页内容,'html.parser)
            输出网页代码:print(soup.prettify())        
    (3)requests库:
        方法:
            r=requests.get('url'):发送请求获取资源对象,并且返回资源对象
            requests.request(代码标签):构造请求
            requests.head():获取网页头信息

而我这节课通过爬虫爬了以下几个网站

爬虫的代码如下

import requests
r=requests.get('网站')
r.status_code
print(r.status_code)
r.encoding
r.text
r.apparent_encoding
r.encoding=r.apparent_encoding
r.text[-500:]                       #从底部往上
r.text[:1000]                #从开头开始
from bs4 import BeautifulSoup
demo=r.text
soup =BeautifulSoup(demo,'html.parser')
print(soup.prettify())

这算是通用模板,爬虫各种网站都是以这个为模板来的

而我则爬了以下几个网站

我爬的网站比较广

涉及现在人们所用到的各种类型网站

1.搜索引擎百度

2.游戏网站这个是我小时侯打游戏用的叫4399小游戏

3.视频网站优酷,人们可以通过优酷腾讯等等网站观看自己喜欢的剧或电影

4.淘宝网,现在人们离不开网购,而网购有许多的平台网站,我选择爬了比较广泛的一个淘宝网

5.CSDN博客

现在很多人们有记录的习惯通过博客来写自己的一些记录

而我把我写博客的网站通过爬虫爬了下来

以上就是我关于爬虫的了解

爬虫网页框架代码和媒体对象相关推荐

  1. python爬虫基本框架代码(入门)

    首先下载并导入基本的库函数 import re import time import os.path import requests import urllib3 获取请求头(模拟浏览器访问网页) 获 ...

  2. HTML框架代码全集

    网页框架代码<iframe border=0 name=lantk src="要嵌入的网页地址" width=400 height=400 allowTransparency ...

  3. get 到的html代码如何转码,爬虫网页转码逻辑

    爬虫网页转码逻辑 最先出现的编码格式是ASCII码,这种编码规则是美国人制定的,大致的规则是用一个字节(8个bit)去表示出现的字符,其实由于在老美的世界里中总共出现的字符也不超过128个,而一个字节 ...

  4. dataObject可以去重吗java_python爬虫scrapy框架之增量式爬虫的示例代码

    scrapy框架之增量式爬虫 一 .增量式爬虫 什么时候使用增量式爬虫: 增量式爬虫:需求 当我们浏览一些网站会发现,某些网站定时的会在原有的基础上更新一些新的数据.如一些电影网站会实时更新最近热门的 ...

  5. html网页div框架代码,div层仿网页框架布局特效代码

    脚本代码(For Alixixi.com)如下: div层仿网页框架布局特效代码 - by 阿里西西 js.alixixi.com * { margin:0; padding:0; list-styl ...

  6. Bootstrap学习笔记——缩略图、警示框、进度条、媒体对象、列表组、画板

    1 缩略图 缩略图(一) 缩略图在网站中最常用的地方就是产品列表页面,一行显示几张图片,有的在图片底下(左侧或右侧)带有标题.描述等信息. Bootstrap框架将这一部独立成一个模块组件.并通过&q ...

  7. python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取

    python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取 前言 本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...

  8. MOOC《Python网络爬虫和信息提取》(第11次)网络爬虫之框架(第4周)

    MOOC<Python网络爬虫和信息提取>(第11次)网络爬虫之框架(第4周) MOOC–Python网络爬虫和信息提取(第11次开课) 网络爬虫之框架 21.08.10 目录 文章目录 ...

  9. 爬虫 - Scrapy框架超详解(一)

    文章目录 一.Scrapy框架原理 1.Scrapy特点 2.Scrapy安装 3.Scrapy架构图 4.Scrapy五大组件 5.Scrapy工作流程 二.Scrapy创建项目 三.Scrapy配 ...

  10. 【Web漏洞扫描这件事】爬虫2-scrapy框架

    文章目录 <Python 网络爬虫 Scrapy框架> 第一章 解析HTML的库 解析XML/HTML的语法 多层级网页爬取逻辑 保存数据和展示数据 第二章 垂直搜索爬虫 安装Scrapy ...

最新文章

  1. DCN-2655 gre隧道 vpn 嵌入IPSec配置:
  2. Handler 实现的一个循环操作
  3. VirtualBox快照(Snapshot)功能使用及注意事项
  4. elasticsearch使用jetty进行简单的权限控制
  5. 岗位内推 | 深睿医疗实验室招聘机器学习实习生
  6. 2014末,Surface Pro 3叫好不叫座只是价格问题?
  7. 实时计算pv/uv Demo演示
  8. springmvc与struts2的区别
  9. 种草!这些好像用处不大但是很可爱的Mac软件
  10. java design pattern
  11. Java屏蔽输入法_技巧:如何禁止输入法切换到全角状态
  12. 以太坊2.0存款合约地址余额28.87万ETH,进度达55%
  13. CIO考虑采用超整合基础设施降低硬件成本
  14. 小程序的学习资料收集
  15. Android入门之本地音乐播放器
  16. 中国有多少个省市,分别是什么?
  17. 谷歌google浏览器升级后发生个人资料错误 发送反馈解决方法
  18. 身为码农,为12306说两句公道话:
  19. 100+份项目管理模板和工具免费下载,包含项目管理各个流程都该用到哪些工具和方法!
  20. 趣商宝微信招生方案 ,线上招生难,十大绝招帮您搞定微信吸粉!

热门文章

  1. 【Uly】微软产品开发中的“战争与和平”
  2. 常见python基础面试题_常:汉字常的意思/解释/字义/来源 - 新华字典
  3. python适合多大小孩学好拼音打字_都已经十七八岁的年龄了,突然发现自己居然不会拼音打字,现在想好好学,但是感觉无从下手。有什么方法么?...
  4. python柱状图加百分比_python matplotlib 为柱状图添加百分比
  5. html网页简单实现图片轮播效果,CSS3简单实现图片切换轮播
  6. 小封装、高通流 TVS 管 UN1K/2K/3K Series
  7. network secruity studay day2
  8. 修改微信聊天记录保存位置
  9. 水晶报表的宽度调整方法(设计器、代码调整、rpt文件属性)
  10. 服务器被入侵怎么办,如何预防