爬虫网页框架代码和媒体对象

这节课我们学习了爬虫网页框架代码和媒体对象

我们在这节课运用到的第三方库有以下三个

（1）jieba库：
       jieba.luct（s）：分割中文词语
   （2）beautifulsoup4库：
       安装：pip install bs4/beautifulsoup4
       常用导入方法：
           导入库： from bs4 import BeautifulSoup
           创建对象： soup=BeautifulSoup（文本/网页内容，'html.parser）
           输出网页代码：print（soup.prettify()）
   （3）requests库：
       方法：
           r=requests.get('url'):发送请求获取资源对象，并且返回资源对象
           requests.request(代码标签):构造请求
           requests.head():获取网页头信息

而我这节课通过爬虫爬了以下几个网站

爬虫的代码如下

import requests
r=requests.get('网站')
r.status_code
print(r.status_code)
r.encoding
r.text
r.apparent_encoding
r.encoding=r.apparent_encoding
r.text[-500:] #从底部往上
r.text[:1000] #从开头开始
from bs4 import BeautifulSoup
demo=r.text
soup =BeautifulSoup(demo,'html.parser')
print(soup.prettify())

这算是通用模板，爬虫各种网站都是以这个为模板来的

而我则爬了以下几个网站

我爬的网站比较广

涉及现在人们所用到的各种类型网站

1.搜索引擎百度

2.游戏网站这个是我小时侯打游戏用的叫4399小游戏

3.视频网站优酷，人们可以通过优酷腾讯等等网站观看自己喜欢的剧或电影

4.淘宝网，现在人们离不开网购，而网购有许多的平台网站，我选择爬了比较广泛的一个淘宝网

5.CSDN博客

现在很多人们有记录的习惯通过博客来写自己的一些记录

而我把我写博客的网站通过爬虫爬了下来

以上就是我关于爬虫的了解

爬虫网页框架代码和媒体对象相关推荐

python爬虫基本框架代码（入门）
首先下载并导入基本的库函数 import re import time import os.path import requests import urllib3 获取请求头(模拟浏览器访问网页) 获 ...
HTML框架代码全集
网页框架代码<iframe border=0 name=lantk src="要嵌入的网页地址" width=400 height=400 allowTransparency ...
get 到的html代码如何转码,爬虫网页转码逻辑
爬虫网页转码逻辑最先出现的编码格式是ASCII码,这种编码规则是美国人制定的,大致的规则是用一个字节(8个bit)去表示出现的字符,其实由于在老美的世界里中总共出现的字符也不超过128个,而一个字节 ...
dataObject可以去重吗java_python爬虫scrapy框架之增量式爬虫的示例代码
scrapy框架之增量式爬虫一 .增量式爬虫什么时候使用增量式爬虫: 增量式爬虫:需求当我们浏览一些网站会发现,某些网站定时的会在原有的基础上更新一些新的数据.如一些电影网站会实时更新最近热门的 ...
html网页div框架代码,div层仿网页框架布局特效代码
脚本代码(For Alixixi.com)如下: div层仿网页框架布局特效代码 - by 阿里西西 js.alixixi.com * { margin:0; padding:0; list-styl ...
Bootstrap学习笔记——缩略图、警示框、进度条、媒体对象、列表组、画板
1 缩略图缩略图(一) 缩略图在网站中最常用的地方就是产品列表页面,一行显示几张图片,有的在图片底下(左侧或右侧)带有标题.描述等信息. Bootstrap框架将这一部独立成一个模块组件.并通过&q ...
python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取
python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取前言本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...
MOOC《Python网络爬虫和信息提取》（第11次）网络爬虫之框架（第4周）
MOOC<Python网络爬虫和信息提取>(第11次)网络爬虫之框架(第4周) MOOC–Python网络爬虫和信息提取(第11次开课) 网络爬虫之框架 21.08.10 目录文章目录 ...
爬虫 - Scrapy框架超详解（一）
文章目录一.Scrapy框架原理 1.Scrapy特点 2.Scrapy安装 3.Scrapy架构图 4.Scrapy五大组件 5.Scrapy工作流程二.Scrapy创建项目三.Scrapy配 ...
【Web漏洞扫描这件事】爬虫2-scrapy框架
文章目录 <Python 网络爬虫 Scrapy框架> 第一章解析HTML的库解析XML/HTML的语法多层级网页爬取逻辑保存数据和展示数据第二章垂直搜索爬虫安装Scrapy ...

爬虫网页框架代码和媒体对象

爬虫网页框架代码和媒体对象相关推荐

最新文章

热门文章