以前搞偷偷摸摸的事,不对,是搞爬虫都是用urllib,不过真的是很麻烦,下面就使用requests + BeautifulSoup 爬爬简单的网页。

详细介绍都在代码中注释了,大家可以参阅。

# -*- coding: utf-8 -*-
"""
Created on Thu Jul  5 20:48:25 2018
@author: brave-man
blog: http://www.cnblogs.com/zrmw/
python3 + anaconda(Spyder) + resquests + BeautifulSoup
这里环境用的就是昨天讲的 anaconda 下的 Spyder,非常方便,谁用谁知道
"""import requests
from bs4 import BeautifulSoup
# from termcolor import colored# 控制台输出文本颜色控制,网络不太好,没有安装termcolor,不过在公司测试过,函数传参应该没有问题
# print(colored("abc", "red"))# 通过requests库中的get方法获取整个响应页面,存放在res中
res = requests.get("https://www.cnblogs.com/zdong0103/p/8492779.html")
# (1) res.encoding = "utf-8"
soup = BeautifulSoup(res.text, "html.parser")
# 这时候如果打印的soup的话,会在控制台中输出整个响应页面的源代码
# print(soup)
# 如果打印的是乱码,则可以在 (1) 处添加 (1) 所示代码,设置编码格式,不过有时候是不需要的。# 接下来对网页的源码进行剖析
""" 在网页中按 F12 查看网页源代码,文章标题在 class = "block_title" 里面,
soup.select(".block_title") 获取的是一个列表,获取此列表的第一个元素,
所以 index = 0 , 从标签中获取文本一般使用 text 方法即可
同上,正文在 class = "blogpost-body"
..."""
title = soup.select(".block_title")[0].text
texts = soup.select(".blogpost-body")[0].text
time = soup.select(".itemdesc span")[0].text
author = soup.select("#header")[0].textprint(title, author, time, texts)

发现自己表述能力真的是渣啊,慢慢提高吧。

转载于:https://www.cnblogs.com/zrmw/p/9270898.html

python 爬虫(一) requests+BeautifulSoup 爬取简单网页代码示例相关推荐

  1. python 爬虫(一) requests+BeautifulSoup 爬取简单网页图片代码示例

    最近学习了Python,借助各个大神的文章,自己写了以下代码,来爬取网页图片,希望可以帮助到大家. 工具是 idea #coding=utf-8 import requests from bs4 im ...

  2. Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  3. Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  4. Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  5. Python爬虫:Selenium+ BeautifulSoup 爬取JS渲染的动态内容(雪球网新闻)

    最近要有一个任务,要爬取https://xueqiu.com/#/cn 网页上的文章,作为后续自然语言处理的源数据. 爬取目标:下图中红色方框部分的文章内容.(需要点击每篇文章的链接才能获得文章内容) ...

  6. 03 Python爬虫之Requests网络爬取实战

    目录 实例1:京东商品页面的爬取 实例2:亚马逊商品页面的爬取 实例3:百度搜索关键字提交 实例4:IP地址归属地的自动查询 实例1:京东商品页面的爬取 实例1:京东商品页面的爬取 https://i ...

  7. Python爬虫脚本,利用Beautifulfly爬取动态网页网页(源码)

    ''' Created on 2019年12月23日@author: Zhangzhiwei ''' import datetime import threading import cx_Oracle ...

  8. python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片

    Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...

  9. python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo

    实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...

最新文章

  1. vista——最恰当的中文译名应该是“喂死它”
  2. 自定义元素探秘及构建可复用组件最佳实践
  3. shopify 开发_播客第57集:从Shopify的作家到开发人员,与Adam Hollett一起
  4. figma应用——面向用户的咖啡点单APP的设计过程记录
  5. WCF走你~一个简单的例子,根据用户ID,从用户模块(用户服务器)获得实体
  6. FIN7 正在转向密码重置和软件供应链攻击
  7. English trip V1 - 20.Look at me 看着我 Teacher:Solo Key: 声调(英语默认就声调[rising]和降调[falling]两种)...
  8. 盘点八个程序员必须知道的代码编辑器
  9. python二级考试选择题公共基础知识_计算机二级选择题(公共基础知识)
  10. c语言蛮力法实现背包问题
  11. OpenCV单目平面测距
  12. 在哪里设置自动锁定计算机,教你电脑锁屏怎么设置,让电脑自动锁屏
  13. 服务器宽带估算及选择
  14. linux系统的服务
  15. 铁蛋白-AHLL纳米颗粒|人表皮生长因子-铁蛋白重链亚基纳米粒子(EGF-5Cys-FTH1)|铁蛋白颗粒包载氯霉素Chloramphenicol-Ferritin
  16. ubuntu下点云库pcl错误问题集
  17. git基本操作及gitee仓库代码的拉取与上传
  18. EMV规范(一)——背景介绍
  19. git 拉取远端分支
  20. 论文总结(三)-- 超分辨算法基础与综述

热门文章

  1. workbench求解闭合状态尼龙槽环
  2. 好用的import: Vite的Glob 导入
  3. Python高级编专题 - 类的创建与销毁
  4. 2017c语言自学贴吧,【图片】17年1.9开启我的C语言学习之路—小白篇【c语言吧】_百度贴吧...
  5. 华为 台积电 高通申请_台积电/高通纷纷力挺华为!全面放下姿态:将不再断供华为芯片产品...
  6. 1. C++基础知识学习及其深入理解(面向对象部分还没学) -- 课程1完成
  7. 计算机的用户软件在哪,电脑自带录屏软件在哪?这里教你怎么找
  8. samba for linux下载,Samba 4.4.3 SMB for Linux 发布下载
  9. [Lydsy1805月赛]对称数 BZOJ5361
  10. ADO获取表的所有字段名