无聊拿来玩儿,仅作为练习用。

文章目录

  • 分析
  • 代码
  • 效果

分析

找到文本的所处的div即可,注意应该是文本(一般是<span>text</span>这种形式)的上一级div,即div下面应该就是文本所在的span,找到文本所在的tag之后,使用.get_text()获取其文本信息。

代码

import requests
from bs4 import BeautifulSoup  # 获取html文档
def get_html(url):  """get the content of the url"""  response = requests.get(url)  response.encoding = 'utf-8'  #中文乱码的话,可以试一下gb2312return response.text  # 获取内容
def get_certain_web(html):  """get the content of the html"""  global soup  #方便调试soup = BeautifulSoup(html, 'lxml')  #使用lxml解析器对html进行解析,生成soup结构化文件web_content_temp = soup.select('div.index-tab-notice-right-list-title')#根据所需内容进行筛选web_content = ''for i in web_content_temp:web_content += i.get_text() + '\n'#web_content = soup.find('div',{'class':'zzj_5b_2d'})[0].get_text()    也可以使用这个return web_contenturl_web = "http://www.zzu.edu.cn/"
html = get_html(url_web)
web_content = get_certain_web(html)
print(web_content)  

效果

python小小爬虫(一)—— 爬取学校官网通知(仅作为练习使用)相关推荐

  1. Python 数据采集-爬取学校官网新闻标题与链接(基础)

    Python 爬虫爬取学校官网新闻标题与链接 一.前言 二.扩展库简要介绍 01 urllib 库 (1)urllib.request.urlopen() 02 BeautifulSoup 库 (1) ...

  2. Python 数据采集-爬取学校官网新闻标题与链接(进阶)

    Python 爬虫爬取学校官网新闻标题与链接(进阶) 前言 一.拼接路径 二.存储 三.读取翻页数据 四.完整代码展示 五.小结 前言 ⭐ 本文基于学校的课程内容进行总结,所爬取的数据均为学习使用,请 ...

  3. 爬取学校官网信息公告并存入数据库

    前段时间做了爬取学校信息并展示的小软件,爬取内容包括学校官网.教学管理系统.招生就业信息等,其中用到了QueryList库.翻页爬虫,定时爬虫,插入数据库等 不熟系QueryList的可以看一下我的这 ...

  4. python --爬虫爬取学校官网新闻并下载到本地

    IDE:jupyter Notebook python version:python 3.6 目标数据:学校官网新闻(一页) 网址:* 使用到的库:requests urllib re Beautif ...

  5. 定时爬取学校官网讲座公告并邮件发给自己

    文章目录 前言 流程 各部分说明 获取网页-Request库 从HTML中提取数据-BeautifulSoup库 BeautifulSoup-转换成`BeautifulSoup` 的对象 find() ...

  6. Python网络爬虫8 - 爬取彼岸图网美图

    彼岸图网收集了大量美图,是个不错的爬取对象.话不多说,直接上图. 分析站点 分类列表 爬取之前,自然要分析一波,这个站点的框架比较简单,从分类着手,共包含12个分类项. 4K人物 4K动漫 4K动物 ...

  7. 【爬虫基础】爬取学校官网分页招聘信息

    **爬取某学校就业网站招聘信息** 用到的包 from urllib.request import urlopen import requests import json 一.获取不同页面的url 在 ...

  8. python——图片爬虫:爬取爱女神网站(www.znzhi.net)上的妹子图 进阶篇

    在上一篇博客中:python--图片爬虫:爬取爱女神网站(www.znzhi.net)上的妹子图 基础篇 我讲解了图片爬虫的基本步骤,并实现了爬虫代码 在本篇中,我将带领大家对基础篇中的代码进行改善, ...

  9. Python Scrapy爬虫框架爬取51job职位信息并保存至数据库

    Python Scrapy爬虫框架爬取51job职位信息并保存至数据库 -------------------------------- 版权声明:本文为CSDN博主「杠精运动员」的原创文章,遵循CC ...

最新文章

  1. c++ 函数的指针调用
  2. 十五、中文词向量训练二
  3. u-boot2013.10引导linux3.10.30记录
  4. 概率论-2.2 随机变量的数学期望(重点:随机变量X的期望)
  5. 如何用python“优雅的”调用有道翻译?
  6. 【java】理解和运用Java中的Lambda
  7. linux服务器Apache Axis,Apache Axis2 的安装(Linux)
  8. C++socket编程(四):4.2 创建XTcp动态链接库项目
  9. oracle使用cgi吗_php架构之CGI、FastCGI、php-fpm有什么关系?原来这么简单
  10. 对linux信号量的理解以及实现
  11. Java企业微信开发_02_通讯录同步
  12. python程序设计大赛题目_第三第四题,这是Python程序设计的题目,
  13. 电力系统非线性控制_电力系统保护与控制2020年第13期目录
  14. 入侵检测系统(IDS)与入侵防御系统(IPS)的简单理解
  15. 避暑山庄消失的三十六景,曾经那么美!
  16. DHD的上网设置与彩信设置
  17. 计算机视觉毕业后找不到工作怎么办?
  18. iNFTnews | 呵护“雪山精灵”,42VERSE“数字生态保护”公益项目即将盛启
  19. 长沙有哪些点餐系统服务商?长沙点菜软件哪家好?
  20. 【转】WebMatrix 从零建站如此简单!来自微软的免费网站服务器快速建站套件

热门文章

  1. win10无法修改默认浏览器(闪退)解决方法//修改默认浏览器闪退解决办法,亲测实用有效!!!!////默认浏览器被修改成Internet explorer了,想修改发现改不了,一点就闪退
  2. excel一列求和_Excel技巧:根据日期按月汇总计算公式
  3. SpringCloud Gateway 构建全局缓存 Request 解决 body 不可重复读问题
  4. 智和信通自主研发智和网管数字化运维平台,助力金融业智慧转型
  5. 【观察】星环科技:七年磨三剑,积硅步至千里
  6. 【C++】STL——string(两万字详解)
  7. 「英语口语」六级口语考题应答模板
  8. 网络安全将是未来10年里面的黄金产业
  9. python类不支持多继承_关于Python类的多继承中的MOR继承顺序问题
  10. 【chatgpt插件-ChatGPT Sidebar】