蚌埠学院综合新闻

import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
import jsondef get_one_page(url):try:headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'} response = requests.get(url, headers=headers)if response.status_code == 200:return response.textreturn Noneexcept RequestException:return Nonedef page_parser(html):soup = BeautifulSoup(html,'lxml')for td in soup.find_all(name='td',attrs={'height':24}):# 超链接href = 'http://www.bbc.edu.cn' + td.find(name='td').a.attrs['href']# 标题title = td.find(name='td').a.font.string# 发布时间postTime = td.find(class_='postTime').stringyield {'href':href,'title':title,'postTime':postTime}def get_pages(url):html = get_one_page(url)soup = BeautifulSoup(html,'lxml')# 获取总页码pages = soup.find(name='a',attrs={'title':'进入尾页'}).attrs['href']# 将总页码提取出来pages = pages.split('/')[8]if pages :return pagesreturn Nonedef write_to_file(content):with open('result.txt','a',encoding='utf-8') as f:f.write(json.dumps(content,ensure_ascii=False) + '\n')def main(num=0):pages = get_pages('http://www.bbc.edu.cn/s/21/t/267/p/22/i/1/list.htm')pages = int(pages)if num:pages=numfor page in range(1,pages):url = 'http://www.bbc.edu.cn/s/21/t/267/p/22/i/'+str(page)+'/list.htm'html = get_one_page(url)for item in page_parser(html):print(item)print('抓取了: '+str(pages)+'页综合新闻')if __name__ == '__main__':main(20)

蚌埠学院官网综合新闻条目抓取相关推荐

  1. 【小程序源码】uni-app云开发的网盘助手抓取网盘资源

    这是一款uni-app开发的一款网盘小助手小程序源码 安装教程: 我们首先使用HBuilderx导入您的源码,然后点击manifest.json基础配置然后重新获取一下uni-app应用标识 然后我们 ...

  2. 东方财富网 python_Python 东方财富网-股市行情数据抓取

    东方财富网 股市行情数据抓取: 请求数据未入库处理,其中数据只存入数据文本,未做存入数据库处理 请求样例数据结果: jQuery112406092635132097686_1569674756779( ...

  3. Python爬虫 | 斗图网表情包抓取

    Python爬虫 | 斗图网表情包抓取 1.数据来源分析 2.制作div_list 3.发起请求 4.保存图片 5.批量获取 6.完整代码 声明 1.数据来源分析   打开斗图吧的主页,发现网址非常有 ...

  4. python爬虫和医学数据_Python爬虫入门教程 24-100 微医挂号网医生数据抓取

    1. 微医挂号网医生数据写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的 ...

  5. 内网渗透之抓取隔壁小姐姐上网图片

    arp欺骗,利用中间人攻击原理, 对内网的用户实施欺骗,从而到达目的. 中间人攻击原理:两边通信的要经过黑客才能把信息转发给对方, 从而导致信息泄露. 实验工具: kali linux nmap ar ...

  6. Python爬虫新手教程:微医挂号网医生数据抓取

    1. 写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...

  7. Python爬虫入门教程 24-100 微医挂号网医生数据抓取

    1. 微医挂号网医生数据写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的 ...

  8. java 爬取百度云盘,百度网盘资源抓取 爬虫

    [实例简介] 简要实现了百度网盘资源的抓取,以及定时抓取,百度分享用户的抓取以及资源抓取,booststrap 页面 [实例截图] [核心代码] da0a5e77-e599-4f8f-829f-edb ...

  9. 医生学python_Python微医挂号网医生数据抓取

    1. 写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...

最新文章

  1. cpu飙升 死循环_记一次CPU飙升BUG
  2. 京东数据驱动下的个性化推荐
  3. currentThread的一个复杂案例
  4. JS实现点击左边标题栏,右边显示对应信息
  5. jbig java_jbig2 Java Develop 238万源代码下载- www.pudn.com
  6. 九章算术卷第七 盈不足
  7. jsp+ssh+mysql Java web学生考勤管理系统源码附视频指导运行教程
  8. 三星固态860evo安装_固态要涨价了?我赶紧屯了这几块好货
  9. 2022自动驾驶竞赛WAD介绍 CVPR 2022 Workshop on Autonomous Driving
  10. 最新CleanMyMac X4.12.1中文版Mac系统优化清理工具
  11. Mars3D开发基础学习:三维场景 Map
  12. 2014联通见习感悟
  13. 人工智能需要学习哪些编程语言?学人工智能要学python吗?
  14. 现代OpenGL入门教程
  15. IT运维审计:新手入门之服务器运维操作要点
  16. Android哪个系统占用内存小,哪个安卓模拟器占用的内存小,使用起来又不卡
  17. Ethereum非同质化通证(NFT)的编写与部署
  18. 安装colmap时报错“METIS_INCLUDE_DIRS-NOTFOUND“
  19. 小程序跳转无反应解决方法
  20. 建设工程法规专科【7】

热门文章

  1. c++ winpcap开发(9)
  2. 51. N皇后/52. N皇后 II
  3. shell判断是否为root权限(id -u != 0)
  4. 我的博客园css样式
  5. springmvc + mybatis + ehcache + redis 分布式架构
  6. 15万个监控摄像头被黑,医院、学校、监狱都被看得一清二楚
  7. golang http 返回html文件_从零部署安装 Grpc-golang
  8. js用递归遍历多维数组_JavaScript树结构操作:查找、遍历、筛选、树结构和列表结构相互转换...
  9. 如何打造一支低效技术团队?
  10. 你看,公司状告员工不加班,居然还告赢了