import requests
import reurl = "http://news.gzcc.cn/html/xiaoyuanxinwen/"
res = requests.get(url)
res.encoding = 'utf-8'# 利用BeautifulSoup的HTML解析器,生成结构树
from bs4 import BeautifulSoupsoup = BeautifulSoup(res.text, 'html.parser')def getClickCount(url):HitUrl = 'http://oa.gzcc.cn/api.php?op=count&id=9183&modelid=80'hitNumber = requests.get(HitUrl).text.split('.html')[-1].lstrip("('").rstrip("');")print("点击次数:", hitNumber)re.match('http://news.gzcc.cn/html/2018/xiaoyuanxinwen(.*).html', url).group(1).split('/')[1]print('新闻编号:', re.search('\_(.*).html', url).group(1))def getNewDetail(url):res = requests.get(url)res.encoding = 'utf-8'soup = BeautifulSoup(res.text, 'html.parser')for news in soup.select('li'):if len(news.select('.news-list-title')) > 0:# 首页文章标题title = news.select('.news-list-title')[0].text# 首页文章描述description = news.select('.news-list-description')[0].text# 首页文章信息info = news.select('.news-list-info')[0].text# 首页文章链接href = news.select('a')[0]['href']url = hrefres = requests.get(url)res.encoding = 'utf-8'soup = BeautifulSoup(res.text, 'html.parser')# 获取每篇文章的信息newinfo = soup.select('.show-info')[0].text# 获取文章内容content = soup.select('#content')[0].text# 日期date = newinfo.split()[0]# 当日时间time = newinfo.split()[1]# 作者author = newinfo.split()[2]# 审核checker = newinfo.split()[3]# 来源source = newinfo.split()[4]# 摄影Photography = newinfo.split()[5]print('------------------------------------------------------------------------------')print("文章标题:" + title)print("\n文章描述:" + description)print("\n文章信息:\n" + date + ' ' + time + '\n' + author + '\n' + checker + '\n' + source+ '\n' + Photography)getClickCount(href)#点击次数、新闻编号print("\n文章链接:" + href)print(content)print('------------------------------------------------------------------------------')getNewDetail(url)

转载于:https://www.cnblogs.com/FZW1874402927/p/8747466.html

爬取校园新闻首页的新闻的详情,使用正则表达式,函数抽离相关推荐

  1. python抽取指定url页面的title_Python使用scrapy爬虫,爬取今日头条首页推荐新闻

    爬取今日头条https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面 查看源代码你会发现 全是js代码,说明今日头条的内容是通过js动态生成的. 用火狐浏览器F12查看得知 ...

  2. python爬取学校新闻_python-爬取校园新闻首页的新闻

    1.作业代码 importrequestsfrom bs4 importBeautifulSoupfrom datetime importdatetime#====================== ...

  3. 爬取校园新闻首页的新闻

    1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题.链接.正文. url = "http://news.gzcc.cn/html/xiaoyuanxinwe ...

  4. (python爬虫)新浪新闻数据爬取与清洗+新浪新闻数据管理系统+MySQL

    新浪新闻数据爬取与清洗+新浪新闻数据管理系统 设计要求 新浪新闻数据爬取与清洗 基本要求:完成新浪新闻排行中文章的数据爬取,包括标题.媒体.时间.内容. 进阶要求:对最近一周出现次数最多的关键字排名并 ...

  5. 利用自定义函数实现批量爬取多家公司的新闻

    1 需求 利用自定义函数实现批量爬取多家公司的新闻. 2 代码实现 from selenium import webdriver import redef dongfang(company):chro ...

  6. perl脚本爬虫程序,支持爬取北大未名bbs、163新闻、ifeng新闻、猫扑论坛、sina新闻等

    [实例简介] 采用perl脚本写的爬虫程序,可以爬取北大未名bbs.163新闻.ifeng新闻.猫扑论坛.sina新闻等 [实例截图] 文件:590m.com/f/25127180-494436243 ...

  7. (55)-- 简单爬取人人网个人首页信息

    # 简单爬取人人网个人首页信息 from urllib import requestbase_url = 'http://www.renren.com/964943656' headers = {&q ...

  8. Node爬取简书首页文章

    Node爬取简书首页文章 博主刚学node,打算写个爬虫练练手,这次的爬虫目标是简书的首页文章 流程分析 使用superagent发送http请求到服务端,获取HTML文本 用cheerio解析获得的 ...

  9. 基于python爬虫的论文标题_Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】...

    本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法.分享给大家供大家参考,具体如下: from urllib import request from bs4 import Beaut ...

  10. python爬取电影天堂首页

    用python写了个小爬虫,用来爬取电影天堂首页放置的几十部电影的名称,上映日期和下载链接,用到了beautifulsoup库和lxml库用来解析 代码如下: import requests impo ...

最新文章

  1. Python完全学习大师班
  2. str 类常用的函数
  3. Spring boot的Web开发
  4. Github GUI 托管代码教程
  5. ***快速理解Docker - 容器级虚拟化解决方案
  6. Python这些位运算的妙用,绝对让你大开眼界
  7. 02.1-元素定位(find)
  8. redis 系列7 数据结构之跳跃表
  9. 键盘出现与消失的监听方法
  10. b和kb的换算_G,M,KB,B,b,MB/s,Mb/s,bps等等之间的换算
  11. 显著性水平 P值 概念解释
  12. win10如何调整计算机时间同步,win10电脑时间与Internet同步的设置方法
  13. Delphi网络游戏外挂制作
  14. 3D建模学习对于电脑配置要求高不高?显卡内存等全方面解析,小白福音
  15. 湖南天才少女姚婷:刚毕业就被华为156万年薪邀请,来历不简单
  16. 4.3 期货每日早盘操作建议
  17. 一文简述机构资本市场中的区块链
  18. SenseTime Ace Coder Challenge 暨 商汤在线编程挑战赛 D. 白色相簿
  19. 开源一个自用的Android IM库,基于Netty+TCP+Protobuf实现。
  20. 电销人员如何应对工作中的挫败感

热门文章

  1. leetcode算法题--环绕字符串中唯一的子字符串★
  2. OPENSSL_Uplink(0098E000,07): no OPENSSL_Applink 错误分析
  3. 正在写一个VC的聊天软件
  4. 沫沫金【实践可用】--web工程ORM数据库链接(JDBC)链接集群库||普通库,两种标准...
  5. Canvas、Paint、Path
  6. Careercup | Chapter 4
  7. malloc和free——结构体中动态内存的管理
  8. [Ynoi2019模拟赛]Yuno loves sqrt technology II
  9. deepin下载软件慢切换镜像
  10. 2018.12.05 codeforces 948C. Producing Snow(堆)