import re
import requests
from bs4 import BeautifulSoup
from datetime import datetime# 获取新闻的所有信息
def news(url):res = requests.get(url)res.encoding = 'utf-8'soup = BeautifulSoup(res.text, 'html.parser')newsTitle = soup.select('.show-title')[0].text  # 标题author = soup.select('.show-info')[0].text.split()[2]  # 作者auditor = soup.select('.show-info')[0].text.split()[3]  # 审核source = soup.select('.show-info')[0].text.split()[4]  # 来源showinfo = soup.select('.show-info')[0].textnewsday = newsdt(showinfo)  # 时间newsclick = click(url)  # 点击次数news = print(newsTitle, newsday, author, auditor, source, newsclick)return news# 获取点击量
def click(url):id=int(re.findall('_(.*).html',url)[0].split('/')[1])clickurl = 'http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(id)res = requests.get(clickurl)click = res.text.split('.html')[-1].lstrip("('").rstrip("');")return click# 获取发布时间
def newsdt(showinfo):newsdate = showinfo.split()[0].split(':')[1]newstime = showinfo.split()[1]newsday = newsdate + ' ' + newstimedt = datetime.strptime(newsday, '%Y-%m-%d %H:%M:%S')return dturl = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0329/11104.html'
news(url)

转载于:https://www.cnblogs.com/pybblog/p/10650906.html

获取一篇新闻的全部信息相关推荐

  1. 【大数据】获取一篇新闻的全部信息

    作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894 给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题. ...

  2. Python多篇新闻自动采集

    昨天用python写了一个天气预报采集,今天趁着兴头写个新闻采集的. 目标是,将腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称.时间.来源以及正文. 接下来分解目标,一步一步地做. 步骤1:将主 ...

  3. python网络爬虫实战3——抓取新闻内文相关信息

    详细代码见:http://download.csdn.net/download/vinsuan1993/10258596 一.需求说明 我们通过上一篇博客(http://blog.csdn.net/c ...

  4. python 采集新闻_Python多篇新闻自动采集

    昨天用python写了一个天气预报采集,今天趁着兴头写个新闻采集的. 目标是,将腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称.时间.来源以及正文. 接下来分解目标,一步一步地做. 步骤1:将主 ...

  5. 【python】【爬虫】Scrapy Crawl自动爬虫【获取新浪新闻为例】

    Scrapy自动爬虫(crawl模板)[scrapy genspider -t crawl news news.sina.com.cn] Crawl自动爬虫适用: 对有规律的网站进行自动爬取 Craw ...

  6. 当前主要使用的python版本_如何获取当前使用的Python版本信息?(代码示例)

    本篇文章主要给大家介绍如何获取当前Python版本,希望对需要的朋友有所帮助! 版本信息: 包含版本号的五个组件的元组:major,minor,micro,releaselevel和serial.除r ...

  7. Hadoop综合大作业补交4次作业:获取全部校园新闻,网络爬虫基础练习,中文词频统计,熟悉常用的Linux操作...

    1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计. (1)开启所有的服务,并创建文件夹wwc (2)查看目录下所有文件 (3)把hdfs文件系统中文件夹里的文 ...

  8. python新闻爬虫教程_python简易爬虫教程--(一)批量获取搜狐新闻

    我们先从简单的抓取文本信息开始,来写我们的第一个爬虫程序,获取搜狐新闻的内容. 我们首先来介绍一下我们需要用到的库. 爬虫程序的步骤,一般可以分为三步: 1.获取网页源码(html源码): 2.从代码 ...

  9. 插件77:获取Yahoo!股票新闻

    <?php // Plug-in 77: Get Yahoo! Stock News /** 获取Yahoo!股票新闻* 插件说明:* 插件接受一个股票代码,如AAPL或MSFT,返回该股票的相 ...

最新文章

  1. matlab与acess连接问题
  2. 3、Python字典集合
  3. 如何模拟鼠标的拖拽行为.
  4. Memcache查看运行状况
  5. 顶级数据库行会Percona阿里全面解析下一代云数据库技术
  6. TensorFlow 2.0 - Keras Pipeline、自定义Layer、Loss、Metric
  7. wp博客链接.html,WordPress博客文章标题链接到自定义网址链接
  8. 计算机网络——物理层设备
  9. 用于Elasticsearch数据可视化和分析的强大工具
  10. 漫步线性代数十七——正交基和格拉姆-施密特正交化(上)
  11. 什么是Redis缓存雪崩、缓存穿透和缓存击穿
  12. android 文件流转换为zip文件_PDF文件如何转换为TXT文本?教您一招高效转换的方法...
  13. 计算机网络数据吞吐量,计算机网络的性能指标
  14. 怎么给ChemDraw反应式添加分数系数
  15. github登录+注册方法
  16. 华为煤矿军团首登央视 | 发布会金句爆棚
  17. Unity学习笔记:Animator、Animator Controller、Animation Cilp之间的关系、以及Blend Tree的用法;
  18. Hadoop的NameNode在启动时都做了哪些事情?源码解析
  19. iOS后台运行任务的应用
  20. IOS 笔记大全 (UI控件到网络协议)

热门文章

  1. swift 实践- 10 -- UIProgressView
  2. Linux使用单用户模式修改root密码.
  3. bootstrap基础学习四篇
  4. 有关(int)和(int)的区别
  5. 在Notes客户端如何打开隐藏视图
  6. 英雄难过棍子关html游戏开发,《英雄难过棍子关》评测:看我变长再变长!
  7. git创建本地版本仓库及注意事项
  8. Vivado下生成及烧写MCS文件
  9. C++实现用堆求最小的k个数
  10. android判断是否json格式,Android判断json格式将错误信息提交给服务器