import numpy as np

import pandas as pd

import requests as req

from bs4 import BeautifulSoup

from bs4 import BeautifulSoup

# 获取体育新闻并存储到文件中

def getNewsHtml(url):

# 爬取过程中可能会出现爬取失败的情况,一旦失败停止爬取

try:

r = req.get(url, headers={'user-agent': 'Mozilla/5.0'})

r.raise_for_status()

html = r.text

return html

except:

return "Error"

# 爬取新闻信息

def getNewDate(html):

# 使用BeautifulSoup类解析网页源码

soup = BeautifulSoup(html, "html.parser")

# 获取新闻标题

title = soup.select("div.LEFT > h1")

# 打印新闻标题

print(title[0].text)

# 获取新闻发布时间

mata = soup.find_all("meta", attrs={"name": "apub:time"})[0].attrs["content"]

print(mata)

# 获取新闻主题内容

cntents = soup.select("div.content-article > p.one-p")

text = ""

n = 0

# 循环遍历contents中的p标签

for p in cntents:

if n > 1:

# 拼接内容

text = text+p.text

n = n + 1

return [title[0].text, text, mata]

# 循环爬取urls数组中的路径

def forNewUrl(urls):

List = []

for url in urls:

# 爬取页面源码

html = getNewsHtml(url)

# 返回新闻页面数据集合

newdata = getNewDate(html)

List.append(newdata)

return List

# 用来保存新闻数据

def saveNewDate(ListNewsDate,newPath):

writer = pd.ExcelWriter(newPath)

# 将数据转为DataFrame格式,用来存储在excel表格中

df= pd.DataFrame(ListNewsDate,columns=["NewTilte","NewContent","createtime"])

#

df.to_excel(writer, sheet_name="ListNewsDate1")

writer.save()

# 爬取新闻的页面ur路径

# url = "https://new.qq.com/rain/a/SPO2019121602087000"

urls = ["https://new.qq.com/rain/a/SPO2019121602087000",

"https://new.qq.com/omn/20191218/20191218A0NMFX00.html",

"https://new.qq.com/omn/20191218/20191218A0OTX800.html",

"https://new.qq.com/omn/20191218/20191218A0JR4H00.html",

"https://new.qq.com/omn/20191218/20191218A0OO9M00.html",

"https://new.qq.com/omn/20191218/20191218A0JVAA00.html",

"https://new.qq.com/omn/20191218/20191218A0HDXZ00.html",

"https://new.qq.com/omn/20191218/20191218A0F26Y00.html",

"https://new.qq.com/omn/20191218/20191218A0F1T500.html",

"https://new.qq.com/omn/20191218/20191218A0ENJ800.html",

"https://new.qq.com/omn/20191218/20191218A0E85400.html",

"https://new.qq.com/rain/a/20191218A0CEBN00",

"https://new.qq.com/omn/20191218/20191218A0CAJB00.html",

"https://new.qq.com/omn/20191218/20191218A0BPK400.html",

"https://new.qq.com/omn/20191218/20191218A0BNTG00.html",

"https://new.qq.com/rain/a/20191218A0BNI300",

"https://new.qq.com/omn/20191218/20191218A0BM8G00.html",

"https://new.qq.com/omn/20191218/20191218A0BFS000.html",

"https://new.qq.com/omn/20191218/20191218A0B3AT00.html",

"https://new.qq.com/rain/a/20191218A0B0CI00",

"https://new.qq.com/omn/20191218/20191218A0AUGQ00.html",

"https://new.qq.com/omn/20191218/20191218A0A42300.html"

,"https://new.qq.com/omn/20191218/20191218A09YES00.html",

"https://new.qq.com/omn/20191218/20191218A09XPJ00.html",

"https://new.qq.com/omn/20191218/20191218A09MW500.html",

"https://new.qq.com/omn/20191218/20191218A09AGO00.html",

"https://new.qq.com/omn/20191218/20191218A08E6V00.html",

"https://new.qq.com/omn/20191218/20191218A067ZI00.html",

"https://new.qq.com/omn/20191218/20191218A046ZD00.html",

"https://new.qq.com/omn/20191218/20191218A0424P00.html"]

def run():

ListNewsDate = forNewUrl(urls)

saveNewDate(ListNewsDate, "ListNewsDate.xlsx")

#执行代码

run()

python设计要求_Python高级应用程序设计任务要求相关推荐

  1. python3应用程序代码_Python高级应用程序设计

    Python高级应用程序设计任务要求 用Python实现一个面向主题的网络爬虫程序,并完成以下内容: (注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台) 一.主题式网络爬虫设计方案 ...

  2. python高级语言设计我是卧底_Python高级应用程序设计任务

    一.主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 基于智联招聘全国python岗位数据爬虫 2.主题式网络爬虫爬取的内容与数据特征分析 2.1爬取的内容 抓取来源,岗位名称,薪资,地址,工 ...

  3. python高级应用程序课程设计_Python高级应用程序设计任务

    一.主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 <Python爬虫之国家统计局相关数据的爬取及分析> 2.主题式网络爬虫爬取的内容与数据特征分析 本次爬取内容为:国家统计局( ...

  4. python高级应用_Python高级应用程序设计任务

    一.主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 关于链家泉州本地租房信息的爬虫 2.主题式网络爬虫爬取的内容与数据特征分析 2.1爬取的内容 租房类型,所属区县,详细地址,房屋面积,房屋 ...

  5. python编程设计高级_Python高级应用程序设计

    一.主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 链家二手房成交信息(福州地区) 2.主题式网络爬虫爬取的内容与数据特征分析 本爬虫程序爬取链家网福州二手房的成交信息,分别从户型.面积.成 ...

  6. python俗称_python中文叫什么

    python中文叫什么? python中文叫蟒蛇,通常情况下,Python是一种计算机程序设计语言.是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新 ...

  7. python支持强大的科学计算功能_用 Python 写高效科学计算程序设计

    1.科学计算中的突出问题及需求 概括一般科学计算的特点,主要包括四方面: 数值计算种类多 对于某个问题的求解,可能需要不同种类的函数,如三角函数,积分函数,概率统计函数以及某些特殊函数. 需要大量数值 ...

  8. 计算机python教程_Python 如何入门?附Python教程下载

    学习编程,有兴趣最好,小时候就开始捣鼓电脑.知识兔上有大量编程视频教程课程,都是精品课程,1080P超高清画质教学视频,精品之精品,找一套优秀Python课程教程或者找公众号超乎想象客服推荐一下,轻轻 ...

  9. 派森python教程_Python系列教程一Python入门(一)

    前言 各位看博客的园友们,大家好,我就是那个风流倜傥的KK,还记得我那篇2019年的年中总结博客吗?我想有许多看博客的园友是没有读过我那篇文章的,KK很生气,后果很严重(开个玩笑了,怎么可能).给大家 ...

最新文章

  1. 从网页的控制台登录云服务器ECS中的Ubuntu系统
  2. selenium3浏览器驱动安装设置方法
  3. 从“不务正业”到“回归本行”,“中年”雅戈尔的偶然与必然
  4. CCActionEase想说爱你也不难(上)
  5. 按钮加ico图标_花里胡哨系列 —— 自定义U盘图标
  6. 一次性医用外科手套行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
  7. matlab状态方程 传递函数 可控性,matlab 控制系统仿真
  8. 荒野行动 android 鼠标,荒野行动键盘映射模拟器
  9. (自动)运动控制系统学习笔记
  10. 中国移动实习计算机技术岗,暑期实习生去中国移动面试经历
  11. sap相同服务器文件复制粘贴,SAP GUI的快捷复制粘贴和栅格操作
  12. napi娃娃_第二十九章 干妈
  13. 计算机无法进入操作系统怎么办,老司机教你电脑开机无法进入系统怎么办
  14. 金额转大写java实现
  15. 摩拜显示服务器忙,摩拜崩了?用户扫了5辆都失败 摩拜称APP出现短时故障
  16. 关于CSS与HTML知识点总结(一)
  17. 2020年全年财报稳健高增长,除了赛道利好之外微盟是如何做到的?
  18. 一个中科大差生的 8 年程序员工作总结
  19. 内网环境下docker安装PMM 并监控 PG与MySQL
  20. 给老孙做了个排班表!

热门文章

  1. 有了Auto Layout,为什么你还是害怕写UITabelView的自适应布局?
  2. [安卓]AndroidManifest.xml文件简介及结构
  3. 最大 / 小的K个数
  4. ubuntu 设置php开机启动
  5. 把Microsoft Office Excel/Word遇到问题
  6. VStudio 2003 remote debug
  7. 实现销售榜单下载功能
  8. 6-6-阶段案例:传智书城JSP页面
  9. 4-1-getOutputStream()或getWriter()发送响应消息体及分析为什么不能同时使用
  10. linux虚拟机中安装java软件,在 Linux 中安装 JAVA 虚拟机