(爬取清华大学体育部重要新闻前十页)
运行截图:


代码:

import requests
from bs4 import BeautifulSoup
import csv
import time# http://www.thsports.tsinghua.edu.cn/publish/sports/1899/index.html
# http://www.thsports.tsinghua.edu.cn/publish/sports/1899/index_2.html
# http://www.thsports.tsinghua.edu.cn/publish/sports/1899/index_3.htmlurl_1=["http://www.thsports.tsinghua.edu.cn/publish/sports/1899/index_{}.html".format(i) for i in range(2,10)]
urls=url_1+["http://www.thsports.tsinghua.edu.cn/publish/sports/1899/index.html"]
#print (urls)for url in urls:headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36 Edg/90.0.818.56'}time.sleep(5)r = requests.get(url,headers=headers)r.encoding="utf-8"html= r.text
#     print(html)with open("qhsport.html","w+",encoding="utf-8") as f:f.write(html)soup = BeautifulSoup(html,"lxml")news=soup.find(class_="box_list").find_all("li")#news=soup.find_all('ul')[2].find_all('li')for new in news:times=new.find(name="p").get_text()title=new.find(name="a").get("title")link=new.find(name="a").get("href")
#         print(link)url2="http://www.thsports.tsinghua.edu.cn"+link
#         print(url2)headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36 Edg/90.0.818.56'}con=requests.get(url2,headers=headers)con.encoding="utf-8"html2=con.textsoup2=BeautifulSoup(html2,"lxml")content=soup2.find(class_="box_detail").get_text()print(times,title,url2,content)with open("qh_news.csv","a",newline="",encoding="utf_8_sig")as f:writer=csv.writer(f)writer.writerow((times,title,url2,content))print("爬取完毕!")   

python网络爬虫 爬取新闻标题、时间、内容相关推荐

  1. 使用python网络爬虫爬取新浪新闻(一)

    使用python网络爬虫爬取新浪新闻 第一次写博客,感觉有点不太习惯!不知道怎么突然就想学学爬虫了,然后就用了一天的时间,跟着教程写了这个爬虫,!不说废话了,我将我从教程上学习的东西整个写下来吧,从头 ...

  2. Python网络爬虫爬取虎扑步行街爆照区话题

    Python网络爬虫爬取虎扑步行街爆照区话题 作者:郜科科 最近的任务挺多的,但是心情很烦躁,想做一些自己喜欢的东西,前些时候感觉Python爬虫很好玩,就自学了一下.本人比较喜欢逛街--虎扑步行街, ...

  3. python抓取朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)...

    原标题:如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下) 前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往 ...

  4. Python:网络爬虫爬取某表情包网站

    Python:网络爬虫爬取某表情包网站 参考: 爬虫基础知识点汇总(html文件基础和4个常用库 超级详细长文预警) [爬虫教程]吐血整理,最详细的爬虫入门教程~ HTML的简单介绍 HTML的全称为 ...

  5. 如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)

    前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...

  6. python朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)

    前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...

  7. 用python网络爬虫爬取英雄联盟英雄图片

    用python爬虫爬取lol皮肤. 这也用python网络爬虫爬取lol英雄皮肤,忘了是看哪个大神的博客(由于当时学了下就一直放在这儿,现在又才拿出来,再加上马上要考二级挺忙的.),代码基本上是没改, ...

  8. python如何爬虫网页数据-python网络爬虫爬取网页内容

    1.什么是网络爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自 ...

  9. python网络爬虫——爬取嗅事百科

    网络爬虫 - 爬取嗅事百科 爬取过程分三大步: 一,请求,获取网页源码 url为:url =' https : //www.qiushibaike.com/8hr/page/'+ str(page)先 ...

最新文章

  1. Golang sync
  2. 《数据中台实战》:如何通过标签平台圈出产品高价值用户?
  3. 内存中“堆”和“栈”的区别
  4. flink file sink
  5. OpenCV显示图片的实例(附完整代码)
  6. 微软发布 Microsoft Edge 85 稳定版
  7. uva 12442 . Forwarding Emails
  8. centos killall安装
  9. 转载:兼容IE的内阴影和外阴影效果
  10. IR2104与IR2103区别
  11. Ambiguous mapping. Cannot map ‘xxxController‘ method
  12. 什么是Monitor?
  13. windows下ssh server搭建方法
  14. 【unity】Google 登录和Google支付接入unity
  15. Win10突然就不能连接网络了怎么办
  16. htslib和Samtool安装步骤
  17. tars 的基本使用——使用 tars 发布服务
  18. VC 2010 安装OpenCV2.4.3
  19. bootstratreeview树形下拉框
  20. 滚珠丝杠和梯形丝杠的区别

热门文章

  1. php 把java list对象转成数组,java_JSON的String字符串与Java的List列表对象的相互转换,在前端: 1.如果json是List对象 - phpStudy...
  2. 随想录(以师带徒的原则)
  3. 怎么切换java版本吗_Java切换JDK版本的方法及技巧
  4. java求最小生成树的权重_给定有权无向图的邻接矩阵如下,求其最小生成树的总权重,代码。...
  5. mysql 日志文件_Mysql 日志文件类型
  6. 奇安信校招面试题来啦
  7. Codeforces Round #158 (Div. 2) A - Adding Digits
  8. vue路由1:基本使用
  9. 十个提升网站访问性能的方法
  10. Git自由之章 - 本地仓库的基本操作