刚学了爬虫基础,拿来练手。
爬取湖区科比相关新闻(蜗壳虽然退役很久了,还是偶尔有点新闻的),下载图片和新闻文本。
xpath,Beautifulsoup,正则表达式都用到了一点。写的比较糙。

# 爬取虎扑湖人专区关于科比的新闻
# 下载内容和图片
import requests
from lxml import etree
import re
import csv
from bs4 import BeautifulSoupdef csv_writer(item):with open('kobe.csv', 'a', encoding='utf-8', newline='') as csvfile:writer = csv.writer(csvfile)try:writer.writerow(item)except Exception as e:print('保存错误:', e)print('正在爬取:', item[0])def spider(url_):# 返回网址源代码文本response = requests.get(url, headers=headers)return etree.HTML(response.text)def parse_detail(detail_url):page = requests.get(detail_url, headers=headers)content = page.textsoup = BeautifulSoup(content, 'lxml')bodys = soup.find_all(class_="artical-main-content")body = BeautifulSoup(str(bodys[0]), 'lxml')tips = body.find_all('p')main_content=""for tip in tips:if "img" not in str(tip) and "href" not in str(tip):tip = re.findall(r'<p>(.*)?</p>', str(tip))main_content+='\t'+str(tip[0])+'\n'return main_contentdef download_image(image_url, title):img = requests.get(image_url, headers=headers).contentwith open(title + '.png', 'wb') as f:f.write(img)def parse(list_url):sel = spider(list_url)all_article = sel.xpath('//*[@class="list-content"]')for article in all_article:title = article.xpath('div[1]/span/a/text()')[0]if re.match('科比', title):detail_url = article.xpath('div[1]/span/a/@href')[0]content = parse_detail(detail_url)csv_writer([title, content])image_url = article.xpath('div[2]/div/a/img/@src')[0]download_image(image_url, title)com_url = 'https://voice.hupu.com/nba/tag/846-'
all_url = [com_url + str(x) + '.html' for x in range(1, 43) ]
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'}
for url in all_url:parse(url)

实战爬虫:python爬虫之爬取虎扑湖人专区新闻中科比相关新闻相关推荐

  1. python爬取虎扑评论_python爬虫系列Selenium定向爬取虎扑篮球图片详解

    前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...

  2. python爬虫爬取虎扑湖人论坛专区帖子数据,并存入MongoDB数据库中

    今天就带大家从头到尾一步一步带着大家爬取虎扑论坛帖子的数据,里面涉及到的一些知识,我会给出学习的连接,大家可以自行去学习查看. 前期准备 首先我们打开虎扑NBA论坛,我选择的是湖人专区(小湖迷一个). ...

  3. 利用python+scrapy+mysql爬取虎扑NBA球员数据存入数据库

      大家好,这是我的第一篇博客,写的不好请见谅. 小编是个多年的NBA观众,最近正值季后赛的比赛,闲来无事,突发奇想,想利用刚刚所学的python著名爬虫框架scrapy采集一下全NBA的球员基本信息 ...

  4. 爬虫入门实践之爬取虎扑论坛帖子

    现在网络以及移动互联网发展迅速,大家花费越来越多的时间逛一些网站浏览帖子,比如贴吧.论坛等.博主喜欢打篮球,爱看NBA,因此常常行迹于虎扑论坛,看一些精彩赛事以及比较好的帖子.本文主要通过对虎扑某一版 ...

  5. python爬取论坛图片_[python爬虫] Selenium定向爬取虎扑篮球海量精美图片

    前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...

  6. 【Python爬虫】MongoDB爬虫实践:爬取虎扑论坛

    MongoDB爬虫实践:爬取虎扑论坛 网站地址为:https://bbs.hupu.com/bxj 1.网站分析 首先,定位网页上帖子名称.帖子链接.作者.作者链接.创建时间.回复数目.浏览数目.最后 ...

  7. python爬取虎扑论坛帖子数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  8. 爬取虎扑社区-晒晒照片

    爬取虎扑社区-晒晒照片 网上看到这个消息,顺便想试试手就做了这个 环境是MacOS + Anaconda (python 3.7) 就是练练手,网不好的时候会有bug 提示:类型错误Attribute ...

  9. scrapy框架爬取虎扑论坛球队新闻

    目录 Scrapy 框架 制作 Scrapy 爬虫 一共需要4步: Scrapy的安装介绍 Windows 安装方式 一. 新建项目(scrapy startproject) 二.明确目标(mySpi ...

  10. 使用Scrapy爬取虎扑爆照区的照片

    笔者最近在学习爬虫框架Scrapy,发现Scrapy的Pipeline自带一个图片下载器,便想能否自己实战爬取虎扑爆照区的照片 首先是页面分析 今天我们爬取的网页是https://bbs.hupu.c ...

最新文章

  1. mysql 多数据库文件_今天突然发现我的Linux下MySQL数据库目录多了好多文件
  2. C语言成长学习题(十六)
  3. 集群与存储 LVS的集群
  4. luogu P3293 [SCOI2016]美味
  5. PAT1043 输出PATest (20 分)
  6. 【分析】1021 Deepest Root (25 分)【DFS解法】
  7. linux就业技术指导,学linux前景怎么样
  8. php 图片叠加,thinkPHP5 生成海报(图片叠加定位)
  9. USB 3.1 与 Type-C 接口有什么关系呢
  10. 轻量型thttpd+php5
  11. Android学习--10-数据存储
  12. c语言二级选择题APP,C语言二级考试题库
  13. K3 Cloud 常用语法及常见异常
  14. office-excel
  15. 苹果手机密码设置在哪里_oppo怎么设置SIM密码-oppo手机SIM卡密码设置详细教程
  16. 移动拼图游戏(八数码问题) BFS版
  17. Linux中的lo回环接口详细介绍
  18. 软件缺陷静态分析CodeSonar
  19. python 排序(升序或降序)
  20. HDOJ 1495 倒可乐(BFS)

热门文章

  1. 14.为主题配置图片性能
  2. 3. Javascript 对象
  3. 1. 正则表达式简介
  4. php中array_merge()与$arr1+$arr2两个数组直接相加的区别
  5. PADS layout 显示叉X怎么回事?
  6. win10 查看系统开机历史记录
  7. pyhton2 and python3 生成随机数字、字母、符号字典(用于撞库测试/验证码等)
  8. SpringBoot实现JWT保护前后端分离RESTful API
  9. SaltStack之state.sls
  10. USACO 2.3 Controlling Companies(DFS)