实战爬虫:python爬虫之爬取虎扑湖人专区新闻中科比相关新闻
刚学了爬虫基础,拿来练手。
爬取湖区科比相关新闻(蜗壳虽然退役很久了,还是偶尔有点新闻的),下载图片和新闻文本。
xpath,Beautifulsoup,正则表达式都用到了一点。写的比较糙。
# 爬取虎扑湖人专区关于科比的新闻
# 下载内容和图片
import requests
from lxml import etree
import re
import csv
from bs4 import BeautifulSoupdef csv_writer(item):with open('kobe.csv', 'a', encoding='utf-8', newline='') as csvfile:writer = csv.writer(csvfile)try:writer.writerow(item)except Exception as e:print('保存错误:', e)print('正在爬取:', item[0])def spider(url_):# 返回网址源代码文本response = requests.get(url, headers=headers)return etree.HTML(response.text)def parse_detail(detail_url):page = requests.get(detail_url, headers=headers)content = page.textsoup = BeautifulSoup(content, 'lxml')bodys = soup.find_all(class_="artical-main-content")body = BeautifulSoup(str(bodys[0]), 'lxml')tips = body.find_all('p')main_content=""for tip in tips:if "img" not in str(tip) and "href" not in str(tip):tip = re.findall(r'<p>(.*)?</p>', str(tip))main_content+='\t'+str(tip[0])+'\n'return main_contentdef download_image(image_url, title):img = requests.get(image_url, headers=headers).contentwith open(title + '.png', 'wb') as f:f.write(img)def parse(list_url):sel = spider(list_url)all_article = sel.xpath('//*[@class="list-content"]')for article in all_article:title = article.xpath('div[1]/span/a/text()')[0]if re.match('科比', title):detail_url = article.xpath('div[1]/span/a/@href')[0]content = parse_detail(detail_url)csv_writer([title, content])image_url = article.xpath('div[2]/div/a/img/@src')[0]download_image(image_url, title)com_url = 'https://voice.hupu.com/nba/tag/846-'
all_url = [com_url + str(x) + '.html' for x in range(1, 43) ]
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'}
for url in all_url:parse(url)
实战爬虫:python爬虫之爬取虎扑湖人专区新闻中科比相关新闻相关推荐
- python爬取虎扑评论_python爬虫系列Selenium定向爬取虎扑篮球图片详解
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
- python爬虫爬取虎扑湖人论坛专区帖子数据,并存入MongoDB数据库中
今天就带大家从头到尾一步一步带着大家爬取虎扑论坛帖子的数据,里面涉及到的一些知识,我会给出学习的连接,大家可以自行去学习查看. 前期准备 首先我们打开虎扑NBA论坛,我选择的是湖人专区(小湖迷一个). ...
- 利用python+scrapy+mysql爬取虎扑NBA球员数据存入数据库
大家好,这是我的第一篇博客,写的不好请见谅. 小编是个多年的NBA观众,最近正值季后赛的比赛,闲来无事,突发奇想,想利用刚刚所学的python著名爬虫框架scrapy采集一下全NBA的球员基本信息 ...
- 爬虫入门实践之爬取虎扑论坛帖子
现在网络以及移动互联网发展迅速,大家花费越来越多的时间逛一些网站浏览帖子,比如贴吧.论坛等.博主喜欢打篮球,爱看NBA,因此常常行迹于虎扑论坛,看一些精彩赛事以及比较好的帖子.本文主要通过对虎扑某一版 ...
- python爬取论坛图片_[python爬虫] Selenium定向爬取虎扑篮球海量精美图片
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
- 【Python爬虫】MongoDB爬虫实践:爬取虎扑论坛
MongoDB爬虫实践:爬取虎扑论坛 网站地址为:https://bbs.hupu.com/bxj 1.网站分析 首先,定位网页上帖子名称.帖子链接.作者.作者链接.创建时间.回复数目.浏览数目.最后 ...
- python爬取虎扑论坛帖子数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
- 爬取虎扑社区-晒晒照片
爬取虎扑社区-晒晒照片 网上看到这个消息,顺便想试试手就做了这个 环境是MacOS + Anaconda (python 3.7) 就是练练手,网不好的时候会有bug 提示:类型错误Attribute ...
- scrapy框架爬取虎扑论坛球队新闻
目录 Scrapy 框架 制作 Scrapy 爬虫 一共需要4步: Scrapy的安装介绍 Windows 安装方式 一. 新建项目(scrapy startproject) 二.明确目标(mySpi ...
- 使用Scrapy爬取虎扑爆照区的照片
笔者最近在学习爬虫框架Scrapy,发现Scrapy的Pipeline自带一个图片下载器,便想能否自己实战爬取虎扑爆照区的照片 首先是页面分析 今天我们爬取的网页是https://bbs.hupu.c ...
最新文章
- mysql 多数据库文件_今天突然发现我的Linux下MySQL数据库目录多了好多文件
- C语言成长学习题(十六)
- 集群与存储 LVS的集群
- luogu P3293 [SCOI2016]美味
- PAT1043 输出PATest (20 分)
- 【分析】1021 Deepest Root (25 分)【DFS解法】
- linux就业技术指导,学linux前景怎么样
- php 图片叠加,thinkPHP5 生成海报(图片叠加定位)
- USB 3.1 与 Type-C 接口有什么关系呢
- 轻量型thttpd+php5
- Android学习--10-数据存储
- c语言二级选择题APP,C语言二级考试题库
- K3 Cloud 常用语法及常见异常
- office-excel
- 苹果手机密码设置在哪里_oppo怎么设置SIM密码-oppo手机SIM卡密码设置详细教程
- 移动拼图游戏(八数码问题) BFS版
- Linux中的lo回环接口详细介绍
- 软件缺陷静态分析CodeSonar
- python 排序(升序或降序)
- HDOJ 1495 倒可乐(BFS)
热门文章
- 14.为主题配置图片性能
- 3. Javascript 对象
- 1. 正则表达式简介
- php中array_merge()与$arr1+$arr2两个数组直接相加的区别
- PADS layout 显示叉X怎么回事?
- win10 查看系统开机历史记录
- pyhton2 and python3 生成随机数字、字母、符号字典(用于撞库测试/验证码等)
- SpringBoot实现JWT保护前后端分离RESTful API
- SaltStack之state.sls
- USACO 2.3 Controlling Companies(DFS)