实战爬虫：python爬虫之爬取虎扑湖人专区新闻中科比相关新闻

刚学了爬虫基础，拿来练手。
爬取湖区科比相关新闻(蜗壳虽然退役很久了，还是偶尔有点新闻的)，下载图片和新闻文本。
xpath,Beautifulsoup,正则表达式都用到了一点。写的比较糙。

# 爬取虎扑湖人专区关于科比的新闻
# 下载内容和图片
import requests
from lxml import etree
import re
import csv
from bs4 import BeautifulSoupdef csv_writer(item):with open('kobe.csv', 'a', encoding='utf-8', newline='') as csvfile:writer = csv.writer(csvfile)try:writer.writerow(item)except Exception as e:print('保存错误:', e)print('正在爬取:', item[0])def spider(url_):# 返回网址源代码文本response = requests.get(url, headers=headers)return etree.HTML(response.text)def parse_detail(detail_url):page = requests.get(detail_url, headers=headers)content = page.textsoup = BeautifulSoup(content, 'lxml')bodys = soup.find_all(class_="artical-main-content")body = BeautifulSoup(str(bodys[0]), 'lxml')tips = body.find_all('p')main_content=""for tip in tips:if "img" not in str(tip) and "href" not in str(tip):tip = re.findall(r'<p>(.*)?</p>', str(tip))main_content+='\t'+str(tip[0])+'\n'return main_contentdef download_image(image_url, title):img = requests.get(image_url, headers=headers).contentwith open(title + '.png', 'wb') as f:f.write(img)def parse(list_url):sel = spider(list_url)all_article = sel.xpath('//*[@class="list-content"]')for article in all_article:title = article.xpath('div[1]/span/a/text()')[0]if re.match('科比', title):detail_url = article.xpath('div[1]/span/a/@href')[0]content = parse_detail(detail_url)csv_writer([title, content])image_url = article.xpath('div[2]/div/a/img/@src')[0]download_image(image_url, title)com_url = 'https://voice.hupu.com/nba/tag/846-'
all_url = [com_url + str(x) + '.html' for x in range(1, 43) ]
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'}
for url in all_url:parse(url)

实战爬虫：python爬虫之爬取虎扑湖人专区新闻中科比相关新闻相关推荐

python爬取虎扑评论_python爬虫系列Selenium定向爬取虎扑篮球图片详解
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
python爬虫爬取虎扑湖人论坛专区帖子数据，并存入MongoDB数据库中
今天就带大家从头到尾一步一步带着大家爬取虎扑论坛帖子的数据,里面涉及到的一些知识,我会给出学习的连接,大家可以自行去学习查看. 前期准备首先我们打开虎扑NBA论坛,我选择的是湖人专区(小湖迷一个). ...
利用python+scrapy+mysql爬取虎扑NBA球员数据存入数据库
大家好,这是我的第一篇博客,写的不好请见谅. 小编是个多年的NBA观众,最近正值季后赛的比赛,闲来无事,突发奇想,想利用刚刚所学的python著名爬虫框架scrapy采集一下全NBA的球员基本信息 ...
爬虫入门实践之爬取虎扑论坛帖子
现在网络以及移动互联网发展迅速,大家花费越来越多的时间逛一些网站浏览帖子,比如贴吧.论坛等.博主喜欢打篮球,爱看NBA,因此常常行迹于虎扑论坛,看一些精彩赛事以及比较好的帖子.本文主要通过对虎扑某一版 ...
python爬取论坛图片_[python爬虫] Selenium定向爬取虎扑篮球海量精美图片
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
【Python爬虫】MongoDB爬虫实践：爬取虎扑论坛
MongoDB爬虫实践:爬取虎扑论坛网站地址为:https://bbs.hupu.com/bxj 1.网站分析首先,定位网页上帖子名称.帖子链接.作者.作者链接.创建时间.回复数目.浏览数目.最后 ...
python爬取虎扑论坛帖子数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
爬取虎扑社区-晒晒照片
爬取虎扑社区-晒晒照片网上看到这个消息,顺便想试试手就做了这个环境是MacOS + Anaconda (python 3.7) 就是练练手,网不好的时候会有bug 提示:类型错误Attribute ...
scrapy框架爬取虎扑论坛球队新闻
目录 Scrapy 框架制作 Scrapy 爬虫一共需要4步: Scrapy的安装介绍 Windows 安装方式一. 新建项目(scrapy startproject) 二.明确目标(mySpi ...
使用Scrapy爬取虎扑爆照区的照片
笔者最近在学习爬虫框架Scrapy,发现Scrapy的Pipeline自带一个图片下载器,便想能否自己实战爬取虎扑爆照区的照片首先是页面分析今天我们爬取的网页是https://bbs.hupu.c ...

实战爬虫：python爬虫之爬取虎扑湖人专区新闻中科比相关新闻

实战爬虫：python爬虫之爬取虎扑湖人专区新闻中科比相关新闻相关推荐

最新文章

热门文章