python爬虫新浪新闻_学习了《python网络爬虫实战》第一个爬虫,爬取新浪新闻
请安装anaconda,其中附带的spyder方便运行完查看变量
1.进入cmd控制台,
输入 pip install BeautifulSoup4
pip install requests
2.编写代码,代码已经很清晰了,直接运行不会报错并有成功的结果
def getNewsDetail(newsUrl):
import requests
from bs4 import BeautifulSoup
from datetime import datetime
newsWeb = requests.get(newsUrl)
newsWeb.encoding = 'utf-8'
soup = BeautifulSoup(newsWeb.text,'lxml')
result = {}
result['title'] = soup.select('.main-title')[0].text
result['newsSource'] = soup.select('.source')[0].text
timeSource = soup.select('.date')[0].text
result['datetime'] = datetime.strptime(timeSource,'%Y年%m月%d日 %H:%M')
result['article'] = soup.select('.article')[0].text
result['editor'] = soup.select('.show_author')[0].text.strip('责任编辑:')
result['comment'] = soup.select('.num')[0].text
return result
def parseListLinks(url):
import requests
import json
newsDetails = []
request = requests.get(url)
jsonLoad = json.loads(request.text.lstrip(' newsloadercallback(').rstrip(');'))
newsUrls = []
for item in jsonLoad['result']['data']:
newsUrls.append(item['url'])
for url in newsUrls:
newsDetails.append(getNewsDetail(url))
return newsDetails
if __name__ == '__main__':
#获取单个新闻页面的信息
newsUrl = 'http://news.sina.com.cn/s/wh/2018-01-08/doc-ifyqkarr7830426.shtml'
newsDetail = getNewsDetail(newsUrl)
#获取整个列表各个新闻页面的信息
rollUrl='http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw\
&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&\
show_num=22&tag=1&format=json&page=23&callback=newsloadercallback&_=1515911333929'
newsDetails = parseListLinks(rollUrl)
python爬虫新浪新闻_学习了《python网络爬虫实战》第一个爬虫,爬取新浪新闻相关推荐
- python代码计算矩形面积_学习资料Python语言基础知识笔记以及答案
01. Python语言基础知识等笔记: 02. Python作业答案: [例2-3]通过输入函数input()输入股票代码.股票名称.当天股票最高价和最低价,通过输出函数print()输出股票代码+ ...
- 用python画易烊千玺_竟然如此简单!输入明星名字就可以直接爬取高清图片
听说你在自己喜欢的明星壁纸?比如李易峰,王一博,易烊千玺.王源.王俊凯,李现等.今天教你批量下载这些明星高清壁纸(文末有福利) 最近图慌,闲来无事爬取李易峰的高清图片,当做手机壁纸也是不错的选择.废话 ...
- python描述符魔术方法_学习笔记-Python基础9-面向对象编程OOP-类的成员描述符(property)、类的常用内置属性、类的常用魔术方法、类和对象的三种方法...
一.类的成员描述符(property) 类的成员描述符是为了在类中,对类的成员属性进行相关操作而创建的一种方式,大部分属于数据清洗 属性有三种操作:get获取属性值.set修改或添加属性.delete ...
- 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- python爬虫-使用BeautifulSoup爬取新浪新闻标题
** python爬虫-使用BeautifulSoup爬取新浪新闻标题 ** 最近在学习爬虫的技巧,首先学习的是较为简单的BeautifulSoup,应用于新浪新闻上. import requests ...
- 使用python网络爬虫爬取新浪新闻(一)
使用python网络爬虫爬取新浪新闻 第一次写博客,感觉有点不太习惯!不知道怎么突然就想学学爬虫了,然后就用了一天的时间,跟着教程写了这个爬虫,!不说废话了,我将我从教程上学习的东西整个写下来吧,从头 ...
- python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...
一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 scrapy startproj ...
- 网络爬虫-----python爬取新浪新闻
思路:先爬取首页,然后通过正则筛选出所有文章url,然后通过循环分别爬取这些url到本地 #python新闻爬虫实战 import urllib.request import re url = 'ht ...
- Python网络爬虫爬取新浪新闻
笔者最近由于需要研究互联网新闻,于是基于邱老师的网络爬虫实战,写了一个爬取新浪新闻的爬虫,爬取的信息有: 新闻标题 来源url 发布时间 正文 编辑者 与邱老师的爬虫相比有以下几点不同: 没有爬取新闻 ...
- python爬取新浪新闻意义_爬取新浪新闻
[Python] 纯文本查看 复制代码import requests import os from bs4 import BeautifulSoup import re # 爬取具体每个新闻内容 de ...
最新文章
- ios alertview 链接_iOS-MobLink集成流程
- Android编程 系统资源的介绍
- 9. Palindrome Number
- [Rails.Test.Prescriptions]系列之一:0基础的Test Rails...
- 检测机安装mysql_centos安装mysql的正确方法
- 李航《统计学习方法》笔记
- java 根据类名示例化类_Java LocalDateTime类| 带示例的getNano()方法
- 【转】ASCII码表
- zigbee无线传感网技术与应用开发v2.0_ZigBee网络架构详解
- java项目经验案例_PLC与POE结合项目经验案例总结
- 30余种加密编码类型的密文特征分析
- Linux操作系统进程模型分析
- Photoshop插件-增加细节-脚本开发-PS插件
- 图像的一些基本概念整理
- HTML5系列代码:Visual Studio Code(简称 VS Code)是一个由微软开发
- android期末复习
- sql超键 候选键 主键
- SPSS简单数据分析之分类汇总数据
- 聊聊技术专家谈阿里云史诗级故障
- 伴鱼英语有计算机英语语言吗,伴鱼少儿英语电脑版
热门文章
- 精彩回顾丨2021数据库大咖讲坛(第7期)视频PPT互动问答
- CNCF Serverless工作流社区携手华为云FunctionGraph,开拓Serverless编排新时代
- “1天一朵云”,这是如何做到的?
- 跟随报文,开启一段奇妙之旅
- 带着canvas去流浪系列之七 绘制水球图
- 大型情感剧集Selenium:2_options设置 #华为云·寻找黑马程序员#
- 【华为云实战开发】15.Maven依赖的JAR包下载慢?赶紧看过来
- easyphp 登陆mysql_EasyPHP/phpmyadmin 尝试连接到 mysql 服务器 但服务器拒绝连接
- 红橙Darren视频笔记 IOC注解框架 了解xUtils3与ButterKnife的原理
- Android事件分发 笔记