请安装anaconda,其中附带的spyder方便运行完查看变量

1.进入cmd控制台,

输入 pip install BeautifulSoup4

pip install requests

2.编写代码,代码已经很清晰了,直接运行不会报错并有成功的结果

def getNewsDetail(newsUrl):

import requests

from bs4 import BeautifulSoup

from datetime import datetime

newsWeb = requests.get(newsUrl)

newsWeb.encoding = 'utf-8'

soup = BeautifulSoup(newsWeb.text,'lxml')

result = {}

result['title'] = soup.select('.main-title')[0].text

result['newsSource'] = soup.select('.source')[0].text

timeSource = soup.select('.date')[0].text

result['datetime'] = datetime.strptime(timeSource,'%Y年%m月%d日 %H:%M')

result['article'] = soup.select('.article')[0].text

result['editor'] = soup.select('.show_author')[0].text.strip('责任编辑:')

result['comment'] = soup.select('.num')[0].text

return result

def parseListLinks(url):

import requests

import json

newsDetails = []

request = requests.get(url)

jsonLoad = json.loads(request.text.lstrip(' newsloadercallback(').rstrip(');'))

newsUrls = []

for item in jsonLoad['result']['data']:

newsUrls.append(item['url'])

for url in newsUrls:

newsDetails.append(getNewsDetail(url))

return newsDetails

if __name__ == '__main__':

#获取单个新闻页面的信息

newsUrl = 'http://news.sina.com.cn/s/wh/2018-01-08/doc-ifyqkarr7830426.shtml'

newsDetail = getNewsDetail(newsUrl)

#获取整个列表各个新闻页面的信息

rollUrl='http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw\

&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&\

show_num=22&tag=1&format=json&page=23&callback=newsloadercallback&_=1515911333929'

newsDetails = parseListLinks(rollUrl)

python爬虫新浪新闻_学习了《python网络爬虫实战》第一个爬虫,爬取新浪新闻相关推荐

  1. python代码计算矩形面积_学习资料Python语言基础知识笔记以及答案

    01. Python语言基础知识等笔记: 02. Python作业答案: [例2-3]通过输入函数input()输入股票代码.股票名称.当天股票最高价和最低价,通过输出函数print()输出股票代码+ ...

  2. 用python画易烊千玺_竟然如此简单!输入明星名字就可以直接爬取高清图片

    听说你在自己喜欢的明星壁纸?比如李易峰,王一博,易烊千玺.王源.王俊凯,李现等.今天教你批量下载这些明星高清壁纸(文末有福利) 最近图慌,闲来无事爬取李易峰的高清图片,当做手机壁纸也是不错的选择.废话 ...

  3. python描述符魔术方法_学习笔记-Python基础9-面向对象编程OOP-类的成员描述符(property)、类的常用内置属性、类的常用魔术方法、类和对象的三种方法...

    一.类的成员描述符(property) 类的成员描述符是为了在类中,对类的成员属性进行相关操作而创建的一种方式,大部分属于数据清洗 属性有三种操作:get获取属性值.set修改或添加属性.delete ...

  4. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  5. python爬虫-使用BeautifulSoup爬取新浪新闻标题

    ** python爬虫-使用BeautifulSoup爬取新浪新闻标题 ** 最近在学习爬虫的技巧,首先学习的是较为简单的BeautifulSoup,应用于新浪新闻上. import requests ...

  6. 使用python网络爬虫爬取新浪新闻(一)

    使用python网络爬虫爬取新浪新闻 第一次写博客,感觉有点不太习惯!不知道怎么突然就想学学爬虫了,然后就用了一天的时间,跟着教程写了这个爬虫,!不说废话了,我将我从教程上学习的东西整个写下来吧,从头 ...

  7. python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...

    一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 scrapy startproj ...

  8. 网络爬虫-----python爬取新浪新闻

    思路:先爬取首页,然后通过正则筛选出所有文章url,然后通过循环分别爬取这些url到本地 #python新闻爬虫实战 import urllib.request import re url = 'ht ...

  9. Python网络爬虫爬取新浪新闻

    笔者最近由于需要研究互联网新闻,于是基于邱老师的网络爬虫实战,写了一个爬取新浪新闻的爬虫,爬取的信息有: 新闻标题 来源url 发布时间 正文 编辑者 与邱老师的爬虫相比有以下几点不同: 没有爬取新闻 ...

  10. python爬取新浪新闻意义_爬取新浪新闻

    [Python] 纯文本查看 复制代码import requests import os from bs4 import BeautifulSoup import re # 爬取具体每个新闻内容 de ...

最新文章

  1. ios alertview 链接_iOS-MobLink集成流程
  2. Android编程 系统资源的介绍
  3. 9. Palindrome Number
  4. [Rails.Test.Prescriptions]系列之一:0基础的Test Rails...
  5. 检测机安装mysql_centos安装mysql的正确方法
  6. 李航《统计学习方法》笔记
  7. java 根据类名示例化类_Java LocalDateTime类| 带示例的getNano()方法
  8. 【转】ASCII码表
  9. zigbee无线传感网技术与应用开发v2.0_ZigBee网络架构详解
  10. java项目经验案例_PLC与POE结合项目经验案例总结
  11. 30余种加密编码类型的密文特征分析
  12. Linux操作系统进程模型分析
  13. Photoshop插件-增加细节-脚本开发-PS插件
  14. 图像的一些基本概念整理
  15. HTML5系列代码:Visual Studio Code(简称 VS Code)是一个由微软开发
  16. android期末复习
  17. sql超键 候选键 主键
  18. SPSS简单数据分析之分类汇总数据
  19. 聊聊技术专家谈阿里云史诗级故障
  20. 伴鱼英语有计算机英语语言吗,伴鱼少儿英语电脑版

热门文章

  1. 精彩回顾丨2021数据库大咖讲坛(第7期)视频PPT互动问答
  2. CNCF Serverless工作流社区携手华为云FunctionGraph,开拓Serverless编排新时代
  3. “1天一朵云”,这是如何做到的?
  4. 跟随报文,开启一段奇妙之旅
  5. 带着canvas去流浪系列之七 绘制水球图
  6. 大型情感剧集Selenium:2_options设置 #华为云·寻找黑马程序员#
  7. 【华为云实战开发】15.Maven依赖的JAR包下载慢?赶紧看过来
  8. easyphp 登陆mysql_EasyPHP/phpmyadmin 尝试连接到 mysql 服务器 但服务器拒绝连接
  9. 红橙Darren视频笔记 IOC注解框架 了解xUtils3与ButterKnife的原理
  10. Android事件分发 笔记