python爬虫新浪新闻_学习了《python网络爬虫实战》第一个爬虫，爬取新浪新闻

请安装anaconda,其中附带的spyder方便运行完查看变量

1.进入cmd控制台，

输入 pip install BeautifulSoup4

pip install requests

2.编写代码，代码已经很清晰了，直接运行不会报错并有成功的结果

def getNewsDetail(newsUrl):

import requests

from bs4 import BeautifulSoup

from datetime import datetime

newsWeb = requests.get(newsUrl)

newsWeb.encoding = 'utf-8'

soup = BeautifulSoup(newsWeb.text,'lxml')

result = {}

result['title'] = soup.select('.main-title')[0].text

result['newsSource'] = soup.select('.source')[0].text

timeSource = soup.select('.date')[0].text

result['datetime'] = datetime.strptime(timeSource,'%Y年%m月%d日 %H:%M')

result['article'] = soup.select('.article')[0].text

result['editor'] = soup.select('.show_author')[0].text.strip('责任编辑：')

result['comment'] = soup.select('.num')[0].text

return result

def parseListLinks(url):

import requests

import json

newsDetails = []

request = requests.get(url)

jsonLoad = json.loads(request.text.lstrip(' newsloadercallback(').rstrip(');'))

newsUrls = []

for item in jsonLoad['result']['data']:

newsUrls.append(item['url'])

for url in newsUrls:

newsDetails.append(getNewsDetail(url))

return newsDetails

if __name__ == '__main__':

#获取单个新闻页面的信息

newsUrl = 'http://news.sina.com.cn/s/wh/2018-01-08/doc-ifyqkarr7830426.shtml'

newsDetail = getNewsDetail(newsUrl)

#获取整个列表各个新闻页面的信息

rollUrl='http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw\

&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&\

show_num=22&tag=1&format=json&page=23&callback=newsloadercallback&_=1515911333929'

newsDetails = parseListLinks(rollUrl)

python爬虫新浪新闻_学习了《python网络爬虫实战》第一个爬虫，爬取新浪新闻相关推荐

python代码计算矩形面积_学习资料Python语言基础知识笔记以及答案
01. Python语言基础知识等笔记: 02. Python作业答案: [例2-3]通过输入函数input()输入股票代码.股票名称.当天股票最高价和最低价,通过输出函数print()输出股票代码+ ...
用python画易烊千玺_竟然如此简单！输入明星名字就可以直接爬取高清图片
听说你在自己喜欢的明星壁纸?比如李易峰,王一博,易烊千玺.王源.王俊凯,李现等.今天教你批量下载这些明星高清壁纸(文末有福利) 最近图慌,闲来无事爬取李易峰的高清图片,当做手机壁纸也是不错的选择.废话 ...
python描述符魔术方法_学习笔记-Python基础9-面向对象编程OOP-类的成员描述符（property）、类的常用内置属性、类的常用魔术方法、类和对象的三种方法...
一.类的成员描述符(property) 类的成员描述符是为了在类中,对类的成员属性进行相关操作而创建的一种方式,大部分属于数据清洗属性有三种操作:get获取属性值.set修改或添加属性.delete ...
从入门到入土：Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
python爬虫-使用BeautifulSoup爬取新浪新闻标题
** python爬虫-使用BeautifulSoup爬取新浪新闻标题 ** 最近在学习爬虫的技巧,首先学习的是较为简单的BeautifulSoup,应用于新浪新闻上. import requests ...
使用python网络爬虫爬取新浪新闻（一）
使用python网络爬虫爬取新浪新闻第一次写博客,感觉有点不太习惯!不知道怎么突然就想学学爬虫了,然后就用了一天的时间,跟着教程写了这个爬虫,!不说废话了,我将我从教程上学习的东西整个写下来吧,从头 ...
python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...
一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码二.项目代码步骤1.创建scrapy项目 scrapy startproj ...
网络爬虫-----python爬取新浪新闻
思路:先爬取首页,然后通过正则筛选出所有文章url,然后通过循环分别爬取这些url到本地 #python新闻爬虫实战 import urllib.request import re url = 'ht ...
Python网络爬虫爬取新浪新闻
笔者最近由于需要研究互联网新闻,于是基于邱老师的网络爬虫实战,写了一个爬取新浪新闻的爬虫,爬取的信息有: 新闻标题来源url 发布时间正文编辑者与邱老师的爬虫相比有以下几点不同: 没有爬取新闻 ...
python爬取新浪新闻意义_爬取新浪新闻
[Python] 纯文本查看复制代码import requests import os from bs4 import BeautifulSoup import re # 爬取具体每个新闻内容 de ...

python爬虫新浪新闻_学习了《python网络爬虫实战》第一个爬虫，爬取新浪新闻

python爬虫新浪新闻_学习了《python网络爬虫实战》第一个爬虫，爬取新浪新闻相关推荐

最新文章

热门文章