爬取新浪滚动新闻--每个详情页标题以及内容

1、爬取地址：新浪滚动新闻网址为：
https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1
2、这个滚动新闻是新浪每天实时更新的新闻，有需要的，可以参考下
可能每个人的都不一样，自己在doc/js/xhr，这三个地方找找看
废话不多说，看代码吧

from lxml import etree
import MySQLdb
import requests
conn = MySQLdb.connect(host='localhost', user='root', password='123456', port=3306, db='pap', charset='utf8')
cursor = conn.cursor()
headers={'cookie': 'SINAGLOBAL=219.143.103.186_1574762579.560816; SUB=_2AkMqu5Muf8NxqwJRmPoWxGPlZYt2zgvEieKc52L1JRMyHRl-yD9jqlI5tRB6ATu9wbi9kLo8OxoHjeZApvuLo5C-313s; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WF-3HVKvVX-Q5jxCyV-czu2; UOR=news.hao123.com,news.sina.com.cn,; lxlrttp=1572512346; SGUID=1576150846061_21239829; UM_distinctid=16ef9e965c42b-086800c19d1649-32365f08-100200-16ef9e965c52e6; U_TRS1=000000ba.defc709d.5df245d9.4120fff8; rotatecount=2; Apache=220.202.152.119_1576653423.258154; FEED-MIX-SINA-COM-CN=; ULV=1576653263608:18:18:10:220.202.152.119_1576653423.258154:1576653218143; co=10.13.64.57_1576653.469','referer': 'https://news.sina.com.cn/roll/','user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',}
#新浪滚动新闻首页获取
def req_url(url):res=requests.get(url,headers=headers).json()['result']['data']# print(res)# print(res[1])list1=[]for i in res:list1.append(i['url'])# print(list1)return list1# '//*[@id="artibody"]/p[4]/text()'
#获取滚动新闻详情页函数
def content_url():list2=req_url(url)for i in list2:headers={'cookie': 'SINAGLOBAL=219.143.103.186_1574762579.560816; SUB=_2AkMqu5Muf8NxqwJRmPoWxGPlZYt2zgvEieKc52L1JRMyHRl-yD9jqlI5tRB6ATu9wbi9kLo8OxoHjeZApvuLo5C-313s; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WF-3HVKvVX-Q5jxCyV-czu2; UOR=news.hao123.com,news.sina.com.cn,; lxlrttp=1572512346; SGUID=1576150846061_21239829; UM_distinctid=16ef9e965c42b-086800c19d1649-32365f08-100200-16ef9e965c52e6; U_TRS1=000000ba.defc709d.5df245d9.4120fff8; Apache=220.202.152.119_1576653423.258154; ULV=1576653263608:18:18:10:220.202.152.119_1576653423.258154:1576653218143; co=10.13.64.57_1576653.469','Referer': 'https://finance.sina.com.cn/stock/usstock/c/2019-12-18/doc-iihnzahi8408745.shtml','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}res1=requests.get(url=i,headers=headers).content.decode('utf-8')# print(res1.decode('utf-8'))ele=etree.HTML(res1)try:title=ele.xpath('//h1/text()')[0]except:continue
[0].strip()update_time=ele.xpath('//*[@id="top_bar"]/div/div[2]/span[1]/text()')content1=ele.xpath('//*[@id="artibody"]/p/text()')content=''for i in content1:content+=i.strip()print('title=',title)print('update_time=',update_time)print('content=',content)# '//*[@id="top_bar"]/div/div[2]/span[1]','update_time'：更新时间的xpath# '//*[@id="artibody"]/p[1]'title：标题的xpath# '//*[@id="artibody"]/p/text()','content'：内容的xpathsave_xinlang(title,update_time,content)
#保存函数
def save_xinlang(title,update_time,content):try:sql = 'insert into xinlang (title,update_time,content) values ("%s","%s","%s")'data = (title,update_time,content)cursor.execute(sql,data)conn.commit()except Exception as e:print(e)#打印错误信息print("出错了")
if __name__ == '__main__':for i in range(1, 2000):url = 'https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=' + str(i) + ''req_url(url)content_url()

爬取新浪滚动新闻--每个详情页标题以及内容相关推荐

Python 爬虫实例（7）—— 爬取新浪军事新闻
我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分第二zh张图片,显示需要分页, 源代码: # coding:utf-8import json import redis im ...
爬取新浪社会新闻源代码
视频地址如下: https://edu.hellobi.com/course/81/play/lesson/1761 import requests from bs4 import Beautiful ...
python3爬取新浪NBA新闻信息（待完善）
#!/usr/bin/env python # -*- coding: utf-8 -*- import requests from requests.exceptions import ReadTi ...
python爬取新浪新闻
最近公司项目比较少,楼主闲了好长时间了,作为一个刚毕业几个月的新人,心里很烦躁,只能自己找点新东西去学了.看到周围好多人都接触了爬虫,再加上楼主最近沉迷吴宣仪不可自拔,每天投票投票,投票的同时需要监控 ...
从入门到入土：Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
requests, Beautifusoup 爬取新浪新闻资讯
###1.爬取新浪新闻首页的新闻标题时间和链接 1 import requests 2 from bs4 import BeautifulSoup 3 4 res = requests.get('ht ...
python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...
一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码二.项目代码步骤1.创建scrapy项目 scrapy startproj ...
19Python爬虫--爬取新浪新闻标题并保存到数据库
一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码二.项目代码步骤1.创建scrapy项目创建爬虫文件 scrapy st ...
网络爬虫-----python爬取新浪新闻
思路:先爬取首页,然后通过正则筛选出所有文章url,然后通过循环分别爬取这些url到本地 #python新闻爬虫实战 import urllib.request import re url = 'ht ...
Python3：爬取新浪、网易、今日头条、UC四大网站新闻标题及内容
Python3:爬取新浪.网易.今日头条.UC四大网站新闻标题及内容以爬取相应网站的社会新闻内容为例: 一.新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用J ...

爬取新浪滚动新闻--每个详情页标题以及内容

爬取新浪滚动新闻--每个详情页标题以及内容相关推荐

最新文章

热门文章