1、爬取地址:新浪滚动新闻网址为
https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1
2、这个滚动新闻是新浪每天实时更新的新闻,有需要的,可以参考下
可能每个人的都不一样,自己在doc/js/xhr,这三个地方找找看
废话不多说,看代码吧

from lxml import etree
import MySQLdb
import requests
conn = MySQLdb.connect(host='localhost', user='root', password='123456', port=3306, db='pap', charset='utf8')
cursor = conn.cursor()
headers={'cookie': 'SINAGLOBAL=219.143.103.186_1574762579.560816; SUB=_2AkMqu5Muf8NxqwJRmPoWxGPlZYt2zgvEieKc52L1JRMyHRl-yD9jqlI5tRB6ATu9wbi9kLo8OxoHjeZApvuLo5C-313s; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WF-3HVKvVX-Q5jxCyV-czu2; UOR=news.hao123.com,news.sina.com.cn,; lxlrttp=1572512346; SGUID=1576150846061_21239829; UM_distinctid=16ef9e965c42b-086800c19d1649-32365f08-100200-16ef9e965c52e6; U_TRS1=000000ba.defc709d.5df245d9.4120fff8; rotatecount=2; Apache=220.202.152.119_1576653423.258154; FEED-MIX-SINA-COM-CN=; ULV=1576653263608:18:18:10:220.202.152.119_1576653423.258154:1576653218143; co=10.13.64.57_1576653.469','referer': 'https://news.sina.com.cn/roll/','user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',}
#新浪滚动新闻首页获取
def req_url(url):res=requests.get(url,headers=headers).json()['result']['data']# print(res)# print(res[1])list1=[]for i in res:list1.append(i['url'])# print(list1)return list1# '//*[@id="artibody"]/p[4]/text()'
#获取滚动新闻详情页函数
def content_url():list2=req_url(url)for i in list2:headers={'cookie': 'SINAGLOBAL=219.143.103.186_1574762579.560816; SUB=_2AkMqu5Muf8NxqwJRmPoWxGPlZYt2zgvEieKc52L1JRMyHRl-yD9jqlI5tRB6ATu9wbi9kLo8OxoHjeZApvuLo5C-313s; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WF-3HVKvVX-Q5jxCyV-czu2; UOR=news.hao123.com,news.sina.com.cn,; lxlrttp=1572512346; SGUID=1576150846061_21239829; UM_distinctid=16ef9e965c42b-086800c19d1649-32365f08-100200-16ef9e965c52e6; U_TRS1=000000ba.defc709d.5df245d9.4120fff8; Apache=220.202.152.119_1576653423.258154; ULV=1576653263608:18:18:10:220.202.152.119_1576653423.258154:1576653218143; co=10.13.64.57_1576653.469','Referer': 'https://finance.sina.com.cn/stock/usstock/c/2019-12-18/doc-iihnzahi8408745.shtml','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}res1=requests.get(url=i,headers=headers).content.decode('utf-8')# print(res1.decode('utf-8'))ele=etree.HTML(res1)try:title=ele.xpath('//h1/text()')[0]except:continue
[0].strip()update_time=ele.xpath('//*[@id="top_bar"]/div/div[2]/span[1]/text()')content1=ele.xpath('//*[@id="artibody"]/p/text()')content=''for i in content1:content+=i.strip()print('title=',title)print('update_time=',update_time)print('content=',content)# '//*[@id="top_bar"]/div/div[2]/span[1]','update_time':更新时间的xpath# '//*[@id="artibody"]/p[1]'title:标题的xpath# '//*[@id="artibody"]/p/text()','content':内容的xpathsave_xinlang(title,update_time,content)
#保存函数
def save_xinlang(title,update_time,content):try:sql = 'insert into xinlang (title,update_time,content) values ("%s","%s","%s")'data = (title,update_time,content)cursor.execute(sql,data)conn.commit()except Exception as e:print(e)#打印错误信息print("出错了")
if __name__ == '__main__':for i in range(1, 2000):url = 'https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=' + str(i) + ''req_url(url)content_url()

爬取新浪滚动新闻--每个详情页标题以及内容相关推荐

  1. Python 爬虫实例(7)—— 爬取 新浪军事新闻

    我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分 第二zh张图片,显示需要分页, 源代码: # coding:utf-8import json import redis im ...

  2. 爬取新浪社会新闻源代码

    视频地址如下: https://edu.hellobi.com/course/81/play/lesson/1761 import requests from bs4 import Beautiful ...

  3. python3爬取新浪NBA新闻信息(待完善)

    #!/usr/bin/env python # -*- coding: utf-8 -*- import requests from requests.exceptions import ReadTi ...

  4. python爬取新浪新闻

    最近公司项目比较少,楼主闲了好长时间了,作为一个刚毕业几个月的新人,心里很烦躁,只能自己找点新东西去学了.看到周围好多人都接触了爬虫,再加上楼主最近沉迷吴宣仪不可自拔,每天投票投票,投票的同时需要监控 ...

  5. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  6. requests, Beautifusoup 爬取新浪新闻资讯

    ###1.爬取新浪新闻首页的新闻标题时间和链接 1 import requests 2 from bs4 import BeautifulSoup 3 4 res = requests.get('ht ...

  7. python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...

    一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 scrapy startproj ...

  8. 19Python爬虫--爬取新浪新闻标题并保存到数据库

    一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 创建爬虫文件 scrapy st ...

  9. 网络爬虫-----python爬取新浪新闻

    思路:先爬取首页,然后通过正则筛选出所有文章url,然后通过循环分别爬取这些url到本地 #python新闻爬虫实战 import urllib.request import re url = 'ht ...

  10. Python3:爬取新浪、网易、今日头条、UC四大网站新闻标题及内容

    Python3:爬取新浪.网易.今日头条.UC四大网站新闻标题及内容 以爬取相应网站的社会新闻内容为例: 一.新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用J ...

最新文章

  1. 编程方法学11:Gimage
  2. Android窗口View层次
  3. SSH远程终端连接数问题
  4. html输入密码跳转页面_【小乔锦囊】角色/仓库密码无法清除,怎么办?
  5. KMP算法字符串模式匹配
  6. 【344天】我爱刷题系列103(2018.01.15)
  7. C# Learning—Step By Step(9)
  8. 02矩阵01 ——概念、运算和基本矩阵、对角矩阵、方幂、数量矩阵、转置矩阵、对称矩阵、逆矩阵、奇异矩阵、三角矩阵、矩阵乘积的行列式与秩
  9. SharePoint 2010 BDC Model项目部署出错:“The default web application could not be determined.”...
  10. C语言国二上机题库,【高分飘过】2013年国二C语言上机题库(必备完美版).doc
  11. 遗传算法原理及算法实例
  12. LaTeX中常用的模板,命令和技巧
  13. Linux 命令 | 常用命令 tree
  14. 利用matlab命令画出以下信号的波形,大连理工大学 信号与系统实验三报告
  15. 飞思卡尔智能车知识总结
  16. 产品读书《科技想要什么》KK
  17. guzzle/guzzle 日常使用
  18. 年总结(一):逝去的14年
  19. Mysql修改数据库名
  20. varint zigzag 编码学习

热门文章

  1. citespace:Your version‘s status cannot be verified due to network issue. Check your network conne
  2. 目前流行的操作系统有哪些
  3. 计算机考研和不考研的区别,考研和不考研有什么区别?问清楚自己考研动机
  4. 401832-00-4,Thalidomide-O-PEG4-Amine在EDC或HATU存在下与NHS酯基或羧酸反应的合成化合物
  5. 《数据结构与算法自学与面试指南》01-01:图灵奖得主尼古拉斯·沃斯
  6. Matplotlib中显示汉字,Times New Roman字体,公式的相关设置(1)
  7. Deepin 系统没有 Times New Roman 等微软字体
  8. ZoomIt v4.5
  9. Fantastic-Matplotlib 第一回
  10. 通信算法之九:4FSK调制解调仿真链路