利用Python爬取金十数据新闻事件
刚入门爬虫,由于女朋友的工作需要,便写了这个爬虫程序。本人也是第一次发帖,
相信爬虫也没什么好介绍的。直接上代码。
from selenium import webdriver
from bs4 import BeautifulSoup
import time,re,osurl = 'https://www.jin10.com/'
driver = webdriver.Edge() #模拟打开浏览器
driver.get(url)
#解析网页
soup = BeautifulSoup(driver.page_source,'lxml')
#data = driver.find_element_by_class_name('jin-flash_item J_flash_item important ')
#print(soup)
info = str(soup.select('.jin-flash_list')[0]) #转换为字符串格式,用正则表达式进行抽取
#print(info)def get_info():reg = re.compile(r'<div class="jin-flash_item J_flash_item important " data-id="(.*?)".*?<p class=".*?">(.*?)</p>',re.S)datas = re.findall(reg,info)#print(datas)return datasdef save_info(datas):if os.path.exists("4")==True:print('该文件已存在')else:os.mkdir("4")a = 1for data in datas:x = time.strftime('%Y-%m-%d %H:%M:%S') #筛选时间段,默认当前时刻y = time.strftime('%Y-%m-%d %H:%M:%S')if x<data[0]<y:data = data[1] #取事件#print(data)data = data.replace('<b>','').replace('</b>','').replace('<br/>','')with open(r"4\info.txt",'a',encoding='utf-8') as f:f.write(data+'\n')print('正在抓取第{}条important数据'.format(a))a+=1print('抓取结束!')
datas = get_info()
save_info(datas)
#time.sleep(1)
driver.close()
刚开始本人用的一般网页的爬虫,获取不了源代码,便使用模拟浏览器的方法,这里的插件是Edge,一般使用的是谷歌或者火狐的插件会好些(https://pypi.org/project/selenium/)。不过程序仍有不足,需要进一步优化。
tip:这里获取的是红字新闻
利用Python爬取金十数据新闻事件相关推荐
- python 实时数据推送_python scrapy 爬取金十数据并自动推送到微信
一.背景 因业务需要获取风险经济事件并采取应对措施,但因为种种原因又疏忽于每天去查看财经日历,于是通过爬取金十数据网站并自动推送到微信查看. 二.目标实现 image 三.环境与工具 1.pychar ...
- 利用Python爬取国家水稻数据中心的品种数据
利用Python爬取国家水稻数据中心的品种数据 一.页面获取 python可以进行对网页的访问,主要用到requests,beautifulsoup4包. 首先新建一个page的py文件,用来获取页面 ...
- 利用python爬取2019-nCoV确诊数据并制作pyecharts可视化地图
1.本章利用python爬取2019-nCoV确诊数据并制作pyecharts可视化地图: 2.主要内容为绘制出中国各省疫情数据,疫情数据从四个维度进行可视化展示:累积确诊人数.现存确诊人数.治愈人数 ...
- python爬去朋友圈_利用Python爬取朋友圈数据,爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
- 利用Python爬取朋友圈数据,爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
- python爬朋友圈数据_利用Python爬取朋友圈数据,爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
- python爬高德地图_利用Python爬取高德地图数据
准备1.高德开放平台注册账户 https://lbs.amap.com/dev/index 验证手机号码.邮箱后进入开发者后台创建一个应用: 并为该应用添加 Key,服务平台选择 web 服务 申请完 ...
- python爬取高德数据_利用Python爬取高德地图数据
准备1.高德开放平台注册账户 https://lbs.amap.com/dev/index 验证手机号码.邮箱后进入开发者后台创建一个应用: 并为该应用添加 Key,服务平台选择 web 服务 申请完 ...
- python输入数据爬取_利用 Python 爬取高德地图数据
准备1.高德开放平台注册账户 https://lbs.amap.com/dev/index 验证手机号码.邮箱后进入开发者后台创建一个应用: 并为该应用添加 Key,服务平台选择 web 服务 申请完 ...
最新文章
- append从一个添加到另一_真特么激动第一个爬虫----爬取豆瓣电影top250
- 企业级 php框架,kfzphp: 致力于为企业和个人创造出大道至简的企业级PHP开发框架...
- redis-cli 命令总结
- mongodb集群linux日志分割,Linux下Mongodb数据库日志切割及定时删除
- 如何解决 FrameBuffer console (vc)自动关闭显示
- java语言精粹_java 成神之路 (一)
- jQuery--捕获键盘敲击
- spring事务传播机制源码学习笔记
- [数据结构] 非旋Treap
- php如何自动阅卷,智能评卷系统 自动阅卷软件
- 一款基于易语言的搜题软件
- 2019马哥python的百度网盘_马哥 2018 Python 全栈视频
- GIS入门进阶之015
- 未使用计算机的信息处理工具,最好的电脑使用痕迹清理软件
- Linux C++ 获取文件夹大小2(通过ftw实现)
- 给程序员的 2018 新年计划清单
- JS基础-一个完美的递归函数
- 台式计算机进入安全模式蓝屏,电脑蓝屏不能进入安全模式的解决方法
- 【Flutter 异步编程 - 捌】 | 计算耗时? Isolate 来帮忙
- 久等了!Docker容器常用命令
热门文章
- 【导航链接】计算机科研学习
- 想进BAT?这些测试面试题助你一臂之力(附答案)
- 【游戏编程扯淡精粹】游戏编程设计模式
- 不正确的c语言语句是,【单选题】下列不正确的C语言语句是( )。
A. x=y=5;
B. x=1,y=2;
C. y=int x;
D. x++;...
- java设计九宫格拼图软件哪个好用_八款超好用的拼图工具
- 新唐 M451系列APROM与LDROM间跳转
- gpio_typedef_超经典的STM32学习笔记——第一章GPIO口
- BZOJ2757 : [SCOI2012]Blinker的仰慕者
- BlockCode 少儿编程 1《拔萝卜》
- HttpClient 出现 failed to respond 异常解决