刚入门爬虫,由于女朋友的工作需要,便写了这个爬虫程序。本人也是第一次发帖,
相信爬虫也没什么好介绍的。直接上代码。

from selenium import webdriver
from bs4 import BeautifulSoup
import time,re,osurl = 'https://www.jin10.com/'
driver = webdriver.Edge() #模拟打开浏览器
driver.get(url)
#解析网页
soup = BeautifulSoup(driver.page_source,'lxml')
#data = driver.find_element_by_class_name('jin-flash_item J_flash_item important ')
#print(soup)
info = str(soup.select('.jin-flash_list')[0]) #转换为字符串格式,用正则表达式进行抽取
#print(info)def get_info():reg = re.compile(r'<div class="jin-flash_item J_flash_item important " data-id="(.*?)".*?<p class=".*?">(.*?)</p>',re.S)datas = re.findall(reg,info)#print(datas)return datasdef save_info(datas):if os.path.exists("4")==True:print('该文件已存在')else:os.mkdir("4")a = 1for data in datas:x = time.strftime('%Y-%m-%d %H:%M:%S') #筛选时间段,默认当前时刻y = time.strftime('%Y-%m-%d %H:%M:%S')if x<data[0]<y:data = data[1] #取事件#print(data)data = data.replace('<b>','').replace('</b>','').replace('<br/>','')with open(r"4\info.txt",'a',encoding='utf-8') as f:f.write(data+'\n')print('正在抓取第{}条important数据'.format(a))a+=1print('抓取结束!')
datas = get_info()
save_info(datas)
#time.sleep(1)
driver.close()

刚开始本人用的一般网页的爬虫,获取不了源代码,便使用模拟浏览器的方法,这里的插件是Edge,一般使用的是谷歌或者火狐的插件会好些(https://pypi.org/project/selenium/)。不过程序仍有不足,需要进一步优化。
tip:这里获取的是红字新闻

利用Python爬取金十数据新闻事件相关推荐

  1. python 实时数据推送_python scrapy 爬取金十数据并自动推送到微信

    一.背景 因业务需要获取风险经济事件并采取应对措施,但因为种种原因又疏忽于每天去查看财经日历,于是通过爬取金十数据网站并自动推送到微信查看. 二.目标实现 image 三.环境与工具 1.pychar ...

  2. 利用Python爬取国家水稻数据中心的品种数据

    利用Python爬取国家水稻数据中心的品种数据 一.页面获取 python可以进行对网页的访问,主要用到requests,beautifulsoup4包. 首先新建一个page的py文件,用来获取页面 ...

  3. 利用python爬取2019-nCoV确诊数据并制作pyecharts可视化地图

    1.本章利用python爬取2019-nCoV确诊数据并制作pyecharts可视化地图: 2.主要内容为绘制出中国各省疫情数据,疫情数据从四个维度进行可视化展示:累积确诊人数.现存确诊人数.治愈人数 ...

  4. python爬去朋友圈_利用Python爬取朋友圈数据,爬到你开始怀疑人生

    人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...

  5. 利用Python爬取朋友圈数据,爬到你开始怀疑人生

    人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...

  6. python爬朋友圈数据_利用Python爬取朋友圈数据,爬到你开始怀疑人生

    人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...

  7. python爬高德地图_利用Python爬取高德地图数据

    准备1.高德开放平台注册账户 https://lbs.amap.com/dev/index 验证手机号码.邮箱后进入开发者后台创建一个应用: 并为该应用添加 Key,服务平台选择 web 服务 申请完 ...

  8. python爬取高德数据_利用Python爬取高德地图数据

    准备1.高德开放平台注册账户 https://lbs.amap.com/dev/index 验证手机号码.邮箱后进入开发者后台创建一个应用: 并为该应用添加 Key,服务平台选择 web 服务 申请完 ...

  9. python输入数据爬取_利用 Python 爬取高德地图数据

    准备1.高德开放平台注册账户 https://lbs.amap.com/dev/index 验证手机号码.邮箱后进入开发者后台创建一个应用: 并为该应用添加 Key,服务平台选择 web 服务 申请完 ...

最新文章

  1. append从一个添加到另一_真特么激动第一个爬虫----爬取豆瓣电影top250
  2. 企业级 php框架,kfzphp: 致力于为企业和个人创造出大道至简的企业级PHP开发框架...
  3. redis-cli 命令总结
  4. mongodb集群linux日志分割,Linux下Mongodb数据库日志切割及定时删除
  5. 如何解决 FrameBuffer console (vc)自动关闭显示
  6. java语言精粹_java 成神之路 (一)
  7. jQuery--捕获键盘敲击
  8. spring事务传播机制源码学习笔记
  9. [数据结构] 非旋Treap
  10. php如何自动阅卷,智能评卷系统 自动阅卷软件
  11. 一款基于易语言的搜题软件
  12. 2019马哥python的百度网盘_马哥 2018 Python 全栈视频
  13. GIS入门进阶之015
  14. 未使用计算机的信息处理工具,最好的电脑使用痕迹清理软件
  15. Linux C++ 获取文件夹大小2(通过ftw实现)
  16. 给程序员的 2018 新年计划清单
  17. JS基础-一个完美的递归函数
  18. 台式计算机进入安全模式蓝屏,电脑蓝屏不能进入安全模式的解决方法
  19. 【Flutter 异步编程 - 捌】 | 计算耗时? Isolate 来帮忙
  20. 久等了!Docker容器常用命令

热门文章

  1. 【导航链接】计算机科研学习
  2. 想进BAT?这些测试面试题助你一臂之力(附答案)
  3. 【游戏编程扯淡精粹】游戏编程设计模式
  4. 不正确的c语言语句是,【单选题】下列不正确的C语言语句是( )。 A. x=y=5; B. x=1,y=2; C. y=int x; D. x++;...
  5. java设计九宫格拼图软件哪个好用_八款超好用的拼图工具
  6. 新唐 M451系列APROM与LDROM间跳转
  7. gpio_typedef_超经典的STM32学习笔记——第一章GPIO口
  8. BZOJ2757 : [SCOI2012]Blinker的仰慕者
  9. BlockCode 少儿编程 1《拔萝卜》
  10. HttpClient 出现 failed to respond 异常解决