基于某网站的信息爬取与保存

需求：对某网站实现动态爬取并能每天保存到文本文件中

解决方法：通过Python的BeautifulSoup、selenium完成该需求。

完整代码：

import json
import urllib.request
import urllib.error
from urllib.parse import quote
from bs4 import BeautifulSoup
from builtins import strfrom selenium import webdriver
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup
from urllib.request import urlopen
from selenium.common.exceptions import NoSuchElementException
import re
import time
import datetime
import sys
sys.setrecursionlimit(1000000)
import osfrom selenium.webdriver.common.keys import Keysdef getQuestionsLinks(driver):bs = BeautifulSoup(driver.page_source, 'lxml')AllInfo=bs.findAll('tr', {'class': 'bgcol'})linkyesterdaystr = str(datetime.date.today() - datetime.timedelta(days=0)) ###0代表当天,1代表昨天print(linkyesterdaystr)firstdaystr=AllInfo[1].get_text().replace('\t','').replace('\n','|').split('|')[-2]print(firstdaystr)com = int(linkyesterdaystr.__eq__(firstdaystr))if (com == 0):returnfor info in AllInfo: #[0:2]if info.find('a', {'class':'xjxd_nr'}) is None:print("No usefull Info")else:paras=info.find('a', {'class': 'xjxd_nr'}).get('onclick').replace('detail(','').replace("'",'')[0:-2]listparas=paras.split(',')innerlink='http://www.shenl.com.cn/todetail?id='+listparas[0]+'&isSearchPassWord='+listparas[1]+'&tag='+listparas[2]innerDetail=info.get_text().replace('\t','').replace('\n','|').split('|')while '' in innerDetail:innerDetail.remove('')innerdate = time.strptime(innerDetail[-1], "%Y-%m-%d") #Struct_timeprint(innerdate)firstdaydate = time.strptime(firstdaystr, "%Y-%m-%d")print(firstdaydate)depart=(datetime.datetime(*firstdaydate[:3]) - datetime.datetime(*innerdate[:3])).daysif depart > 0: #如先获得首页里的开始时间,如果首次出现时间小于开始时间则停止爬虫returnf.write('\t'.join(innerDetail) + "\t" + innerlink + "\n")try:print(type(driver.find_element(By.LINK_TEXT, "下一页")))driver.find_element_by_xpath("//a[contains(text(),'下一页')]").click()except NoSuchElementException:time.sleep(1)print("No more pages found")returntime.sleep(4)getQuestionsLinks(driver)if __name__ == '__main__':for n in range(0,1,1):import timeIsoTimeFormat = '%Y_%m_%d'f = open('G:\\temp\\Question_Incr_'+str(time.strftime(IsoTimeFormat))+'.txt', 'w', encoding='utf-8')driver = webdriver.Chrome("C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe")driver.get("http://www.shenl.com.cn/xjxdList")time.sleep(3)getQuestionsLinks(driver)driver.close()f.close()

基于某网站的信息爬取与保存相关推荐

基于某网站的信息爬取与保存_指定查询内容
需求:对某网站实现输入指定的查询内容后动态爬取并能保存到文本文件中解决方法:通过Python的BeautifulSoup.selenium的Kyes完成该需求. 代码见下: import json ...
基于某网站的信息爬取与保存_指定跳转页
需求:对某网站实现输入指定的跳转页完成爬取并能保存到文本文件中解决方法:通过Python的BeautifulSoup.selenium的Kyes完成该需求. 代码见下: import json im ...
基于python的汽车信息爬取与可视化分析系统
温馨提示:文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 1. 项目简介本项目利用网络爬虫技术从某汽车门户网站采集汽车数据,并利用 Flask + Echarts 前后端框 ...
基于python的汽车销售_基于Python的汽车信息爬取与分析
二.<基于Python的汽车数据爬取与分析> 1 课题内容和要求 1.1问题的提出 1)用Python 语言自行编写爬虫框架或使用Scrapy 框架,爬取汽车之家或易车网的车辆相关数据,按 ...
Python 爬虫小练习：基于 XPath 的表格信息爬取
文章目录确定目标和分析思路目标思路观察情况爬取名单表爬取详情页二级信息爬虫请遵守相关法律法规,不要做违法犯罪的事情爬虫小技巧总结这是一个 Python 爬虫的入门练习,我们通过 Re ...
爬虫-菜谱信息爬取（保存至数据库）
目录爬虫爬取思路 python代码数据库代码后期发现: 解决方法: 词云制作爬虫爬取思路 python代码 import requests # 请求 from lxml import etre ...
基于scrapy下的租房信息爬取与数据展示工具的设计与实现
环境:python 3.6.0 Anaconda custom 64bit 4.3.0 Pycharm x64 专业版 2018.1.2 Web strom x64 专业版 2018.1.3 scra ...
Crawler：爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息
Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海.北京关于区块链职位的求职信息目录输出结果 1.上海区块链职位 2.北京区块链职位设计思路核心代码输出结果 1. ...
python爬取微博用户正文_基于Python的新浪微博用户信息爬取与分析
基于 Python 的新浪微博用户信息爬取与分析邓文萍 [摘要] 摘要:本文设计并实现了一个微博用户信息爬取与分析系统 , 利用 Cookie 实现了用户的模拟登录 , 使用 Python 语言的 ...

基于某网站的信息爬取与保存

基于某网站的信息爬取与保存相关推荐

最新文章

热门文章