1.通过对知网期刊的链接去解析包含内容的详情页链接,但是知网不存在页面状态码依旧是 200, 所以转而想用网页存在某些内容来决定取舍,但是判断条件好像对知网内容不起作用,起不到筛查的效果.

2.完整代码:

import requests

from bs4 import BeautifulSoup

import time

def get_url(years,month,num):#month用两位数表示,num用三位数表示。

times = 'GJXW'+str(years)+str(month).zfill(2)+str(num).zfill(3)

url='http://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&filename={}'.format(times)

headers={

'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4033.400 QQBrowser/9.6.12624.400',

'Cookie':'Ecp_notFirstLogin=ezBGYf; SID=120162; ASP.NET_SessionId=pj040hrhxe43fsrsa2mk24ep; Ecp_ClientId=3171112155604138976; c_m_LinID=LinID=WEEvREcwSlJHSldRa1Fhb09jMjVzQmVYUXBzNTNlbzJreWFVTU5NeVRmST0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!&ot=11/12/2017 16:16:52; c_m_expire=2017-11-12 16:16:52; Ecp_session=1; LID=WEEvREcwSlJHSldRa1Fhb09jMjVzQmVYUXBzNTNlbzJreWFVTU5NeVRmST0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!; Ecp_LoginStuts=%7B%22IsAutoLogin%22%3Afalse%2C%22UserName%22%3A%22gz0289%22%2C%22ShowName%22%3A%22%25E5%2590%2589%25E6%259E%2597%25E5%25A4%25A7%25E5%25AD%25A6%25E7%258F%25A0%25E6%25B5%25B7%25E5%25AD%25A6%25E9%2599%25A2%22%2C%22UserType%22%3A%22bk%22%2C%22r%22%3A%22ezBGYf%22%7D'

}

html=requests.get(url,headers=headers)

soup = BeautifulSoup(html.text,'lxml')

if soup.find('body > div:nth-child(1) > div.sorry > p'): #body > div:nth-child(1) > div.sorry > p

pass

else:

print(url)

def main():

years='2017'

for month in range(1,13):

for num in range(1,15):

get_url(years, month, num)

time.sleep(2)

if __name__ == '__main__':

main()

3.判断条件是根据这部分选择

预想结果是会根据 main 函数里的内容进行循环判断, 但是 201701013 和 14 后缀的连接仍旧会跳转到上面的部分, 但是会被作为结果返回.!!!

4.我进行的处理是反其道而行之, 设想通过判断存在某部分内容来选择, 但依旧没有任何效果.

python获取网页数据判断并提交_python3爬虫无法通过网页内容判断存在与否?相关推荐

  1. python获取网页数据后写入mysql_HTTP协议与使用Python获取数据并写入MySQL

    一.Http协议 二.Https协议 三.使用Python获取数据 (1)urlib (2)GET请求 (3)POST请求 四.爬取豆瓣电影实战 1.思路 (1)在浏览器中输入https://movi ...

  2. python获取网页数据对电脑性能_【Python】网页数据爬取实战

    由于网页结构跟之前有变化,还不是很熟悉.代码待完善,问题记录: 腾讯新闻二级网页内容爬取有问题. 链家网站头文件没有用到. 爬取一条腾讯视频的header内容,存入txt.要求: 包含网页链接 包含t ...

  3. python获取网页数据判断并提交_【python爬虫网页结构分析】判断数据是在html的静态网页还是在动态网页;找对URL;豆瓣;QQ音乐...

    这里的内容如果包含你要的信息,则数据储存在html 比如豆瓣新片榜,我们可以在preview中找到我们想要的榜单内容,则数据储存在HTML 豆瓣新片榜.png 再点[Headers]General 一 ...

  4. python获取网页源码被拒绝_Python3 请求网页源码 目标计算机积极拒绝,无法连接...

    代码: import urllib from urllib.request import urlopen from urllib.parse import urlencode url='http:// ...

  5. python Chrome + selenium自动化测试与python爬虫获取网页数据

    一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...

  6. Python零基础速成班-第12讲-Python获取网络数据Socket,API接口,网络爬虫Crawler(制作弹幕词云)

    Python零基础速成班-第12讲-Python获取网络数据Socket,API接口,网络爬虫Crawler(制作弹幕词云) 学习目标 获取网络数据Socket API接口 网络爬虫Crawler(制 ...

  7. python解析网页数据_python爬虫——爬取网页数据和解析数据

    1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. ...

  8. 【搬运自用】 用Python获取网络数据 -Python100天从新手到大师Day57(GitHub)

    用Python获取网络数据 原作者:骆昊 https://github.com/jackfrued/Python-100-Days 更多内容欢迎查看并订阅专栏'Python从新手到大师'和'Pytho ...

  9. Python 获取接口数据,解析JSON,写入文件

    Python 获取接口数据,解析JSON,写入文件 用于练手的例子,从国家气象局接口上获取JSON数据,将它写入文件中,并解析JSON: 总的来说,在代码量上,python代码量要比java少很多.而 ...

  10. python自动获取天气_用python获取天气数据,并作定时播报

    原标题:用python获取天气数据,并作定时播报 数据挖掘入门与实战 公众号: datadw 思路 1.调用和风天气的API,获取天气数据 2.用百度语音API,将天气数据合成语音 3.用树莓派每天早 ...

最新文章

  1. 电商企业为什么要搞中台?
  2. 分布式锁的使用与注意事项
  3. 全面理解Javascript闭包和闭包的几种写法及用途【转】
  4. BASIC-7 特殊的数字
  5. 【Libevent】Libevent学习笔记(一):简介和安装
  6. [转]让Linux的tty界面支持中文
  7. hdu 4512 吉哥系列故事——完美队形I(最长公共上升自序加强版)
  8. 360 php SQL注入,php中sql注入漏洞示例
  9. 快递鸟接口国内常用快递公司编码表
  10. 联想,华为,惠普的服务器和存储的管理口默认地址与默认用户名密码!
  11. css代码中的ul和li是什么意思呢
  12. 如何将c语言程序变成应用,C语言代码转换为应用程序
  13. 删除windows默认共享
  14. 传智播客学习之DOM基础
  15. python实现基于KNN算法的手写数字识别系统 非常详细!!!!
  16. 如何整理碎片化的知识?
  17. 分不清?企业征信报告Or企业信用评级报告,差别大了去了!
  18. 视频教程-2019 react入门至高阶实战,含react hooks-ReactJS
  19. 利用java swing编写一个简易的计算器,实现了括号,优先级,三角函数,阶乘等功能
  20. JS - Date对象转时间戳

热门文章

  1. 十大经典排序算法-堆排序算法详解
  2. 音视频中的语音信号处理技术
  3. 云端地球:让每个人都能在线生成大场景三维
  4. 攻击机靶机环境搭建——网络设置
  5. 为什么说香港的城市规划是最棒的
  6. 计算机辅助模具设计实训心得6,模具设计实训心得体会3篇
  7. 搅拌反应釜cad图纸_搅拌式反应釜设计(三维SW)【全套含有CAD图纸三维建模】...
  8. 高数_第1章空间解析几何_4种常见曲面方程
  9. 呕心推荐深入浅出区块链技术,系统学习区块链技术网站-登链社区
  10. 北航机械学院计算机制图,北航机械制图在线作业一含答案.pdf