python编写爬虫爬取先知社区文章的标题、标题链接、作者、作者链接、文章分类、发布时间、评论数(O(∩_∩)O哈哈~初级小白,暂时没用正则表达式)

import requests
'''爬取全部'''
'''创建个函数输入先知的页数'''def paqu_xianzhi(n):for k in range(1,n+1):r = requests.get('https://xz.aliyun.com?page={}'.format(k))response = r.text#print(response)table1 = response.find('<table class="table topic-list">')#print(table1)table2 = response.find('</table>')#print(table2)contents = response[table1:table2]div = contents.split('<tr><td>')print('Page{}'.format(k))with open ('b.txt','a',encoding='UTF-8') as file:file.write('Page{}'.format(k)+'\n')#print(div[i]) #1-30 30个标题for i in range(1,31):    #继续分片 用<a分 分了五片 第0片没用 2:文章标题和连接# 3:作者 和连接 4:文章分类和发布时间和评论div2 = div[i].split('<a')j = 2print('-'*50)#print(div2[4])#取标题title1 = div2[j].find('">') + 2title2 = div2[j].find('</a>')title = div2[j][title1:title2].strip()print('标题:'+ title)#取标题连接title_link1 = div2[j].find('href="') + 6title_link2 = div2[j].find('">')title_link = div2[j][title_link1:title_link2]print('标题链接为:https://xz.aliyun.com' + title_link)j += 1#作者author1 = div2[j].find('">') + 2author2 = div2[j].find('</a>')author = div2[j][author1:author2]print('作者为:' + author)#作者链接author_link1 = div2[j].find('href="') + 6author_link2 = div2[j].find('">')author_link = div2[j][author_link1:author_link2]print('作者链接为:https://xz.aliyun.com' + div2[j][author_link1:author_link2])j += 1#文章发布时间time1 = div2[j].find('/ 2') + 2time2 = time1 + 10time = div2[j][time1:time2]print('发布时间为:'+ time)#分类article_type1 = div2[j].find('">') + 2article_type2 = div2[j].find('</a>')article_type = div2[j][article_type1:article_type2]print('该文章属于:'+ article_type)#评论数量comment_number1 = div2[j].find('text-center ">') + 14comment_number2 = div2[j].find('</span></span>')comment_number = div2[j][comment_number1:comment_number2]print('该文章评论数为:'+ comment_number)#写入文件with open ('b.txt','a',encoding='utf-8') as file:file.write('-'*50+'\n')file.write('标题:'+ title+'\n')file.write('标题链接为:https://xz.aliyun.com' + title_link+'\n')file.write('作者为:' + author+'\n')file.write('作者链接为:https://xz.aliyun.com' + div2[j][author_link1:author_link2]+'\n')file.write('发布时间为:'+ time+'\n')file.write('该文章属于:'+ article_type+'\n')file.write('该文章评论数为:'+ comment_number+'\n')print('-'*50)n =int(input('请输入要爬取的前几页:\n'))
paqu_xianzhi(n)

python编写爬虫爬取先知社区文章相关推荐

  1. 【Grades Crawler】利用python编写爬虫 爬取西电教务处成绩并本地保存

    Grades Crawler 项目介绍 由于教务处成绩不易自己打印,故编写爬虫Grades Crawler, 其可以将自己的(需要合法的学生帐号信息)教务处成绩爬取下来,并本地保存为excel格式或直 ...

  2. Python POST 爬虫爬取掘金用户信息

    Python POST 爬虫爬取掘金用户信息 1. 概述 Python第三方库requests提供了两种访问http网页的函数,基于GET方式的get()函数和基于POST方式的post()函数. g ...

  3. 如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)

    前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...

  4. python朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)

    前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...

  5. python抓取朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)...

    原标题:如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下) 前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往 ...

  6. Python Scrapy 爬虫 - 爬取多级别的页面

    Python Scrapy 爬虫 - 爬取多级别的页面 互联网中众多的 scrapy 教程模板,都是爬取 下一页 → \rightarrow →下一页形式的,很少有 父级 → \rightarrow ...

  7. python制作爬虫爬取京东商品评论教程

    python制作爬虫爬取京东商品评论教程 作者:蓝鲸 类型:转载 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计 ...

  8. 使用python网络爬虫爬取新浪新闻(一)

    使用python网络爬虫爬取新浪新闻 第一次写博客,感觉有点不太习惯!不知道怎么突然就想学学爬虫了,然后就用了一天的时间,跟着教程写了这个爬虫,!不说废话了,我将我从教程上学习的东西整个写下来吧,从头 ...

  9. python爬电影_使用Python多线程爬虫爬取电影天堂资源

    最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...

最新文章

  1. keras 的 example 文件 mnist_cnn.py 解析
  2. [AlwaysOn Availability Groups]排查:Primary上的修改无法在Secondary体现
  3. 航天智慧物流创意组-技术培训二期
  4. 【算法总结】图论相关
  5. 没有找到合适的方法来重写_玻璃片价格太高?你可能没有找到合适的供应商
  6. c/c++程序员的技术栈
  7. android Java BASE64编码和解码二:图片的编码和解码
  8. 百词斩和扇贝打卡测试与评估
  9. iOS连续上传多张图片
  10. 常用网页元素命名规范参考
  11. 2019年初,我收到人生中的第一笔稿费
  12. unity3d AssetBundle 资源热更专题
  13. N字霸气多空博弈大师能量潮拐点战法通达信 主图/副图/选股指标
  14. arcpy批量合并融合矢量数据
  15. 苹果电脑无法自动修复计算机,苹果电脑没办法正常开机的解决方案
  16. Python编程学习笔记 - 下载数据进行可视化(I)
  17. matlab svc doc,TCR+FC型SVC的研究及MATLAB仿真.doc
  18. 线程类的一些常用方法
  19. Nim游戏和SG函数
  20. js_window.open新标签页,当前标签页打开

热门文章

  1. Dart语法学习-数据类型
  2. TopDown Engine中文文档 (五秘籍)
  3. 秘密secret社群经济以及人工智能
  4. SCI一区:IEEE TSMC老师2021年2月修改稿反馈
  5. startisback导致windows10任务栏右击无反应
  6. 你天生就是一个语言家
  7. (4.0.15.5)Android开发:最详细的 Toolbar 开发实践总结
  8. win10任务栏搜索框无反应解决办法
  9. Zynq移植USB触摸屏
  10. plc通讯的握手信号_MES与PLC握手的几种方式