先上代码

#coding=utf-8
import requests
from bs4 import Tag
from bs4 import BeautifulSoup
def getHtml(url):
page = requests.get(url)
html =page.text
return html
def getText(html):
get_text = Tag.get_text
soup = BeautifulSoup(html, 'html.parser')
author_info = soup.find_all('div', class_='atl-info')
listauthor  = [x.get_text() for x in author_info]
list_info = soup.find_all('div', class_='bbs-content')
listtext  = [x.get_text() for x in list_info]
global i
if i > 1:
listtext = [""] + listtext
for x in range(len(listauthor)):
if "楼主" in listauthor[x]:
print (listtext[x].strip())
if __name__=='__main__':
for i in range(1,6):
url  = ("http://bbs.tianya.cn/post-feeling-4286798-%s.shtml" % str(i))
html = getHtml(url)
getText(html)

刚学Python不到一个月,代码写的有点乱,以后优化。

Python爬虫实战(二):爬取天涯帖子(只看楼主)相关推荐

  1. Python爬虫实战之爬取百度贴吧帖子

    Python爬虫实战之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 对百度贴吧的 ...

  2. 携程ajax,Python爬虫实战之爬取携程评论

    一.分析数据源 这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...

  3. Python爬虫实战之爬取网站全部图片(一)

    Python爬虫实战之爬取网站全部图片(二) Python爬虫实战之通过ajax获得图片地址实现全站图片下载(三) 一.获得图片地址 和 图片名称 1.进入网址之后 按F12  打开开发人员工具点击e ...

  4. Python爬虫实战之爬取糗事百科段子

    Python爬虫实战之爬取糗事百科段子 完整代码地址:Python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...

  5. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)

    在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...

  6. Python爬虫实战:爬取解放日报新闻文章

    上一篇<Python 网络爬虫实战:爬取人民日报新闻文章>发布之后,确实帮到了不少朋友. 前几天,我好哥们问我:我想爬另一个日报新闻网站,网页结构几乎跟人民日报几乎一模一样,但是我用你的那 ...

  7. Python爬虫实战之 爬取全国理工类大学数量+数据可视化

    上次爬取高考分数线这部分收了个尾,今天咱们来全面爬取全国各省有多少所理工类大学,并简单实现一个数据可视化.话不多说,咱们开始吧. 第一步,拿到url地址 第二步,获取高校数据 第三步,地图可视化 第四 ...

  8. Python爬虫实战 | (12) 爬取万方数据库文献摘要并存入MongoDB

    之前在Python爬虫实战(7)中曾爬取过万方,本篇博客的爬取解析过程和之前几乎完全一样,不同的是数据存储方式,之前是存储到文件中(csv,txt,json,excel等),这次我们将提取的论文信息存 ...

  9. Python爬虫实战之爬取web网易云音乐——解析

    找到存储歌曲地址的url界面 首先我们要进入网易云的web页面在页面中我们随意选择一首歌曲,打开开发者工具查看响应的界面. 在这些页面中我们需要查找存储有音乐文件的url,这是我们可以打开全局搜索直接 ...

最新文章

  1. TP-link 841N 刷DD-WRT固件
  2. python100个必背知识-学Python必须背的42个常见单词,看看你都会吗?
  3. 一个关于native sql的程序
  4. 本科毕设论文——基于Kinect的拖拉机防撞系统
  5. 计算机软件不是出租的主要标的时著作权,著作权中出租权的适用对象有哪些?...
  6. Endnote导出目标期刊的参考文献的格式
  7. Unity中打开商店评分评价
  8. Ajax案例之聊天机器人
  9. Intel芯片、AMD显卡有多强?M1系列呢?
  10. 各品牌电脑进入BIOS的按键
  11. windows 磁盘管理:简单卷、跨区卷、带区卷、镜像卷 和 RAID-5
  12. Devops之制品库平台nexus实践
  13. GDScript:协程(Coroutine)(二)简单粗暴实用至上的语法设计
  14. can收发器 rx_Microchip工程师社区 - 两组PIC18F25K80+CAN收发器的CAN通讯 - 16位MCU及DSC - 麦田论坛...
  15. [matlab]利用cftool进行曲线拟合
  16. AWVS扫描Web应用程序
  17. apache中的php模块安装
  18. 2022中国MarTech领域最具商业合作价值企业盘点
  19. 计算机桌面模糊了,显示屏模糊,详细教您怎么解决电脑屏幕模糊
  20. 3个烟花代码,我已上传,也可复制代码

热门文章

  1. lua中的bind函数,闭包函数,终于知道有啥用处了
  2. 车间生产兵荒马乱?鼎捷MES系统助力,智能生产条分缕析!
  3. goland运行go程序时会报goland Error: Package go_project/com/xmh/hello contains more than one main 错误
  4. 探索蝉妈妈宝藏功能:抖音带货难度直降 超过90%同行不是梦
  5. 远光软件斩获2021中国产业区块链峰会双项殊荣
  6. 如何安装torch_geometric?
  7. ButterKnife的使用和原理
  8. 秋招末班车没赶上!只能走社招了么?
  9. 从《头号玩家》说起,聊聊当前的 VR 技术到底差在哪?
  10. 公司名下北京车牌指标怎么找回?