python爬虫语句_Python爬虫练手之爬句子迷
缘由
《北京遇上西雅图2不二情书》上映其实很久了,然而,最近才有时间从网上拖下来看(原谅,我们这破旧的小地方没有电影院这个设施)。发现里面的句子还是不错的,所有想弄下来研读一下。刚好,Python很适合最这个(ps:其实我也就只懂这个)
环境
windows,Python2.x,requests,BeautifulSoup
代码
#!/usr/bin/python
# -*- coding: utf-8 -*-
# 获取经典句子
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:48.0) Gecko/20100101 Firefox/48.0',}
def get_html(url):
r = requests.get(url,headers = headers)
html = r.content
return html
def get_juzi(html):
soup =BeautifulSoup(html, "lxml")
juzilist = soup.find_all('a',class_="xlistju")
for x in juzilist:
print x.get_text().encode('utf-8')
def get_title(html):
soup =BeautifulSoup(html, "lxml")
print soup.title.get_text().encode('utf-8').replace('_句子迷','')
if __name__ == '__main__':
# url = 'http://www.juzimi.com/article/316132?page=0' url 的模式
for item in range(8): #这里是手动模式 ^_^
url = 'http://www.juzimi.com/article/316132?page=%s' % item
html = get_html(url)
if item == 0:
get_title(html)
get_juzi(html)
结束语
喜欢的话,欢迎关注,收藏,谢谢!
python爬虫语句_Python爬虫练手之爬句子迷相关推荐
- Python爬虫(5):豆瓣读书练手爬虫
Python爬虫(5):豆瓣读书练手爬虫 我们在之前的文章中基本上掌握了Python爬虫的原理和方法,不知道大家有没有练习呢.今天我就来找一个简单的网页进行爬取,就当是给之前的兵书做一个实践.不然不就 ...
- Python 小小爬虫练手,爬取自己的IP
Python 小小爬虫练手,爬取自己的IP import re import urllib.request url="http://2020.ip138.com/i ...
- 学习python数据分析的30个练手数据+4个数据集网站
前几天发了一个博文:懂点excel作图, 怎么让pyechart作的图更具"职场范"呢?丨pyechart工作作图模板, 一不小心上了热榜, 感谢小伙伴们的支持, 以后会多总结发更 ...
- python3 练手:爬取爱问知识人,运用sqlite3保存数据
python3 练手:爬取爱问知识人 参考地址:https://cuiqingcai.com/1972.html 获取页面:https://iask.sina.com.cn/c/74.html 分析: ...
- 2021-07-31 Python爬虫练手项目--爬取上千张明星美图
爬虫每日练手--上千张美女明星优质图 1.确定目标 2.提取链接 爬取封面链接 爬取子页面 3.代码及结果 完整代码 输出结果 代码细节解释 设置简单反爬 打印输出结果 4.成品欣赏 1.确定目标 目 ...
- python 简单网页_Python爬虫 (一):爬取一个简单的静态网页
版本:python3.7 平台:windows10 工具 :pycharm 断断续续学习了py3爬虫2周左右的时间,发现自己学习的过于零散化,所以想通过这个专栏系统的整理下自己所学过的知识.如有错误, ...
- python做些什么项目_Python 的练手项目有哪些值得推荐
1 Web方向的练手项目 这个其实是肯定不用多少的了.Python的练手项目就是可以做一个网站了.我们可以做一个属于自己的博客.在做博客的时候,我们可以巩固的知识点是 Html+CSS+JS的基础知识 ...
- 花一千多学python值吗_Python爬虫应该怎么学?程序猿花了一周整理的学习技巧,请收下...
原标题:Python爬虫应该怎么学?程序猿花了一周整理的学习技巧,请收下 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多, ...
- python数据入库_python爬虫(中)--数据建模与保存(入库)
前言 前面,讲的是提取出来的数据保存进一个extracted_data,再保存进extracted_data_,变成一个list包含list的情况,当然你只提取一项,那就没有必要这么做了,可是我的项目 ...
- python流行的爬虫框架_Python爬虫相关框架
Python爬虫相关框架,Python的爬虫框架就是一些爬虫项目的半成品.比如我们可以将一些常见爬虫功能的实现代码写好,然后留下一些接口,在做不同的爬虫项目时,我们只需要根据实际情况,只需要写少量需要 ...
最新文章
- 从一个前端项目实践 Git flow 的流程与参考
- 【 Vivado 】在工程模式下通过jou文件来学习 Tcl 命令
- VS下调用Matlab引擎
- 如何在Google Chrome浏览器中启动JavaScript调试器?
- python敏感词过滤代码简单_大型企业都在用,Python实现敏感词过滤
- leetcode初级算法1.删除排序数组中的重复项
- 局域网网管软件_网管软件有哪些?那些不同之处
- 天联高级版客户端_天高客户端登录出现“如未打开程序,请点击查看链接提示”...
- 给大家展示一下最近在Yeslab安全实验室测试的设备!
- Ubuntu下Android编译环境的配置
- Oracle 11g R2 X64数据库安装
- 2.开发Mip组件的第一个demo(点击关闭按钮,关闭外层dom)
- 通过傅里叶变换方法求图像卷积-OpenCV实现
- 如何将Mac“桌面”和“文稿”文件添加到 iCloud 云盘中?
- D-S证据理论超简单理解
- hadoop完全分布式教程网页
- c语言1ms延时程序,请教老师,51微控制器在12M晶振,C语言程式设计时,延时函式120次=1ms(书本上是这样的,不懂),是怎样得来的?...
- java cron表达式 每天凌晨两点_Quartz cron表达式(时间表达式)
- JDK8u201安装
- 在C/C++中调用LUA脚本简介
热门文章
- Websphere 学习(二)
- 35岁的大龄程序员都去哪里了?
- wifi连接一段时间才能上网_为什么wifi连接上却不能上网?教你如何解决wifi连上却不能上网...
- 《相关性准则——大数据时代的高效能之道》一一1.6 相关性准则
- java 发送封包_【Java学习笔记】自动封包和解包(Autoboxing和AutoUnboxing)
- 数字孪生智慧交通仿真推演解决方案
- python打印乘法口诀表
- 蜂考c语言、数据结构(课后习题答案)
- android netcfg 源码分析
- 数据分析的发展及数据分析师的技能浅谈