python将页面保存为html_python – :将html保存为文本
我有一个
javascript代码,只显示一个HTML页面的源代码
javascript:h=document.getElementsByTagName('html')[0].innerHTML;function%20disp(h){h=h.replace(/,%20'\n<');h=h.replace(/>/g,'>');document.getElementsByTagName('body')[0].innerHTML='
<html>'+h.replace(/(\n|\r)+/g,'\n')+'</html>
';}void(disp(h));
我将代码保存为firefox中的书签.因此,在加载网页后,当我从书签中选择代码时,它会显示源代码.
现在我尝试使用python保存html文件.
from BeautifulSoup import BeautifulSoup
from BeautifulSoup import BeautifulStoneSoup
import BeautifulSoup
import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen("http://www.doctorisin.net/")
soup = BeautifulSoup(page)
print soup.prettify()
fp = open('file.txt','wb')
fp.write(soup.prettify())
但它没有javascript代码的所有内容.保存的文件和javascript显示源文件不相同.也许python代码没有从html页面获取所有代码(javascript / css标记代码).问题是什么?难道我做错了什么?需要帮忙
谢谢
EDITED
作为我的问题的一个例子,http://phpjunkyard.com/tutorials/cut-paste-code.php(随机站点)转到这个站点,右键单击并选择查看页面源(firefox)复制源并保存在文本文件.现在保存页面(将页面另存为).你可以看到两者都不一样.已保存的页面(另存为)还有更多内容. Python给出了类似源代码的输出(查看页面源代码).缺少一些脚本,表格等.
python将页面保存为html_python – :将html保存为文本相关推荐
- 利用juypter搭建远程可访问的python交互页面
利用juypter搭建远程可访问的python交互页面 为了在没有安装python的机器上工作,在装有python和相关包的电脑上安装Jupyter并进行配置,设置端口和转发,就可以在远端的设备上用浏 ...
- 【爬虫实战项目】Python爬虫批量下载音乐飙升榜并保存本地(附源码)
前言 今天给大家介绍的是Python爬虫批量下载音乐飙升榜并保存本地,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是 ...
- python3下载文件-python 3.3 下载固定链接文件并保存的方法
python 3.3 下载固定链接文件并保存. import urllib.request print ("downloading with urllib") url = 'htt ...
- python 网络页面爬取
4.22 python 网络页面爬取 对国家体育总局(例)页面进行简单爬取 运行结果截图: 代码: import requests url="http://www.sport.gov.cn/ ...
- python爬取微博热搜数据并保存!
主要用到requests和bf4两个库将获得的信息保存在d://hotsearch.txt下importrequests;importbs4mylist=[]r=requests.get(ur- 很多 ...
- Python提取Word文件中的目录标题保存为Excel文件
from docx import Document from openpyxl import Workbook from openpyxl.styles import Alignment, Borde ...
- 编程实战(4)——python识别图像中的坐标点并保存坐标数据
编程实战(4)--python识别图像中的坐标点并保存坐标数据 文章目录 编程实战(4)--python识别图像中的坐标点并保存坐标数据 综述 代码思路 库的安装 图片预处理 图像细化 图像二极化 提 ...
- python爬虫:爬取所有车标图片保存本地
python爬虫:爬取所有车标图片保存本地 这次没想到会这么轻松,找了几个网站分析结构发现腾讯汽车的json接口,很轻松爬下所有的图标.上图: 总共209个牌子,以车牌子命名. 分析网页 一开始找了好 ...
- 怎么保存页面为html,怎样把一个网页保存到电脑上并且保存为HTML文件?
第一步:编写HTML 对于这个教程,我建议你只使用最简单的工具.例如:Notepad(在Windows里),TextEdit (在Mac上)或是KEdit (在KDE里)就可以了.一旦你了解这个原理, ...
- python根据url下载数据_利用Python如何实现根据URL地址下载并保存文件至对应目录...
利用Python如何实现根据URL地址下载并保存文件至对应目录 发布时间:2020-11-16 14:23:11 来源:亿速云 阅读:58 作者:Leah 这篇文章将为大家详细讲解有关利用Python ...
最新文章
- 机器学习与数据挖掘有什么异同?
- POJ2762 Going from u to v or from v to u? 强连通+缩点
- 图模型概述:三种分布(联合、条件、边缘分布)
- Golang 单元测试详尽指引
- 合成/聚合原则: 桥接模式
- lg空调代码大全解决_LG空调故障代码大全
- SQL点滴9—使用with语句来写一个稍微复杂sql语句
- 微信小程序生成分享图片踩坑大计划
- 织梦手机站搜索结果显示为电脑站的搜索结果模板的解决方法
- classic shell_使用Classic Shell将Windows 7开始菜单带到Windows 10
- Deepin系统初体验指南:从安装到开发环境配置
- 完美Zotero文件同步,Zotero+Koofr+OneDrive神器叠buff
- 网络兼职正规网站,做兼职的来看看,防止被骗!
- 实验7-3-3 统计大写辅音字母(15 分)
- LeetCode——反转字符串
- 案例驱动式Python学习笔记【第三篇】居民身份证信息提取
- 哔哩哔哩websocket协议逆向--制作一个属于自己的弹幕姬
- 《庄子·外篇·骈拇第八》
- Ununtu 18.04 安装Carla 0.9.13 以及Carla ros bridge 超级避坑指南(更新于2022.10.20)
- KDE、Gnome 和 XFCE,各个 Linux 桌面环境的使用情况如何?
热门文章
- SAP Spartacus cost-center.config.ts里定义的paramsMapping
- 通过一个最简单的例子,理解Angular rxjs里的Observable对象的pipe方法
- SAP UI5和angular里的常量定义
- SAP CRM Fiori应用冗余round trip的原因分析
- SAP CRM,C4C和Hybris的product Cockpit
- SAP CRM WebClient UI SSO cookie
- running Extension project directly on ABAP server without Launchpad
- smart field demo1 - how does system know currency needs to be rendered
- 用postman在CSDN上创建博客
- 解决windows10系统ssh-add报错的问题