转载:http://www.xuebuyuan.com/583071.html

python处理html的table标签

2012年01月06日 ⁄ 综合 ⁄ 共 5279字 ⁄ 字号 小 中 大 ⁄ 评论关闭
import sys
import csv
import urllib2import BeautifulSoup#page    = urllib2.urlopen(sys.argv[1]).read()
soup    = BeautifulSoup.BeautifulSoup(open(sys.argv[1]).read())
csvout  = csv.writer(sys.stdout)for table in soup.findAll('table'):print "<table border='1'>"#print '#'#print '# Table'#print '# Fields: ' + ','.join([tr.text for tr in table.findAll('th')])for row in table.findAll('tr'):print "<tr>"#csvout.writerow([tr.text for tr in row.findAll('td')])for tr in row.findAll('td'):print "<td>"print tr.text.encode("utf-8")print "</td>"print "</tr>"print "</table>"break
#!/bin/bash#process.hbasedir=$(dirname $1)echo $basedir#echo \<head\>\<meta http-equiv=\"Content-Type\" content=\"text/html\; charset=UTF-8\" /\>\</head\> >> $basedir/baobei.htmlprodname=$(grep -o '<title id="id_title">.*</title>' $1 | cut -d \> -f 2 | cut -d \< -f 1)prodname=$(echo $prodname | cut -d _ -f 1)price=$(grep -o '<span class="s1">[0-9]*</span>' $1 | cut -d \> -f 2 | cut -d \< -f 1)echo \<table\>                > $basedir/baobei.htmlecho  \<tr\>                 >> $basedir/baobei.html
echo  \<td\>Name\</td\>      >> $basedir/baobei.html
echo  \<td\>$prodname\</td\> >> $basedir/baobei.html
echo  \</tr\>                >> $basedir/baobei.htmlecho  \<tr\>                 >> $basedir/baobei.html
echo  \<td\>Price\</td\>     >> $basedir/baobei.html
echo  \<td\>$price\</td\>    >> $basedir/baobei.html
echo  \</tr\>                >> $basedir/baobei.htmlpython ./printtab.py $1      >> $basedir/baobei.htmlecho \</table\>              >> $basedir/baobei.htmlimgsrc=$(head -n 1 $basedir/imglist)
if test y$imgsrc = y; thenrm -rf $basedir/baobei.html && exit;
fi
echo \<img src=\'$imgsrc\'/\> >> $basedir/baobei.htmlcat $basedir/baobei.html | tr -d '\n' | tr -d '"' > $basedir/baobei.html.tmp
mv  $basedir/baobei.html.tmp                        $basedir/baobei.html
#!/bn/bash#process2.shbasedir=$(dirname $1)name=$(grep  -o "<td>Name</td><td>.*</td>" $1   | cut -d \> -f 4 | cut -d \< -f 1 )if  test "x$name" = "x" ; thenexit ;
fiprice=$(grep -o "<td>Price</td><td>.*</td>" $1 | cut -d \> -f 4 | cut -d \< -f 1 )if  test "x$price" = "x" ; thenexit;
fiif  test "x$class" = "x"
thenclass=$(grep -o "<td>产品类型</td><td>.*</td>" $1 | cut -d \> -f 4 | cut -d \< -f 1 )
fiif  test "x$class" = "x"
thenclass=$(grep -o "<td>设备类型</td><td>.*</td>" $1 | cut -d \> -f 4 | cut -d \< -f 1 )
fiif  test "x$class" = "x"
thenclass=$(grep -o "<td>打印针数</td><td>.*</td>" $1 | cut -d \> -f 4 | cut -d \< -f 1 )
fiif  test "x$class" = "x"
thenclass="条形码打印机"
fiif   $( echo $class | grep --quiet '票据' )
thenclass="536187477"
elif $( echo $class | grep --quiet '发票' )
thenclass="536187477"
elif $( echo $class | grep --quiet '票证' )
thenclass="536187477"
elif $( echo $class | grep --quiet '存折' )
thenclass="536187477"    ##################################################################
elif $( echo $class | grep --quiet '针' )
thenclass="536187477"##################################################################
elif $( echo $class | grep --quiet '灯泡' )
thenclass="536187479"
elif $( echo $class | grep --quiet 'UHE' )
thenclass="536187479"
elif $( echo $class | grep --quiet 'UHP' )
thenclass="536187479"
elif $( echo $class | grep --quiet 'HSCR' )
thenclass="536187479"###############################################################
elif $( echo $class | grep --quiet '条形码打印机' )
thenclass="536187480"##################################################################
elif $( echo $class | grep --quiet '证卡打印' )
thenclass="536187483"##################################################################
elif $( echo $class | grep --quiet '条码' )
thenclass="536187481"elif $( echo $class | grep --quiet '扫描' )
thenclass="536187481"elif $( echo $class | grep --quiet '阅读' )
thenclass="536187481"elif $( echo $class | grep --quiet '采集' )
thenclass="536187481"elif $( echo $class | grep --quiet '手持' )
thenclass="536187481"elif $( echo $class | grep --quiet '数据终端' )
thenclass="536187481"##################################################################
elif $( echo $class | grep --quiet '激光' )
thenclass="536187484"##################################################################
elif $( echo $class | grep --quiet '喷墨' )
thenclass="536187486"##################################################################
elif $( echo $class | grep --quiet '复印' )
thenclass="536187615"##################################################################
elif $( echo $class | grep --quiet '一体机' )
thenclass="536187485"##################################################################
elif $( echo $class | grep --quiet '硒鼓' )
thenclass="536187616"elif $( echo $class | grep --quiet '墨盒' )
thenclass="536187616"
elseclass="536187616"
fi################################################################
imagepath=$(find $basedir -type f -iname "*.jpg")
if test "x$imagepath" = "x"; thenexit ;
fi
image=$(md5sum $imagepath | cut -d ' ' -f 1)
cp -rf $imagepath $basedir/../../template/$image.tbi
################################################################
desc=$(cat $1)
################################################################echo -e \"$name\""\t"110514"\t"\",$class,\""\t"1"\t"\"上海\""\t"\"上海\""\t"\"b\""\t"$price"\t"0.000000"\t"1"\t"7"\t"2"\t"0.000000"\t"0.000000"\t"0.000000"\t""\t""\t"1"\t"1"\t"0"\t"1"\t"1"\t"0"\t"\"2012-10-16 13:09:48\""\t""\t"\"$desc\""\t""\t"\"20000:31140\;20196:3228846\;29969:107401\;30681:32998\;31468:102250\;31479:92188\;3415558:27513\;3415563:21959\;3415571:21959\;3415581:10122\;3415609:22041\;7884463:75957615\;14319244:80897641\;14319250:123483713\;14791484:10285019\;\""\t""\t""\t"0"\t"0"\t"\"2012-10-16 13:37:51\""\t"100"\t""\t"0"\t"\"$image:0:0:\|\;\""\t"\"\""\t"\"\""\t"\",\""\t"\",\""\t"\"\""\t"\"\""\t"0"\t"\"15758222730\""\t"15758222730
 classtable = {
17     "536187477" : "票据打印机" ,
18     "536187478" : "针式打印机" ,
19     "536187479" : "投影灯泡"   ,
20     "536187480" : "条形码打印机" ,
21     "536187481" : "条码设备"   ,
22     "536187483" : "证卡打印机" ,
23     "536187484" : "激光打印机" ,
24     "536187485" : "多功能一体机" ,
25     "536187486" : "喷墨打印机" ,
26     "536187615" : "复印复合机" ,
27     "536187616" : "硒鼓"  ,
28 }

转载于:https://www.cnblogs.com/stepit/p/4143039.html

python处理html的table标签相关推荐

  1. img、列表和table标签

    一.img图片 <body> <a href="https://www.fmtxt.com"> <img src="images/1.jpg ...

  2. java中table是什么标签_[Java教程]javascript格式化table标签内容

    [Java教程]javascript格式化table标签内容 0 2015-07-12 20:00:08 项目中遇到这样的需求,一大段文章正文的html代码在手机中显示不全,原因是由于其它有table ...

  3. table 标签的 rules 属性

    rules 属性规定内侧边框的哪个部分是可见的. 从实用角度出发,最好不要规定 rules,而是使用 CSS 来添加边框样式. 值 描述 none 没有线条. groups 位于行组和列组之间的线条. ...

  4. Bootstrap——table标签使用横向滚动条解决方案

    官方文档 https://v4.bootcss.com/docs/content/tables/ 解决方案 方法一:原生CSS 给table标签添加CSS属性 table显示滚t动条,要先把table ...

  5. PHP自学4——通过函数将数组数据输出到html的Table标签中(使用函数的例子)

    这一节其实说实话并没有什么干货,不过为了防止PO主的懒癌的复发,还是坚持放一点东西,即使是内容和长度都令人发指.这一节通过一个函数来实现将数组中的内容输出html的Table标签当中显示. 函数文件- ...

  6. html:(14):给div命名和table标签

    给div命名,使逻辑更加清晰 在上一小节中,我们把一些标签放进<div>里,划分出一个独立的逻辑部分.为了使逻辑更加清晰,我们可以为这一个独立的逻辑部分设置一个名称,用id属性来为< ...

  7. PHP自学3——在html的table标签中显示用户提交表单

    为了更好地显示用户提交表单,本节将在上一节的基础上将读取的用户表单显示在html的<table>标签中,这一节将用到和数组有关的知识. 本节代码将从外部文件(.txt文件)中读取信息于指定 ...

  8. html设置table表格的弧度,用CSS3和table标签实现一个圆形轨迹的动画的示例代码

    html:其实就是根据table标签把几个实心圆div进行等边六角形的排布,并放入一个div容器中,然后利用CSS3的循环旋转的动画效果对最外层的div容器进行自转实现,当然不要忘了把div容器的外边 ...

  9. js 动态生成html(js根据后台返回数据生成html页面中的table标签)(转义字符)

    js 动态生成html table标签中内容js生成 html代码 js代码 js 动态生成html 触发事件传参字符转义 table标签中内容js生成 html代码 <div><t ...

最新文章

  1. 测一测你的blog魔症有多严重
  2. 揭晓飞桨平台提速秘诀:INT8量化加速实现“事半功倍”
  3. Matlab-创建文字云
  4. java填空题答案_JAVA求填空题答案
  5. php 扩展apc 参数优化
  6. Devops-运维效率之数据迁移自动化
  7. Step by step通过online方式做product archiving
  8. [蓝桥杯][2016年第七届真题]压缩变换(主席树求区间不同数的个数)
  9. facebook, twitter,QQ, google +1, linkedin, disqus,gigya 按钮Network (登录)
  10. 用Java写数据到POST请求
  11. Spring Framework--SpringMVC(1)--DispatcherServlet
  12. 技术圈几个牛逼的公号推荐给大家
  13. 期末排名算不算计算机成绩,智学网怎么看年级排名 智学网如何查看期末考试成绩...
  14. AutoCAD2007 打开缓慢解决方案
  15. Tesseract-OCR识别中文与训练字库
  16. 直播间自动热场软件的实现思路与代码分享
  17. 俞敏洪在清华终于说实话了·····
  18. 此计算机上无法找到autocad2017,主编操作win7系统安装autocad2017提示“无法定位inf文件ACAD.inf”的具体步骤...
  19. 国密算法:利用python进行sm3 hash算法,计算hash值,国密算法库gmssl的使用
  20. (分享) 英语邮件要点

热门文章

  1. 我猜后台管理路径猜解
  2. Adobe的学者约翰—沃洛克博士
  3. 深度学习笔记9 Sparse coding
  4. 【正一专栏】巴萨四大皆空怎么办
  5. mark关于Java语言Static的生命周期
  6. vivado中的rtl中电路图无发生成_Vivado 综合崩溃调试指南
  7. v-for遍历数组 || v-for遍历对象
  8. 在方法的形参位置使用@Qualifier注解||@Autowired 与@Resource的区别
  9. oracle数据库impdp导入dmp文件功能演示,imp导入IMP-00038: Could not convert to environment character sets handle问题解决
  10. matlab模拟钢琴演奏