public static class taobao_message
        {
            /// <summary>
            /// 读页面的byte转化为string
            /// </summary>
            /// <param name="url">地址</param>
            /// <returns></returns>
            public static string webclinet_content(string url)
            {
                url = url.Replace("http://", "");
                System.Net.WebClient client = new WebClient();
                byte[] page = client.DownloadData("http://" + url);  
                string content = System.Text.Encoding.GetEncoding("GB2312").GetString(page);//淘宝的页面编码为gb2312
                return content;
            }
            /// <summary>
            /// 读淘宝宝贝的信息
            /// 数组内容{宝贝图片地址,宝贝标题,宝贝价格}
            /// </summary>
            /// <param name="url">宝贝地址</param>
            /// <returns></returns>
            public static string[] baobei_mess(string url)
            {
                string content = webclinet_content(url);
                string baobei_img =get_taobao(content,1);
                string baobei_title = get_taobao(content,2);
                string baobei_price = get_taobao(content,3);
                string[] arry1 = {baobei_img,baobei_title,baobei_price};
                return arry1;;
            }
            /// <summary>
            /// 特定标签内容提取
            /// </summary>
            /// <param name="content">提取的字符串</param>
            /// <param name="type">验证类型0:空; 1:淘宝贝图片;2:宝贝标题;3:宝贝价格;</param>
            /// <returns></returns>
            public static string get_taobao(string content, int type)
            {
                string result = "";
                string reg = "";
                switch (type)
                {
                    case 0: return "";
                    case 1: reg = @"J_ImgBooth\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>"; break;
                    case 2: reg = "<h3>(<a[^>]*>)?([^<]*)(</a>)?</h3>"; break;
                    case 3: reg = "J_StrPrice[^>]*>([^<>]*)(</)"; break;
                }
                string regex = reg;
                Regex re = new Regex(regex);
                MatchCollection matches = re.Matches(content);
                System.Collections.IEnumerator enu = matches.GetEnumerator();
                switch (type)
                {
                    case 0: return "";
                    case 1:
                        while (enu.MoveNext() && enu.Current != null)
                        {
                            Match match = (Match)(enu.Current);
                            result += match.Groups["imgUrl"];
                        } break;
                    case 2:
                        while (enu.MoveNext() && enu.Current != null)
                        {
                            Match match = (Match)(enu.Current);
                            result += match.Groups[2];
                        } break;
                    case 3:
                        while (enu.MoveNext() && enu.Current != null)
                        {
                            Match match = (Match)(enu.Current);
                            result += match.Groups[1];
                        } break;
                }
                return result;
           }
        }

读淘宝页面字节流提取宝贝图片地址宝贝标题宝贝价格相关推荐

  1. 电商美工中秋节电商淘宝页面设计模板素材,临摹参考框架

    品味中秋 回味无穷 那电商淘宝页面有什么要求呢 从哪些方面着手呢? 节日促销页面的质量 与宝贝的转化率有着直接的关系 那么做好节日促销页面 是每个卖家必须要重视的事情 先看看优秀的中秋节淘宝页面设计模 ...

  2. 做淘宝页面前的基础准备

    做淘宝页面前的基础准备 文章目录 做淘宝页面前的基础准备 浏览器的默认加载策略 元素嵌套规则 特殊元素(p标签和a标签) 基础补充 导航栏布局 文本元素 行级元素 实现导航栏左右浮动效果 实现图标加文 ...

  3. iOS淘宝授权登录及跳转淘宝页面

    作者公司是做淘客的,本文会介绍淘宝授权登录的介入流程,淘客返现等逻辑想要了解的可以看作者的其他文章,或者是私聊作者,qq号见个人资料. 1.注册APP 淘宝授权登录的SDK是阿里百川的不是淘宝的,有些 ...

  4. 网络爬虫爬取淘宝页面商品信息

    网络爬虫爬取淘宝页面商品信息 最近在MOOC上看嵩老师的网络爬虫课程,按照老师的写法并不能进行爬取,遇到了一个问题,就是关于如何"绕开"淘宝登录界面,正确的爬取相关信息.通过百度找 ...

  5. 仿作淘宝页面 html+css

    html源代码: <!DOCTYPE html> <html lang="zh-CN"> <head><meta charset=&quo ...

  6. 使用python requests+re库+curl.trillworks.com神器 实现淘宝页面信息爬取

    慕课[Python网络爬虫与信息提取]课程随手练习~! 和嵩天老师课程中的示范不同的是,淘宝页面现在不能直接爬取,要修改下访问请求的headers表头信息. 目标:使用python的requests+ ...

  7. 在matlab中怎么录制音频_怎么录制淘宝页面中的视频?简单方法,轻松搞定

    原标题:怎么录制淘宝页面中的视频?简单方法,轻松搞定 怎么录制淘宝页面中的视频?当前足不出户,大家就可以在很多的电商平台购买到自己心仪的商品.这其中商机也就产生了,如果不太想上班,或者说想要自己当老板 ...

  8. 微信小程序 三级分类(高仿淘宝页面分类)

    ** 三级分类(高仿淘宝页面分类) ** 初步的二级页面参考的这个文章的代码:https://blog.csdn.net/luowei85520/article/details/90510311 这个 ...

  9. 淘宝天猫如何导入数据包批量上传宝贝的方法

    这个问题如果是放在以前,我想很多人的答案是借助淘宝助理导入数据包批量发布宝贝到店铺,是的,在以前,可以通过淘宝助理导入数据包上传,方便又快捷,但是在今年的八月底,淘宝助理正式下线了,如今登录淘宝助理会 ...

最新文章

  1. 摆脱 FM!这些推荐系统模型真香
  2. Controller 层实现
  3. Python3中出现“No module named ‘StringIO‘
  4. 编译nginx时的两个报错
  5. 第四周项目四-程序分析(4)
  6. 嵌入式Linux系统编程学习之三十线程的同步
  7. 爱情七十一课,低调恋爱
  8. 远播教育集团PHP面试题,远播教育金牌升学规划师陈煜雯:如何规划孩子的升学?【摇号】...
  9. 和孩子们一起学Python编程
  10. Python算法学习教程
  11. win10不自带扫雷,想玩扫雷怎么办?自己造一个扫雷
  12. 互联网+是什么意思?
  13. 木瓜移动再度荣获2022“Google优秀合作伙伴”
  14. css3中-moz、-ms、-webkit,-o分别代表的意思,以及微信浏览器内核分析
  15. openjudge666:放苹果
  16. Google 全国 地图 纠偏数据 偏移数据 超高精度(0.002) (纠偏、偏移、地图、数据)
  17. veracrypt 创建文件型加密卷
  18. ns-3学习手记11_ofswitch13安装教程
  19. for (char c : s)这种循环方式的使用
  20. windows 任务栏桌面消失怎么办

热门文章

  1. Paddle打比赛-古籍文档图像识别与分析算法比赛
  2. postfix连接不上mysql_mysql – Postfix sasl登录失败没有找到机制
  3. 一分钟告诉你究竟DevOps是什么鬼?
  4. Java 通过URL获取页面快照十种方式解读
  5. 查看OracleVMVirtualBox虚拟机的ip地址
  6. mysql高级 tigger触发器 --[2]
  7. Python 通过文本生成词云
  8. Java调用存储过程(返回:简单类型VARCHAR、自定义对象STRUCT、列表数组VARRAY)
  9. 现在电脑有必要安装360或者腾讯电脑管家吗?
  10. NOIP复习篇———贪心