移动网购基于深度网络的时尚视觉搜索绘制时尚世界的地图-科技-财经界

移动网购基于深度网络的时尚视觉搜索绘制时尚世界的地图

发稿时间：2016-04-01 10:29:15 来源：财经界

　我们的故事这样开始，当我们中的一个被给予了相当有趣的一件衣服。（由于文中有大量的Gif图，我们建议你在Wifi环境打开。）

佩斯利衬衫开始的这一切

　　拿着这样一个独特的商品，最开始有两个想法跑到脑子里来。

1、啊
2、什么样的人会穿成这样呢

　　这个可难倒了我们，我们认为虽然肯定有成全上万的聪明人穿着这种衬衫，配合时尚的裤子，搭配的外套，鞋子和包等。很不幸，我们找不到一个伟大的搜索工具去执行查询，关于这件特别的衬衫，替我们发现照片里的人穿着它搭配其他服装。但是可以看到执行相关咨询的潜在效用，我们着手打造一个”时尚视觉搜索引擎”。

　　Robo Bill Cunningham的想法

　　有一个纪录片是关于著名的时尚街拍摄影师坎宁安。他们讲述了一些实例，阐述了比尔的敏锐点能通过很多衣服碎片发现很多微妙的共同的地方。有这样一个实例，他们提到时装设计师是如何的厌恶，当他们在一个季节创造了同一款裙子，比尔在一个插页并列展示了一个早在十年前就很相似的一件衣服。

坎宁安：最初的Pinterest用户

　　毫无疑问，坎宁安对挑剔服装有着不可思议的能力。有人可能想要知道他是如何获得这种能力的。拥有着顶端的天赋，像比尔一样的人在他们整个60年的摄影师职业生涯中一定注意到很多的衣服。有多少衣服呢？假设比尔每年的每一天都工作（这不是一个差劲的假设）并且一天工作8个小时，每个小时拍摄10套服装，这个数字超过一百万。

　　这是个动机的问题：如果我们给一个人工神经网络提出一个相同的服装数量，它是否能学会像坎宁安一样看这个时尚的世界？用一种不夸张的方法来说，我们所建议的训练是用一个神经网络去识别服装的图像并且找到与我们视觉上相似的那些。通过完成创造我们佩斯利衬衫装的查找是个很好的开始。

　　让我们直接到这一步，我们所要做的第一件事就是收集图像数据，大量的图像数据。因为坎宁安已经认识到一件衣服会通过很多方式出现在这个世界上，我们的训练图形中包含的衣服被描述为：穿旧的，未穿旧的，平展的，折叠的，旋转的，前面有一棵树的，在可怕的灯光下的，等等。

　　这是一个庞大的数据管理任务，但是几个月，数千个小时之后，我们最终从各种零售和社交媒体网站中收集和注释了数以百万计的服装图像，所有都被手工标记以及从FIT与Parsons招募进来的实习生手工剪裁的。

　　发现我的产品，而不是图像

　　现在用所有这些数据精心编译，如何构建一个可视化的搜索引擎？具体来说，我们要做的是创建一个函数，将一个产品形象镶嵌在一个距离代表产品相似性的度量空间。这不同于图像的相似性，我们关心的是上述方式中产品呈现出的图像。我们创建这个函数的方法是通过训练我们的神经网络来输出图像的矢量表示，然后我们可以在搜索树上快速查找。

图像相似度（以上，Google）vs. 产品相似性（以下，Thread Genius）

　　我们首先训练我们的神经网络来执行一个分类任务——例如，在这张图片中，哪些服装类别是存在的？因为我们想要我们的孩子成长为一个真正的时尚达人，我们得到了相当具体的类别：蝙蝠袖，斜襟领口，褶饰细节，简章，各种你能说出来的。

我们训练图像的样本

我们的神经网络分类的一个服装的形象

　　通过训练我们的神经网络来完成这项任务，我们已经基本上创建了一个图像的函数并且输出一个向量代表概率分布在一组的形式的类别。到目前为止，我们已经完成了类似的图像并且最终有类似的分布。这已经接近于我们想要的了，但是在图像搜索的情况下，它正是我们想要的。然而，我们的重点是产品搜索，这意味着我们希望图像描绘类似的产品，以结束具有类似的概率分布。

生成训练数据的实例注释任务

　　换句话说，我们需要训练我们的神经网了解，戴在脖子上的Burberry围巾和放在床上的Burberry围巾其实是相同的产品。我们这样做是通过多种方法显示大量的成对产品的图像，并确定每一对产品项目是否相同。

　　完成这个地方，我们准备建立一个可视化搜索引擎。这是我们机器人小男孩比利的镜头。

通过Thread Genius搜索产品

　　卡通画和非服装的输入图像似乎运作的很好……

　　绘制时尚世界的地图

　　现在有一些有趣的东西，像一个时尚的制图者，我们的神经网络有能力绘制出服装产品的世界地图。

机器人比利眼中的世界时尚女装

同样的，男人的时尚世界

　　通过绘制时尚产品的地图，我们可以做一些有趣的实验。例如，对任何两种产品，我们可以找出他们之间的”路径”。也就是说，看起来一连串的相似产品允许我们将两个给定的产品之间的变形。

　　比利梦想的高跟鞋

　　如果你一直关注着科技的世界，你可能听说过谷歌的deepdream项目。概括的说，DeepDream是一种利用深层神经网自动变换成”迷幻”意象。

　　这个起作用是因为一种神经网络的过滤器，通过对神经元组成的图像的梳理。这些神经元当遇到某种视觉特征的时候便激活了。在网络的底部，当他们看到边缘时，就有一些可以激活的神经元；当他们看到毛皮神经元时下一层可能会反过来用那些形成的神经元去刺激。在那之后，才是小猫和小狗。DeepDream 本质上使得一种图像增量转换的方式，试图最大限度地激活选择层中的神经元。

　　酷的事情是当这些作品没有出现在照片中时就不存在了，所以当神经网络看到一部分照片时，这种照片类似于一个它被训练寻找（类似毛皮或狗）的远程功能，DeepDream 将不断的改变它，使它看起来像这样的功能。

　　所以，当我们使用DeepDream在神经网络训练不寻找小狗，小鸟，汽车或房子，而是寻找帆布鞋，粗革皮鞋，离合器及亨利时会发生什么呢？用DJ哈利德的话,让我们看看。

DeepDreaming 与我们神经网络的时尚意识，高帮，帆布鞋有一个很好的外观

Robo Billy 设想出一套改造：注意新牛仔短裤，上衣T恤，和水桶包（同时，浮动的女孩在粉红色的衣服和巨型的脚后跟里）

　　上面这个相当了不起。注意这件外套下的一部分T恤是怎么被发现，但是能够填补袖子和领口的空隙，有效地去除外套。她的衬衫更多的像是露腹短上衣。同样，她的裤子变成了短裤，她的钱包变成了一种类似于水桶的东西。

大面积的肉似乎变成了脸，毛发。

　　人们都穿什么？

　　现在到装备中搜索。对于一个给定的项目，人们通常会创建什么样的衣服？从实施的角度看，我们想做的是通过包含在里面的项目，索引一大堆博客类质量的服装图片。对于每一个项目，我们将以同样的方式”矢量化”,像以前那样我们可以执行包含装备的快速查找。

　　定位到照片中的项目需要训练另一个神经网络去画出相关服装产品中的边界框，幸运的是，我们节省了实习生所需要做的成千上万个影像物，我们已经重复使用训练一个项目定位器。一旦我们有了框架和剪裁出来的项目，我们就离开了相同产品的搜索问题。

　　最终，我们可以回到原来的问题。什么东西搭配那件细条纹衬衫？这是Robo Bill Cunningham认为的。

　　原文：Robo Bill Cunningham: Shazam for Fashion With Deep Neural Networks

　　文章来源36大数据，微信公众号36dashuju 36大数据是一个专注大数据创业、大数据技术与分析、大数

　　据商业与应用的网站。分享大数据的干货教程和大数据应用案例，提供大数据分析工具和资料下载，解决大数据产业链上的创业、技术、分析、商业、应用等问题，为大数据产业链上的公司和数据行业从业人员提供支持与服务。

责任编辑：夏晨风

财经界

猜你喜欢