在脸动的时候,在张嘴闭嘴的时候,看起来都像刘德华。可是,很多时候如果产品的定位是这样子,技术永远都不可能做得非常好,为什么呢?人脸的场景,光照条件或者是姿态不一样,就会产生一种烧伤脸的感觉,不会产生很好的效果。但是,像我们,还有国外的一些创业公司,他们的想法就是没有必要把人脸全都换掉,只要利用人脸定位的技术,可以在脸上加一些花卉,有蝴蝶飞,这样即使人脸定位的技术还不是很完美,还有一些抖动的情况,产生出来的视觉效果,还是可以接受的。这是一个典型的例子,需要算法和产品相互结合才能产生没有瑕疵的用户体验。
我最佩服的应该是saha,他们的技术是做算法的和做工程设计的人在一起,一个一个的效果不停地打磨。他们用的人脸的技术,像分割的技术,像s(siuliaadaig,即时定位与地图构建)技术,这些技术都不是完美的。在这种情况下,通过工程师的产品设计,把每一个特效都做的非常有意思,非常酷。
此外,除了考虑用户体验,工业界设计一个产品还会考虑其它方面。比如,当前把视觉,语音和相关的技术用在智能硬件上的时候,可能会想,到底这个产品是不是能满足某种高频的刚需?
我原来在新加坡每年写很多文章,一年写50、60篇的文章都有可能。那时候有一个很明显的特点,在写文章的时候我们会造一个场景,这个场景从用户需求来说,根本就不存在;从写文章的角度来说是有价值的,从产品的角度来说,不一定有价值。工业界还会考虑一款产品用到的技术有没有成熟?比如说家用机器人,可以端茶送水,可以聊天,这是不可能的,技术上还有一个过程。
另外,工业界还会考虑技术成熟了,但有没有壁垒?假设没有技术壁垒的话,今天做一个产品出来,比较前沿的大公司,都有专家团队,你把这个产品做出来立马又失掉了,技术上的壁垒也一定要有。
另外一方面,就是学术界想得最少的:我们做一个场景,一定要有变现的模式。没有一个变现的模式,我们的产品出来了,但是今后挣不了钱,也不可能让这个公司维系下去。这些都是工业界和学术界思考的点不一样的地方。
用四元分析来看学界和工业界的区别
总的来说,学界进行人工智能,深度学习的研究,一直是在追求精度和极限。用四元分析的方法来说就非常有意思,即我们的场景和数据确定了,然后设定一个问题,设定一个数据集,假设有足够多的计算机资源,怎么样设计新的算法,让精度能够达到极限?
我们知道有很多的数据集,比如ia,号称人工智能的世界杯;人脸研究界有lf(bldfasihild,人脸图片的数据库,用来研究不受限的人脸识别问题);在视频领域有美国组织的rvid;语音的话有sihbard。他们共同特点就是:问题和数据都是确定的,用尽量多的计算机资源,去设计不同的算法,最终是希望达到精度的上限。
但是我们不得不承认,这里面很多的成果是没有办法商业化的。为什么?在ia上,假设训练了1000多层的络,把9个或更多络全部合在一起能达成一个很好的精度,在现实的场景下是不可能用这么大的模型和这么多的资源去做一件事情。所以,很多的成果,是假设将来计算能力达到一定的程度,精度能够达到这个上限。
ai研究的另外一个维度是追求用户体验的极限。用四元分析的方法,是把场景和算力固定了。这是什么意思?假设我们要做一个机器人,这个机器人希望它能识别你,这时候场景是确定的。算力确定了是说,这个场景推出的时候,用什么样的芯片和什么样的硬件,其实已经确定了。我们要做的事情是在这样一个确定场景和算力的情况下,怎么样去提升数据和算法,跟具体的应用场景去形成一个闭环,去不断地迭代,去提升它的性能。这跟学术界把场景和数据固定是完全不一样。在这种场景下,可以不停的用收集到的新数据不停提升和优化模型,在数据,算法和场景形成一个闭环。虽然我们能把所有的问题解决,但是在具体的场景下,也有可能逐步地提升它的性能。
————
官方暗号群:550591,嘿嘿快来一起为《别进游戏》搞戏啊!!现在群里已经几百人,谢谢大家的评论支持,我一定继续努力!不出意外每晚6点到9点间准时更新,感谢大家!!
第四十七谈 愿国队夺冠[2/2页]