笔者最近认识的朋友万力博士(主页:https://www.cs.nyu.edu/~wanli/),2009到2015年在纽约大学攻读博士,研究方向神经网络在视觉方面的应用,目前在Google语音组工作。在”机器。算法。人”群里面做了一次精彩分享,这次是他博士研究学习到的东西。题目是Joint Training of Neural Network and Structured Model. 给大家做个总结,确实专业术语比较艰深,不明觉厉的同学收藏吧。
什么是computer vision和vision难在什么地方。博士后期主要是就是做检测:也就是给一个图片。我们要给出什么物体出现在图中,并且给出一个框框来框出物体。这个主要的难度就在于,不知道什么物体(object of interst) 出现(也可以什么物体都没有),和它们都在哪里。
举个例子来说,在1000-class classification 里面,你随便猜测一个标签。猜到的几率是1e-3。但是你在检测,你随便画一个框框,然后说这个是某个物体,你猜对的几率是《1e-6
我认为的理想的模型是一个混合模型:就是神经网络模型+带结构化的模型
这样的话人类知识就可以放进神经网络。这个混合模型的训练套路也是很简单: 1)初始化神经网络 2) 用神经网络的feature来训练后面的模型 3)把后面结构话的模型变为神经网络的layer 4)混合到一起训练。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉