发布时间:2024-08-01
浏览次数:
近日,朴食科技联合华南理工大学在世界计算机视觉会议上发表论文(CLASS SIZE VARIANCE MINIMIZATION TO METRIC LEARNING FORDISH IDENTIFICATION)论述利用计算机视觉技术处理中餐菜品识别问题,该论文联合署名单位为华南理工大学与广州市派客朴食信息科技有限公司,华南理工大学陈百基副教授为该论文第一作者,朴食科技研究员杨德顺为该论文共同作者。
菜品识别的困难:
菜品识别隶属柔性识别领域,即识别对象形状易发生变化,与一般的识别对象,如人脸识别不同,菜品识别需要根据海量菜品图片“归纳”出菜品特点,要求计算机能理解菜品图像并划分到正确类别;且由于每类的样本数量不多,使用传统方法如DT分类方法、SVM分类方法处理此类问题易出现过拟合的现象,导致识别误差大;并且国际范围内针对菜品识别的研究较少,缺乏借鉴经验。
朴食提出的创新识别方法:
该论文的核心思想是利用海量中餐菜品数据库构建一个矢量空间,将某一食堂的菜品数据投影到该空间中,并使得各种菜在该空间中的距离尽可能互相远离。实际使用时通过距离函数描述待检测菜品图与矢量空间中各菜品种类中心点之间的距离,由此求出待检测菜品的类别。利用该方法可以极大减少食堂菜品图片采集的数量,根据实验表明,每类采集1-3张菜品图片对模型进行更新便可达到98%以上的识别准确率,且随着菜品图片数据量的增加,识别准确率进一步提升。
本论文中朴食科技利用数据库中部分菜品数据(已采集的一千种菜品数据基准),包含一百万张菜品图片,实现了98%准确率的效果。下图是部分采集并裁剪得到的菜品图片。
值得注意的是,本次研究中我们提出了一种带方差约束的三元损失方法,我们的方法不仅会关注样本之间的距离,亦会关注不同类别的类内样本到该类中心点的距离(也就是不同类别的大小/尺寸)。我们的目标函数亦会去最小化不同类别的尺寸差异,从而降低相邻类别之间由于尺寸差异使得距离度量表现差甚至失效的影响。实验结果证明我们的方法优于没有考虑类别尺寸方差的方法。下图展示了类别之间的误分类情况,(a)(c)为传统的triplet loss的结果,(b)(d)为我们的方法的结果,可看出我们的方法使得误分类的情况减少了。
下面是我们的方法(带类别尺寸方差的三元损失)和不带类别尺寸方差的三元损失的对比,在保证Beta较小的情况下,我们的方法对菜品识别的准确率有一定幅度的提升。同时在多个度量标准上也都有所提升,如f1-score、NMI.
未来的应用:
菜品识别使用的识别方法在其它领域,如果蔬识别,面包识别等领域具有借鉴意义,弥补了国内针对食物识别技术的空白。
广州市派客朴食信息科技有限责任公司
400-808-2098
广州市海珠区琶洲大道68号华新中心27楼
packer@pushi2016.com
扫码关注我们
广州市派客朴食信息科技有限责任公司 版权所有 粤ICP备16073659号 sitemap.xml