IT-гигант Google представил функционал в области анализа и классификации изображений, позволяющий определить наличие широкополой шляпы на голове у собаки и ширину полей шляпы.
«Собачий анализатор» позволил Google занять первое место в рамках проводимого в этом году масштабного проекта Imagenet по решению проблем в области визуализации. В своём блоге на понятном тем, кто в теме, языке Google раскрывает суть данной технологии, абстрагируясь от мира дамских шляп в контексте «формирования углублённого понимания функционирования изображений».
Радостную весть поведал программист из Google Кристиан Жегеды (Christian Szegedy), поделившийся деталями технологии с указанием ряда методик, вроде теории Хебба в области нейропсихологии и теории инвариантности масштабов, которые, если вкратце, изучают проблему целостного характера изображений.
В рамках конкурса участникам предстояло проанализировать изображение, описав его максимально подробным образом. Как видно, данный метод позволяет распознать объекты, вроде прыгающей кошки, что очень актуально с учётом интересов Интернет-аудитории. Предложенный командой Google, выступавшей под названием Googlenet, метод носит открытый характер и допускает возможность применения другими специалистами в этой области.
По словам господина Szegedy, реализованная Googlenet модель, использовавшая инфраструктуру Distbelief, помогла успешно справиться с поставленной задачей, позволив более чем вдвое улучшить результаты победителей – первопроходцев в деле идентификации фотографии с изображением фруктов, частично перекрытых соседними объектами, а также шляпы на голове пса.
«Превосходные результаты, полученные в ходе выполнения конкурсных заданий, требуют выхода за рамки описательной концепции «пакета с бирками» с последующим переходом к модели с возможностью описания сложной сцены путём чёткого определения местоположения множества объектов и их идентификации. Примером служат публикуемые материалы, отражающие лучшие результаты работы аналитической модели Googlenet на этапе проверки корректной работы используемой модели анализа изображения».