Сотрудники Массачусетского технологического института разрабатывают принципиально новую технологию каталогизации и машинного поиска изображений.
  
По словам доцента Лаборатории информатики и искусственного интеллекта MIT Антонио Торральбы, он и его коллеги пытаются определить минимальное количество информации для каждого графического изображения, которое позволит (машине или человеку) получить представление о его содержании. Иными словами, речь идёт о по возможности кратком цифровом коде, которым можно было бы представить содержимое картинки.
  
О полноценном представлении говорить не приходится, да и цель состоит в ином: учёные пытаются разработать алгоритм, который позволит автоматически каталогизировать миллиарды изображений во Всемирной сети исходя из их содержания. Это позволит существенно усовершенствовать автоматический поиск изображений, например.
  
Сейчас поисковые системы используют, в первую очередь, название и заголовки самих изображений (тэг alt), но, поскольку пользователи должны ставить этот тэг вручную каждый раз, далеко не у всех изображений такие заголовки есть. Кроме того, как минимум поисковый робот Google исследует текстовое окружение картинки и ведущие на неё ссылки. Расшифровать непосредственно содержание изображений в отрыве от контекста крупнейшие поисковики пока не в состоянии.
  
"Мы пытаемся представить изображения в виде очень короткого кода, - говорит Торральба, - так что если у двух изображений такие коды оказываются похожи, то и сами они, скорее всего, имеют между собой определённое сходство, например, изображают примерно одинаковые объекты примерно в одинаковой конфигурации". Таким образом, если одна картинка снабжена описывающим её содержание названием или тэгом alt, то другие изображения, чьи репрезентные цифровые коды оказываются сходны с кодом первой, по мнению исследователей, будут отображать такие же объекты, что и первая. И тогда термины (названия и понятия), ассоциируемые с первой картинкой, можно экстраполировать на другие, непоименованные, изображения.
  
Чтобы выяснить, насколько мало визуальной информации требуется людям, чтобы распознать предмет на том или ином изображении, Торральба и его сотрудники поступательно снижали разрешение одних и тех же картинок, и проверяли, содержание скольких изображений люди могли распознать на каждом этапе.
  
"Мы можем понять, что изображено на картинках даже когда их разрешение очень мало, поскольку мы многое знаем о самих картинках, - говорит Торральба. - Как правило, человеку достаточно, чтобы разрешение картинки составляло 32 на 32 точки, чтобы распознать её содержание". В свою очередь, миниатюры в поисковике Google имеют размеры 100х100 точек.
  
Даже недорогие цифровые камеры сегодня производят изображения разрешением в несколько мегапикселей, по 24 бита данных на каждый пиксель. Однако Торральба и его соратники придумали математический аппарат, который позволяет сократить объём полезных данных, так что каждое изображение можно представить в виде кода размером в 256-1024 бита, при этом содержимое изображения остаётся хотя бы частично распознаваемым.
  
В результате, с помощью своей системы кодирования, Торральбе и его коллегам удалось представить 12,9 миллионов изображений, скачанных из интернета, в виде массива объёмом всего лишь 600 мегабайтов данных (компакт-диск вмещает до 700, общераспространённые флэш-драйвы - до 4 гигабайт). По словам исследователей, их система весьма неплохо справляется с определением нескольких наиболее распространённых типов объектов - людей, машин, растений и строений. С более "экзотическими" образами она справляется хуже.
  
По словам Торральбы, его исследования по-прежнему находятся на ранних этапах, и что проблемы с определением нечасто встречающихся объектов, скорее всего, будут оставаться всегда.