В настоящее время компания Google работает над системой аудио-индексации. Первоначально этот проект предназначался только для индексации видеороликов с YouTube, но Google решила расширить его. Вероятно, вскоре аудиопоиск станет таким же обычным делом, как поиск по картинкам.
  
Основная идея довольно проста: все произносимые в видеоролике или аудиозаписи слова распознаются и записываются в базу данных, с которой работает обычный поисковый движок. Вроде бы просто, однако для создания такой базы необходимо достаточно точно выделять речь из фоновых шумов, распознавать слова, произносимые разными людьми с разным акцентом, отделять посторонние звуки от звукоподражаний и от похоже звучащих слов, раздельно распознавать речь одновременно говорящих людей, и т.д., причём всё это должно происходить автоматически, с минимальным контролем со стороны человека.
  
Бета-тестирование аудио-индексации будет проводиться с относительно маленькой базой аудио- и видеозаписей предвыборных речей кандидатов в президенты США. Эти записи были выбраны в качестве пробной базы из-за того, что кандидаты обычно стараются говорить достаточно чётко и громко, и фоновая музыка не заглушает их речь. В случае успешного тестирования база будет расширена, и аудиопоиск будет протестирован на более сложных объектах. В базу вносятся не только все произнесённые слова, но и момент видеоролика или аудиозаписи, когда это слово было произнесено. Пока не очень понятно, как будут выглядеть результаты поиска. Возможно, для видеороликов это будут скриншоты соответствующих кадров, а для аудиозаписей пиктограмма с несколькими распознанными подряд идущими словами под ней.