Подробно о первом прикладном голосовом интерфейсе Siri

Голосовые интерфейсы превращаются из технологической игрушки в прикладной инструмент взаимодействия с электроникой.

Рекламный слоган для голосовой платформы Apple: Ваше желание — приказ для Siri

В 1987 году Apple Computers выпустила короткометраж­ный рекламно-фантасти­ческий фильм, в котором отобразила свое видение ближайшего будущего. Краткий его сюжет: зайдя в свой кабинет, молодой человек раскрывает на столе компьютер с сенсорным экраном, больше напоминающий книгу (а по размеру — MacBook Air 11), и начинает общаться с ним, давая голосовые команды. Компьютер немедленно их выполняет.

По сюжету на дворе сентябрь 2011 года. Предсказание сбылось с опозданием на месяц: в октябре был представлен iPhone 4S, а главная изюминка его — технология Siri. На первый взгляд может показаться, что это просто еще одна система управления голосом, которых уже создано немало. На самом же деле это именно ваш персональный ассистент (или, как его назвала компания Apple, Personal Intelligent Assistant), дающий возможность не просто управлять смартфоном, а фактически общаться с ним.

Siri очень глубоко интегрирована в iOS. Она взаимодействует со всеми системными приложениями. С ее помощью можно путешествовать по Интернету, создавать текстовые заметки и электронные письма, управлять музыкой и контактами, выяснять положение дел на бирже и текущий прогноз погоды, работать с картами местности и многое другое.

Работа с телефоном больше похожа на диалог. Вовсе не нужно запоминать команды, понятные системе. Можно спрашивать так, как будто перед вами человек. Хотите узнать погоду на завтра? Просто спросите: на улице холодно? или: мне надевать плащ? Хотите оставить напоминание на завтра? Скажите об этом Siri.

Даже если вы забудете сообщить системе, о чем именно нужно напомнить, она сама переспросит вас об этом. Спросите: «где я?» — и вы узнаете ваши координаты. Требуется такси? Просто сообщите об этом Siri, и она сделает все остальное сама (к сожалению, такое возможно только в странах, где есть соответствующие сервисы, то есть как обычно — не у нас). И конечно же, Siri можно использовать для такой типичной задачи, как набор текста. Вот оно — будущее, предсказанное четверть века назад.

Не теряется Siri и при совсем уж неожиданных запросах, вроде просьбы рассказать анекдот или признаться в любви. Правда, ответы ее в таких случаях больше похожи на отговорку (подчас шутливую), но, тем не менее, система понимает вопрос и реагирует на него в меру своих возможностей.

На YouTube можно найти занятный видеоролик, в котором два iPhone 4S «разговаривают» между собой. Естественно, через какое-то время диалог скатывается до уровня откровенной ахинеи, но это именно диалог между двумя компьютерами, без участия человека. А там, глядишь, и до прохождения теста Тьюринга недалеко (суть теста в том, что, беседуя с невидимыми собеседниками, вы должны определить, кто из них человек, а кто компьютер, но пока еще ни один компьютер этот тест не прошел). Кстати, Siri — самообучаемая система, дайте ей немного времени, и она будет понимать вас куда лучше.

Не думайте, что все запросы выполняет сам телефон. К сожалению, его возможностей пока для этого недостаточно. Принцип работы Siri в том, что запрос отправляется на удаленные сервера (в «облако» Apple) и обрабатывается уже там. Это требует постоянного подключения к Интернету. Дотошные пользователи уже подсчитали, что даже при очень активном использовании расход трафика не превысит 30—40 Мб в месяц, то есть будет совсем небольшим.

В те страны, где Siri планируют задействовать по-настоящему, iPhone 4S поставляется вместе с пакетами связи, способствующими постоянному нахождению в Сети. Запуская Siri, Apple заключила договоры со многими различными системами, такими как поиск ответов на вопросы Wolfram Alfa, резервация свободных столиков в ресторанах и кафе Open Table, а также сервис MovieTickets.com для получения информации о фильмах, LiveKick для выяснения подробностей о всевозможных мероприятиях и другими.

Для обычного же веб-поиска используются поисковики Google, Bing и Yahoo. Только благодаря такой мощной поддержке и обеспечивается столь изящная работа Siri. Впрочем, с некоторыми запросами справляется и сам iPhone. Например, для набора текста не требуется обращения куда-либо. Для распознавания речи применяются технологии, разработанные компанией Nuance Communications.

Вопреки сложившемуся в Интернете мнению, iPhone 4S вовсе не является лишь несколько доработанной версией предыдущей модели. Можно смело сказать, что это принципиально новый смартфон, исполненный в старой оболочке. Это еще один серьезный шаг к эре Post-PC. Как видим, Apple снова пошла своей дорогой, оставив конкурентов в замешательстве.

Не обошлось и без курьезов: так, Эрик Шмидт, глава совета директоров Google, дабы отвести от своей компании обвинения антимонопольного комитета, представил Siri как очень молодого, но при этом очень опасного конкурента в области интернет-поиска с огромными возможностями. Шмидт явно лукавил: находясь в стадии бета-тестирования, Siri еще не готова к глобальным завое­ваниям. Однако, проявив немного воображения, нетрудно представить себе ее будущее. Прежде всего можно ожидать, что этой технологией оснастят все iOS-устройства, и недалек тот день, когда она придет и на Mac.

Но пока что Siri доступна только на iPhone 4S. Мощностей предыдущих моделей вполне достаточно для обеспечения работы новинки, однако Apple отказалась от поддержки устаревшего оборудования. Отчасти для того, чтобы лишний раз простимулировать продажи iPhone 4S, а отчасти — из-за некоторых технических особенностей аппарата. Дело в том, что у последнего iPhone инфракрасный датчик приближения включен постоянно (при разблокированном экране). На расходе заряда батареи это практически не сказывается, зато смартфон всегда готов к диалогу, отслеживая момент, когда владелец поднесет устройство к лицу, чтобы дать очередную команду (другой способ активации Siri — нажать и несколько секунд удерживать кнопку «Домой»).

Собственно говоря, сама компания Apple не является разработчиком технологии. НИОКР провела фирма Siri — стартап, основанный четырьмя молодыми и очень амбициозными людьми в 2007 году. Будучи выходцами из Центра искусственного интеллекта компании SRI International, корни которой — в Стенфордском университете, Том Грубер, Даг Китлаус, Адам Чейер и Норман Винарски решили превратить свои сугубо лабораторные исследования в прибыльное предприятие.

Понимая, что дальнейшие работы потребуют огромных вложений, начинающие предприниматели стали обходить Кремниевую долину в поисках меценатов. Представленные ими разработки производили должное впечатление, и деньги пусть и не лились рекой, но все же исправно поступали. И вот появились первые результаты, которые не стыдно было представить публике. В Apple App Store вышло приложение для iOS, которое, хоть и казалось не более чем любопытной игрушкой, продемонстрировало возможности Siri. И это не осталось без внимания руководства Apple.

В 2010 году стартап был поглощен, а приложение исчезло из онлайн-магазина — ему уготовили куда более интересную судьбу, чем стать еще одной программой, выставленной на продажу. Оно стало одной из ключевых функций iOS 5. Кстати, изначально разработчики планировали создать версии Siri также и для таких популярных систем, как Android и BlackBerry OS. По понятным причинам эти проекты были свернуты.

В основе Siri — множество сложнейших разработок, корнями уходящих еще в ту эпоху, «когда компьютеры были большими, а программы маленькими». Она объединила в себе несколько различных систем — распознавания голоса, понимания сказанного, поиска наиболее подходящего ответа, составления связного ответа и произнесения этого текста понятным (пусть даже и механическим) голосом.

Всеми этими вопросами ученые и программисты занимались много лет, но более или менее приемлемые результаты стали появляться лишь в начале 90-х годов прошлого века. Ближе к концу столетия на рынок вышли решения, уже пригодные для применения домашними пользователями (впрочем, особого успеха они не имели).

Несмотря на то, что непосредственного участия Apple в разработке самой системы не принимала, она проделала колоссальную работу по направлению множества разрозненных разработок в один поток, слияния их возможностей в одной системе. Собственно говоря, компания исторически именно этим и занимается — берет за основу уже имеющиеся решения и доводит их до ума, делая более дружественными пользователю, удобными в повседневном использовании. А потом подтягиваются конкуренты, предлагающие свои альтернативы. Так же будет и в этом случае.

К сожалению, список языков, поддерживаемых Siri, невелик, — английский, немецкий и французский. Когда появится русский или украинский, остается лишь гадать. Ясно лишь одно — произойдет это не скоро. Да и вообще система плохо адаптирована для наших условий. Так что все свои возможности Siri раскроет только перед тем, кто не просто знает английский, но и обладает более или менее сносным произношением.

Кстати, о произношении: выпущенное недавно первое обновление iOS 5 включило в себя не только исправление некоторых системных ошибок, но и модуль, помогающий Siri разбирать речь австралийцев, акцент которых оказался для нее слишком сложным.

Вам может также понравиться...