Голосом, жестом, дотиком

Способи взаємодії з комп’ютерами щодня все альтернативніші.

ASUS EeeTop

Багато років ми спілкувалися із цифровою технікою переважно за допомогою кнопок. Але інженерам просто натискати їх здалося занадто нудно, тому сьогодні стали доступними нові варіанти управління, які кардинально відрізняються від звичних. Напевно, найпоширеніший альтернативний спосіб уведення-виведення інформації — сенсорний.

Сенсорний екран реагує на дотики. Технологій реалізації цієї концепції досить багато (основних способів десять: резистивні, матричні, ємнісні екрани тощо). Одні ґрунтуються на передачі імпульсу, інші — тепла, треті використовують інфрачервоне випромінювання. Але результат один — користувач передає пристрою інформацію безпосередньо дотиком до екрана без застосування клавіатури, миші або іншого маніпулятора. Сьогодні це вже звичний спосіб уведення, широко застосовуваний у мобільних пристроях (клавіатурою оснащуються переважно бюджетні моделі).

Такий підхід дозволив істотно розширити мультимедійні функції «мобілок» за рахунок збільшення площі екрана й значно спростити роботу з ними. Найбільш просунуті екрани вміють реагувати на кілька доторкань одночасно (технологія multi-touch), яка дозволяє з успіхом використовувати в управлінні пристроєм спеціальні жести (особливо вдало така система реалізована в останній моделі iPhone).

Сенсорні екрани використовуються й у ПК, щоправда, аж ніяк не скрізь — проблема у високій ціні великих екранів такого типу й специфіці їхнього застосування. Тож якщо дисплей перебуває у вертикальному положенні, у користувача досить швидко утомлюються руки, а якщо в горизонтальному — руки істотно звужують огляд. Тому в стаціонарних ПК сенсорні технології реалізуються у вигляді різноманітних тачпадів, графічних планшетів та інших допоміжних пристроїв. Приклад комп’ютера з великим сенсорним екраном — моноблок ASUS EeeTop. Це «заточений» під мультимедійні потреби комп’ютер, який можна використовувати як домашній медіа-центр.

Не треба забувати й про те, що технології сенсорного введення широко застосовуються в різноманітних сервісних пристроях — банкоматах, терміналах оплати послуг та інформаційних стендах.

Безконтактне розуміння

Навіть сенсорне введення передбачає контакт рук із пристроєм і, отже, необхідність бути біля нього. А хотілося б управляти комп’ютером на відстані — голосом або жестом.

Про управління жестами ми вже розповідали, тому зупинімося на голосовому введенні — одному з найперспективніших і водночас найменш розвинених методів уведення інформації. Напевно, усі пам’ятають епізод із фільму «Назад у майбутнє-2», коли старий Марті МакФлай приходить додому, вмикає голосовою ­командою телевізор і говорить, які канали треба запустити.

На жаль, така система в її повноцінній реалізації так і залишається фантастикою. Навіть там, де мовне введення реалізоване (голосовий набір номера підтримується багатьма сучасними мобільними телефонами), він зовсім не завжди працює коректно. А під час роботи із ПК голосове введення інформації поширене скоріше як засіб для людей з обмеженими фізичними можливостями. Тож про повноцінну заміну звичних маніпуляторів голосом поки нема чого й говорити. Навіть у своєму революційному продукті — ігровому контролері Microsoft Kinect для консолі XboX 360 — редмондці не змогли реалізувати повноцінної підтримки голосу. Kinect розпізнає тільки найпростіші фрази й поки лише англійською та японською мовами.

Перший пристрій для розпізнавання мовлення з’явився 1952 року (він міг «чути» вимовлені цифри), а вже в 1964-му на ярмарку комп’ютерних технологій у Нью-Йорку компанія IBM представила апарат IBM Shoebox, здатний «розуміти» чітке мовлення. У перших таких системах використовували певні граматичні та синтаксичні правила. Якщо вимовлені слова відповідали записаним у програмі правилам, то система могла визначити, яке слово використовується. Правда, уже тоді почали виникати певні труднощі, до пуття не розв’язані й донині: головна з них — істотна відмінність мовлення від усталених правил мови, через що під час розпізнавання виникає велика кількість помилок.

У сучасних програмах розпізнавання мови використовуються статистичні системи моделювання. Вони за допомогою теорії­­ ймовірності та математичних обчислень здатні ­визначити найімовірніший варіант вимовленої фрази. Джон Гарофоло, працівник інформаційно-технологічної лабораторії Націо­нального інституту стандартів і технологій (США), говорить, що наразі є дві основні моделі, придатні­ для цього, — прихована модель Маркова й модель нейронних мереж. Обидва ці методи ґрунтуються на складних математичних функціях. Принцип їхньої роботи — обробка відомої системі інформації та вилучення з неї прихованих даних за допомогою обчислень. Звичайно, такий підхід також не гарантує стовідсоткового результату: системі, наприклад, не буде від чого відштовхуватися, якщо вона неправильно зрозуміє навіть початкові звуки.

Зрештою все залежить від правильності обробки звукового сигналу: тут корінь усіх проблем, пов’язаних із мовним уведенням інформації. Основна перешкода — індивідуальність голосу й вимови кожної людини. Якщо під час розпізнавання окремих звуків проблем звичайно нема, то під час вимови слів і цілих речень звуки змішуються й накладаються один на одний, через що точність розпізнавання значно зменшується. Не треба забувати й про фонетичні особливості вимови деяких слів, індивідуальну манеру мовлення й шум. У підсумку виходить, що голосові команди треба вимовляти рівним голосом (зміни тембру та інтонації дають багато побічних даних, і відсоток розпізнавання падає), чітко й монотонно, без проковтування закінчень та інших мовних особливостей, бути при цьому на певній відстані від мікрофона, уникаючи сторонніх шумів (чого важко домогтися, скажімо, в офісі). Погане апаратне забезпечення (наприклад, низькоякісний мікрофон) також додає проблем. Позначаються й особливості конкретного програмного забезпечення. Так, диктуючи цілісний текст (скажімо, працюючи з текстовим редактором), треба пам’ятати про те, що розділові знаки однаково доведеться ставити вручну. У найкращому разі для цього є спеціальні голосові команди («кома», «тире») — розпізнавати інтонацію та відповідно до неї розставляти знаки жодна система поки не вміє.

You may also like...