?

Log in

No account? Create an account

rauf


Блог Алиева Рауфа

О жизни и о себе


Previous Entry Поделиться Флаг Next Entry
Голосовое управление
rauf
почему-то сейчас все IT-компании создать "очеловеченные" устройства -- Взять те же устройства голосового ввода.

Сегодня в компьютерре прочитал, что в будущем клавиатуры могут быть заменены голосовым управлением.

Я с этим не согласен, и попробую объяснить почему. Голос является очень избыточным и средством обмена информацией. Избыточность во всем -- в эмоциях,в длительности простейших фраз и команд, в шумах и прочее. Точнее, избыточностью это называть не совсем правильно -- она подразумевает представление одной и той же информации разным образом в одном потоке. А тут передача простой информации предельно сложным образом. Меня всегда умиляет сцена, когда в фантастическом фильме два робота общаются между собой на синтезированном английском. Им, наверное, процессорные мощности девать некуда, чтобы сначала синтезировать речь, а потом ее распознавать.
Но, правда, в таком случае задача упрощена -- синтез все же ведется по
формальным законам, а не хаотично, как в случае живой речи.

Управление голосом, возможно, подойдет разве что инвалидам по зрению для упрощения управления бытовой техникой. Для всех остальных -- это только
усложнит работу.

УСТРОЙСТВА ВВОДА

Стремиться нужно к тому, чтобы управлять устройством как можно большим
числом доступных средств. Клавиатура расширяет возможности управления
-- кнопки можно нажимать одновременно или последовательно. А вот мышь уже предполает четкую обратную связь. Если в пору ранней юности, я тестировал компьютеры РАДИО 86РК тем, что без телевизора набирал на ассемблере "на ощупь" программку, выдающую на экран код 7 в цикле, то бишь "бип", то мышью "на ощупь" пользоваться уже можно исключительно отслеживая поведение курсора.

Например, сейчас, когда я уже больше года работаю под Linux, я все дальше и дальше ухожу от мыши в область клавиатурного ввода. Почему? Потому что время между идеей и ее воплощением снижается -- подумал запустить CDPLAYER, Ctrl-Alt-L, cdplayer, [enter] -- и он уже играет. На это все не более 4 сек.

Почта -- вся на клавиатурном управлении. Да, этому надо учиться. Но зато оно "откликается" бОльшей производительностью. Так вот, движение в сторону голосового ввода -- это движение к меньшей производительности. Получится неплохая игрушка.

То есть если сделать операционную систему, в которой клавиатурный ввод был бы продуман до мелочей, то она была бы весьма удобной. В Linux не всегда он достаточно продуман -- программы имеют разные интерфейсы. Более того, каждый настраивает под себя.

Голосовое управление на телефонах введено уже года 4 назад, как помнится, в Филипсе видел впервые, у iaabb. Все им пользуются исключительно для "понта", а не для реальной работы. Оно неудобно. Намного проще подержать секунды две кнопку "1", чем с третьей попытки докричаться по имени.


  • 1
Рауф, ты, как всегда, всё передергиваешь.
Идею клавиатурного ввода тоже можно довести до абсурда, но вряд ли тебе кто-то будет за это благодарен, хотя учить придётся много всего. Сделать комбинации клавиш для 50 стандартных программ, которые позволят _одним_ нажатием выполнить любое действие в системе. Голосовой ввод неудобен, может быть, для какой-то структурной передачи информации. Например, для писания программы. Да и то, только на сегодняшнем уровне визуализации. Одно время программы, помнится, дырками писали в бумажках. Потом через клавиатуру, а сегодня уже - хоть мышкой. А попытайся ты вбивать тексты с той скоростью, с которой они произносятся человеком, так ты просто не успеешь.

А про реальную работу, так и мышкой для реальной работы пользовались тоже не сразу. Может быть, поначалу даже "для понта". Но не важно. Сказать голосом имя абонента удобнее и естественнее, чем держать две секунды кнопку "1". Или "2". А то, что телефоны сегодня распознают речь недостаточно хорошо - так это проблема только сегодняшних телефонов.

p.s. а если тебе интересна система, в которой клавиатурный ввод продуман до мелочей, то добро пожаловать в ms-dos. хотя и mac os x с ним тоже всё хорошо.

В ms-dos как раз с ним хуже некуда. В *nix еще куда ни шло -- хотя локали и виды терминалов только усложняют дело.

А голосом все равно кривовато выходит -- даже в случае с телефонами. Ну вот ты себя представляешь в шумном потоке машин кричащим в телефон (это чтобы уровень твоего голоса был выше уровня окружающего шума) имя того, кому звонишь. При этом понятное дело, всегда будут варианты (всегда!), когда телефон не сможет опознать. Будет, разумеется, лучше, но всегда останется процентов сколько-то, что не опознает. Так вот, что теперь, второй раз орать? Единственное, что изменится -- над этим перестанут прикалываться :) сейчас это выглядит смешно -- как человек несколько раз подряд пытается докричаться до телефона, давно бы номер набрал :)

уровень голоса, уровень шума... Это всё уже решено 1000 и 1 раз. Просто к тому моменту в телефоны начнут ставить нормальные микрофоны, например, как в гарнитурах Plantronics. И никакого шума не будет. А вероятность "нераспознавания" голоса всё равно будет такая же, как при разговоре с другим человеком. Возможно, это будет решено более длинными фразами, с уточнениями, которые при обычной беседе были бы "контекстом". Да и вероятность того, что в телефоне не будет кнопок, которые будут принесены в жертву миниатюризации, тоже очень высока. Так что забудь. Клавиатура - высокотехнологичное средство ввода, неудобное для обычного человека.

Ну смотри - вот PDA в наручные часы помещают -- что, удобно стало? А ведь до хрена уже сделали, и CASIO, и SONY, и еще примеров, если поискать -- много. Но это всего лишь потенция этих компаний делать что-то высокотехнологичное, чтобы потом сделать с учетом набранного опыта нечно удобное. То же и телефоны. Гораздо легче сделать удлиненный во весь корпус дисплей, сенсорную полоску справа по которой водишь пальцем и на дисплее алфавитный списочек с фамилиями, телефонами и, возможно, фотографиями скроллется на нужную фамилию. Тут сразу же удобство прямого позиционирования (я знаю, что на С фамилия начинается где-то с 3/4 полоски и там надо поводить пальцем вверх-вниз, чтобы точно попасть) и удобство графической навигации...

  • 1