Ученые автоматизировали процесс чтения по губам

Искусственный интеллект читает по губам в несколько раз лучше человека-профессионала

Инженеры создали систему искусственного интеллекта для чтения по губам, которая ошибается в несколько раз реже, чем человек-профессионал.

Разработка пригодится слабослышащим людям, а также может стать основой автоматических переводчиков. Достижение описано в препринте научной статьи, опубликованном на сайте arXiv.org командой во главе с Нандо де Фрейтасом (Nando de Freitas) из Университета Британской Колумбии.

Для миллионов людей чтение по губам – единственный способ «услышать» собеседника. Однако это очень сложная практика. Ею овладевают далеко не все, и даже профессионалы часто допускают ошибки. Поэтому так важно по возможности автоматизировать этот процесс.

Команда де Фрейтаса разработала не одну, а целых три системы искусственного интеллекта, реализующих три этапа одной задачи. Первая нейронная сеть готовила материал для обучения второй.

Просматривая ролики на YouTube, она отбирала те, в которых герои говорят по-английски, а их лица чётко видны.

Затем компьютер выделял на видео движения рта и нарезал короткие ролики, в каждом из которых была показана артикуляция для одной фонемы.

Так 140 тысяч часов необработанного видео превратились в четыре тысячи часов готового материала для обучения, включающего произнесение более 127 тысяч английских слов.

Как сообщается в материале Science, этот набор данных в семь раз превосходит крупнейший из предыдущих аналогов.

Обратите внимание

Он может использоваться для обучения не только данной системы искусственного интеллекта, но и любых других, отмечают разработчики.

Вторая нейронная сеть системы училась распознавать фонемы по клипам, подготовленным первой программой. При этом она учитывала ряд тонкостей, например, тот факт, что артикуляция звука зависит от того, какая фонема ему предшествовала. Наконец, третий компонент складывал из распознанных фонем слова.

После обучения исследователи протестировали своё детище на 37-минутном видео, которое не входило в обучающую выборку. Система верно распознала 59% слов. Предыдущий рекорд составлял всего 33%, а профессионалы угадывали в тех же данных лишь 7% слов.

Последняя цифра может показаться удивительно небольшой, но в реальном разговоре человек ориентируется на контекст и на невербальные сообщения («язык тела»), что повышает эффективность «перевода».

В этом исследовании профессионалы имели доступ только к тем данным, что и нейронная сеть, и, возможно, только поэтому безнадёжно ей проиграли.

Разумеется, 41% ошибок программы – это слишком много для непринуждённой беседы. Но авторы надеются в дальнейшем увеличить эффективность системы. После этого её можно будет использовать не только для помощи слабослышащим людям, но и, например, в автоматических переводчиках.

Источник: https://alev.biz/news/science-news/ai/iskusstvennyj-intellekt-chitaet-po-gubam-v-neskolko-raz-luchshe-cheloveka-professionala/

Нейросеть научилась читать по губам лучше человека

HAL 9000 — компьютер из фильма «2001 год: Космическая одиссея», который умел читать по губам 2001: A Space Odyssey / Metro-Goldwyn-Mayer, 1968

Разработчики из Оксфордского университета создали первую в мире программу, которая распознает речь по губам на уровне целых предложений и делает это намного лучше человека. Ее работа основана на использовании нейросетей и методов глубинного обучения. Научная статья исследователей, которая была подготовлена к конференции ICLR 2017, опубликована в открытом доступе.

Автоматические системы распознавания речи на основе мимики человека имеют большой практический потенциал: они могут быть использованы для создания слуховых аппаратов нового поколения, биометрической идентификации или расследования преступлений.

Поэтому ученые уже много лет пытаются разработать программу для «чтения» по губам, но до сих пор им не удавалось добиться успеха.

Важно

Современные системы распознавания речи на основе мимики хорошо «считывали» отдельные слова и словосочетания, однако они не могли справиться с целыми предложениями.

Авторы нового исследования преодолели это ограничение с помощью программы LipNet, в основе которой лежит использование LSTM-нейросети. Эта нейросеть представляет собой подвид рекуррентных нейросетей, для которых характерно наличие обратной связи.

Ее главная особенность заключается в том, что она способна обучаться долговременным зависимостям.

На практике это означает, что LSTM-нейросеть по умолчанию хранит информацию в течение продолжительного периода времени и способна работать с контекстом в длинных предложениях (подробнее о LSTM и рекуррентных нейросетях вы можете прочитать в нашем материале).

Кроме того, исследователи также использовали специальную сверточную нейросеть (STCNN), которая хорошо справляется с задачей анализа видео, и обучение методом нейросетевой темпоральной классификации (Connectionist Temporal Classification, CTC).

В качестве исходного материала авторы работы взяли базу данных Grid, в которой было собрано более 32 тысяч видеозаписей. На них 13 человек произносили на английском языке предложения, построенные по одинаковому принципу: команда (4) + цвет (4) + предлог (4) + буква (25) + число (10) + наречие (4).

В скобках указано количество вариантов слов для каждой из шести словесных категорий. Разнообразие вариантов обуславливается тем, что разные звуки (например, [p], [b], [m]) во время произношения выглядят почти одинаково, то есть имеют общую визему. Всего каждое предложение имело по 64 тысячи вариантов.

В ходе тренировки LipNet училась следить за губами говорящего на видео, и на основе этого понимать, что он сказал. Программу обучали на 88 процентах выборки, оставшиеся 12 процентов были использованы для проверки ее работы.

Источник: https://nplus1.ru/news/2016/11/08/lips-reading-ai

Алгоритм чтения по губам LipNet распознает текст с точностью 93%

Навыком чтения по губам владеют единицы, большинство людей распознает лишь одно слово из 10.

Созданный оксфордскими учеными машинный алгоритм смог превзойти этот барьер — система LipNet практически в реальном времени расшифровывает текст с беззвучного видеоролика и делает это с высокой точностью.

Однако говорить о революции в расшифровке беззвучной речи пока рано, так как система работает только со специфичным набором данных.

Совет

Ученые из Оксфордского университета при фондовой поддержке знаменитого стартапа DeepMind (создатели алгоритма для игры в го AlphaGo) разработали программу для чтения по губам на основе глубокого обучения.

Алгоритм LipNet расшифровывает сказанное с точностью до 93,4%. Для сравнения средний показатель точности у профессионального чтеца по губам составляет 52,3%, а общий диапазон варьируется от 20% до 60%.

В предыдущих экспериментах максимальная точность алгоритмов составляла 79,6%.

В отличие от других ИИ-систем для чтения по губам, LipNet не изучала отдельные визуальные фонемы, то есть внешний вид губ при произнесении конкретных звуков. Как пишет Quartz, разработка британских ученых обрабатывает предложения целиком и самостоятельно определяет, какая буква соответствует каким мимическим движениям.

Несмотря на внушительные показатели, главный недостаток системы — это ее ограниченность. Ученые использовали строго проработанный набор данных GRID. В этот набор входят 29 000 коротких видеороликов с субтитрами, записанных волонтерами.

Они зачитывают бессмысленные предложения, выстроенные по структуре: командный глагол, цвет, предлог, буква, цифра и наречие. Например: «Установи синий к А четыре, пожалуйста» (set blue by A four please).

При этом глаголов всего четыре, как и цветов.

Читайте также:  Обзор четырех изобретений в области ии, которые переписали историю

Кроме того, люди на видео стоят в анфас под хорошим освещением, что делает процесс угадывания еще более простым. Отсюда можно сделать вывод, что прочитать по губам послание незнакомца с видеоролика на YouTube с почти 100%-ной точностью алгоритм, вероятнее всего, не сможет. С другой стороны, этот факт должен успокоить тех, кто опасается тотальной слежки.

Эксперт из организации OpenAI Джек Кларк считает, что для развития технологий чтения по губам необходимо использовать больше видеороликов с реалистичной обстановкой, обучать ИИ расшифровывать текст даже под углом, а также расширить диапазон доступных фраз. Кларк полагает, что алгоритмы, аналогичные LipNet, рано или поздно появятся и помогут глухонемым людям общаться с другими людьми, а также позволят мгновенно создавать точные субтитры к видеороликам.

Брайан Белендорф готовит вторую цифровую революцию

Альтернативный подход недавно представили российские разработчики. Браслет uSEEband крепится на внутренней стороне ладони и с помощью встроенных сенсоров и программной нейросети распознает 32 буквы русского жестового языка. Таким образом, жесты автоматически преобразуются в текст на экране смартфона.

Источник: https://hightech.fm/2016/11/08/lip_net

Чужие губы: компьютер научился распознавать беззвучную речь лучше человека

21 марта 2017, 21:32

Анастасия Клепнёва

Оксфордский университет заявил о создании искусственного интеллекта, который способен читать по губам. Возможности новой программы уже превысили человеческие: профессиональный чтец по губам отстал от компьютера больше, чем в 4 раза. О том, как разработчики учили компьютер распознавать беззвучную речь, и где пригодится новая разработка, — в материале RT.

Вместе с британским университетом над проблемой работали представители компании DeepMind, которая специализируется на машинном обучении. За компанией числится уже много разработок в этой области, включая развитие технологий, способных распознавать эмоции людей по выражению лица и принимать решения на основе оценки ситуации с моральной точки зрения. 

Обратите внимание

Для того, чтобы научить компьютер распознавать речь по движению губ, разработчики использовали записи телепередач и субтитры к ним. Количество пригодного для задачи материала сильно сократило отсутствие к большинству программ точных субтитров: для выполнения задачи необходимо было три вида данных, которые мог бы сопоставлять компьютер. 

Программа должна была устанавливать соответствие движений на лице говорящего на записи человека, аналогичную звуковую информацию и напечатанный текст. 

Достигли понимания 

После долгого периода разработок (предварительные результаты появлялись уже в ноябре 2016 года) Оксфордские учёные заявили, что искусственный интеллект, способный читать по губам, создать удалось. С помощью автоматического распознавания образов компьютер проанализировал более 5 тыс.

выпусков различных телепрограмм. В совместной работе Оксфорда и DeepMind разработчики использовали новостные передачи BBC Breakfast, Newsnight и аналитическую Question Time. В результате компьютер отследил произнесение более 118 тыс. предложений. Охваченный словарь составил около 17,5 тыс. слов.

 

Чтобы проверить, что усвоил и сможет использовать компьютер, ему показали фильм без звука. Аналогичную задачу — посмотреть фильм без звукового сопровождения и расшифровать речь героев — выполнял профессиональный чтец по губам.

Компьютер превзошёл человека более чем в 4 раза. Искусственный интеллект без ошибок расшифровал 50% текста. В остальном ошибки были незначительные — в пределах одной неправильной буквы, включая нечётко произносимые звуки в конце слов.

Человек с успехом расшифровывал всего 12% текста. 

Проблемы и решения 

Технологией уже заинтересовалась организация Action on Hearing Loss, которая занимается проблемами людей с потерей слуха. Программное обеспечение может помочь слабослышащим лучше ориентироваться в мире вокруг них. В частности, они смогут смотреть телепередачи с высокоточными субтитрами, которые создавались бы в режиме реального времени. 

  • © Кадр из сериала «Обмани меня»

Однако пока большая часть возможных сфер применения подобной функции искусственного интеллекта сводится к улучшению уже существующих методов распознавания речи. 

Так, ещё на этапе первых экспериментов DeepMind сравнила, как искусственный интеллект распознаёт текст раздельно по аудиозаписи и по губам, и что будет, если совместить эти два метода.

Ожидаемо, наиболее точный текст получился при совмещении двух методов анализа. Если продолжать использовать их вместе, можно значительно усовершенствовать создание автоматических субтитров.

Важно

Существующие системы, которые расшифровывают аудиоматериалы, пока допускают значительное количество ошибок. 

Если же расширить словарный запас искусственного интеллекта и совершенствовать технологию дальше, в перспективе можно будет использовать разработку для того, чтобы, например, дублировать старые видеозаписи из архивов, содержание речи в которых неясно.

Выделите её и нажмите «Ctrl + Enter»Подписывайтесь на наш канал в Яндекс.ДзенВидеозапись Высокие технологии Исследование Новые технологии

Источник: https://russian.rt.com/science/article/370709-kompyuter-chtenie-guby-raspoznavanie-rech-iskusstvennyy-intellekt

Нейросеть LipNet читает по губам с точностью 93,4%

Командир Дэйв Боумен и второй пилот Фрэнк Пул, не доверяя компьютеру, решили отключить его от управления кораблём. Для этого они совещаются в звукоизолированной комнате, но HAL 9000 читает их разговор по губам.

Чтение по губам играет важную роль в общении. Ещё эксперименты 1976 года показали, что люди «слышат» совершенно другие фонемы, если наложить неправильный звук на движение губ (см.

“Hearing lips and seeing voices”, Nature 264, 746-748, 23 December 1976, doi: 10.1038/264746a0).

С практической точки зрения чтение по губам — важный и полезный навык.

Можно понимать собеседника не выключая музыку в наушниках, читать разговоры всех людей в поле зрения (например, всех пассажиров в зале ожидания), прослушивать людей в бинокль или подзорную трубу.

Область применения навыка очень широка. Освоивший его профессионал без труда найдёт высокооплачиваемую работу. Например, в сфере безопасности или конкурентной разведке.

У автоматических систем чтения по губам тоже богатый практический потенциал.

Это медицинские слуховые аппараты нового поколения с распознаванием речи, системы для беззвучных лекций в публичных местах, биометрическая идентификация, системы скрытой передачи информации для шпионажа, распознавание речи по видеоряду с камер наблюдения и т.д. В конце концов, компьютеры будущего тоже будут читать по губам, как HAL 9000.

Читайте также:  Инновационная технология: дрон против проблемы обезлесения планеты

Поэтому учёные уже много лет пытаются разработать системы автоматического чтения по губам, но без особого успеха. Даже для относительно простого английского языка, в котором количество фонем гораздо меньше, чем в русском языке, точность распознавания невысока.

Понимать речь на основании мимики человека — сложнейшая задача. Освоившие этот навык люди пытаются распознавать десятки согласных фонем, многие из которых очень похожи внешне. Неподготовленному человеку оcобенно трудно различить пять категорий визуальных фонем (то есть визем) английского языка.

Другими словами, различить по губам произношение некоторых согласных звуков практически невозможно. Неудивительно, что люди очень плохо справляются с точным чтением по губам.

Даже самые лучшие среди инвалидов по слуху демонстрируют точность всего лишь 17±12% из 30 односложных слов или 21±11% из многосложных слов (здесь и далее результаты для английского языка).

Совет

Автоматическое чтение по губам — одна из задач машинного зрения, которая сводится к покадровой обработке видеоряда.

Задача сильно усложняется низким качеством большинства практических видеоматериалов, которые не позволяют точно считывать спатиотемпоральные, то есть пространственно-временные характеристики лица во время разговора. Лица двигаются и поворачиваются в разные стороны.

Последние разработки в области машинного зрения пытаются отслеживать движение лица в кадре, чтобы решить эту проблему. Несмотря на успехи, до последнего времени они были способны распознавать только отдельные слова, но не предложения.

Значительного прорыва в данной области добились разработчики из Оксфордского университета. Обученная ими нейросеть LipNet стала первой в мире, которая успешно распознаёт по губам речь на уровне целых предложений, обрабатывая видеоряд.

Покадровые карты салиентности для английских слов “please” (вверху) и “lay” (внизу) при обработке нейросетью, которая читает по губам, выделяя наиболее привлекающие внимание (салиентные) признаки

LipNet — рекуррентная нейросеть типа LSTM (long short-term memory). Архитектура показана на иллюстрации.

Нейросеть обучали с использованием метода нейросетевой темпоральной классификации (Connectionist Temporal Classification, CTC), который широко используется в современных системах распознавания речи, поскольку с ним отпадает необходимость обучения на наборе входных данных, синхронизированным с правильным результатом.

Архитектура нейросети LipNet.

На входе подаётся последовательность кадров T, которые затем обрабатываются тремя слоями пространственно-временной (спатиотемпоральной) свёрточной нейросети (STCNN), каждый из которых сопровождается слоем пространственной выборки.

Для извлечённых признаков повышается частота дискретизации по временной шкале (апсемплинг), а затем они обрабатываются двойной LTSM. Каждый временной шаг на выходе LTSM обрабатывается двухслойной сетью прямого распространения и последним слоем SoftMax

Обратите внимание

На особом корпусе предложений GRID нейросеть показывает точность распознавания 93,4%. Это не только превышает точность распознавания других программных разработок (которые указаны в таблице ниже), но и превосходит эффективность чтения по губам специально обученных людей.

МетодНабор данныхРазмерВыдачаТочность
Fu et al. (2008) AVICAR 851 Цифры 37,9%
Zhao et al. (2009) AVLetter 78 Алфавит 43,5%
Papandreou et al. (2009) CUAVE 1800 Цифры 83,0%
Chung & Zisserman (2016a) OuluVS1 200 Фразы 91,4%
Chung & Zisserman (2016b) OuluVS2 520 Фразы 94,1%
Chung & Zisserman (2016a) BBC TV >400000 Слова 65,4%
Wand et al. (2016) GRID 9000 Слова 79,6%
LipNet GRID 28853 Предложения 93,4%

Особый корпус GRID составлен по следующему шаблону:

command(4) + color(4) + preposition(4) + letter(25) + digit(10) + adverb(4),

где цифра соответствует количеству вариантов слов для каждой из шести словесных категорий.

Другими словами, точность 93,4% — это всё-таки результат, полученный в тепличных лабораторных условиях. Разумеется, при распознавании произвольной человеческой речи результат будет гораздо хуже. Не говоря уже об анализе данных с реальной вилдеосъёмки, где лицо человека не снимают крупным планом в отличном освещении и с высоким разрешением.

Работа нейросети LipNet показана на демонстрационном видео.

Научная статья подготовлена к конференции ICLR 2017 и опубликована 4 ноября 2016 года в открытом доступе.

Источник: https://se7en.ws/neyroset-lipnet-chitaet-po-gubam-s-tochnost/

Компьютеры делают успехи в чтении по губам

Статья носит новостной характер, она сообщает об исследованиях в сфере обучения машин чтению по губам, и о том, каких результатов уже удалось достичь на сегодняшний день. В статье также рассказывается о сложностях процесса машинного обучения и о неоднозначности перспектив развития у компьютеров такой способности. Губы…

Однажды компьютеры смогут с точностью считывать информацию с наших губ. Следи за тем, что говоришь.

Однажды компьютеры смогут с точностью считывать информацию с наших губ. «Siri», «Alexa» и другие автоматизированные помощники обычно достаточно хорошо понимают те странные вопросы, которые мы им задаём.

И вот, на прошлой неделе в Шанхае, на организованной Институтом инженеров по электротехнике и электронике Международной конференции по акустике и обработке речи и сигналов, были представлены исследования, которые, возможно, смогут помочь компьютерам лучше понимать то, что мы говорим, даже не вслушиваясь в нашу речь.

Такая способность может показаться пугающей перспективой, если будет задействована в дурных целях. «Это конец того (личного) мира, который мы знаем…», — пишет портал «KurzweilAI.net». «Но с другой, более безобидной стороны, усовершенствования в сфере автоматизации чтения по губам могли бы обеспечить лучшее дублирование фильмов», — сообщает журнал «IEEE Spectrum».

Научить машины читать по губам не представляется такой уж легкой задачей. Частично сложность заключается в том, что человеческий рот может принимать до 14 различных форм, не говоря уже о том, что эти формы способны производить около 50 разнообразных звуков. Это значит, что при одной и той же форме, в которой находятся губы, могут произноситься разные звуки (например, звуки «п» и «б»).

Ученые, под руководством Хелен Беар (Helen Bear), специалиста Университета Восточной Англии по теории вычислительных машин и систем, разработали новый алгоритм, помогающий компьютерам лучше распознавать те одинаковые формы рта, которые производят разные звуки. Машины тренировали улавливать разницу между этими звуками с помощью видео- и аудиозаписей 12 человек, произносящих по 200 предложений.

Читайте также:  Виртуальная реальность и искусственный интеллект от facebook

Читайте также  Вирус наносит удар

Компьютер научили вычислять многочисленные звуки, которые соответствуют каждой форме положения губ.

Важно

Следующим шагом, насколько мы могли бы предположить, будет обучение машин копированию каждого слова с вариантами разных звуков (например, определить, как слово было произнесено «pridge» или «bridge») и автоматическая тренировка в распознавании правильного слова.

Результатом является алгоритм, который даёт правильные варианты в 25% случаев, что, как сообщила Хелен Беар журналу «IEEE Spectrum», можно считать успехом. Учитывая что, как показали предыдущие исследования, чтецы по губам верны в 50% случаев, машины не так уж и отстают.

Статья Линдси Краточвилл, опубликована 25 марта, 2016.

А что Вы думаете на этот счет? Ваше мнение буду рада услышать.

Источник: https://uspehmoney.ru/kompyutery-delayut-uspehi-v-chtenii-po-gubam/

Нейросеть научили читать по губам лучше человека

Разработчики из Оксфордского университета создали первую в мире программу, которая распознает речь по губам на уровне целых предложений и делает это намного лучше человека. Ее работа основана на использовании нейросетей и методов глубинного обучения. Научная статья исследователей, которая была подготовлена к конференции ICLR 2017, опубликована в открытом доступе.

Автоматические системы распознавания речи на основе мимики человека имеют большой практический потенциал: они могут быть использованы для создания слуховых аппаратов нового поколения, биометрической идентификации или расследования преступлений.

Поэтому ученые уже много лет пытаются разработать программу для «чтения» по губам, но до сих пор им не удавалось добиться успеха.

Современные системы распознавания речи на основе мимики хорошо «считывали» отдельные слова и словосочетания, однако они не могли справиться с целыми предложениями.

Авторы нового исследования преодолели это ограничение с помощью программы LipNet, в основе которой лежит использование LSTM-нейросети. Эта нейросеть представляет собой подвид рекуррентных нейросетей, для которых характерно наличие обратной связи.

Ее главная особенность заключается в том, что она способна обучаться долговременным зависимостям.

На практике это означает, что LSTM-нейросеть по умолчанию хранит информацию в течение продолжительного периода времени и способна работать с контекстом в длинных предложениях (подробнее о LSTM и рекуррентных нейросетях вы можете прочитать в нашем материале).

Совет

Кроме того, исследователи также использовали специальную сверточную нейросеть (STCNN), которая хорошо справляется с задачей анализа видео, и обучение методом нейросетевой темпоральной классификации (Connectionist Temporal Classification, CTC).

В качестве исходного материала авторы работы взяли базу данных Grid, в которой было собрано более 32 тысяч видеозаписей. На них 13 человек произносили на английском языке предложения, построенные по одинаковому принципу: команда (4) + цвет (4) + предлог (4) + буква (25) + число (10) + наречие (4).

В скобках указано количество вариантов слов для каждой из шести словесных категорий. Разнообразие вариантов обуславливается тем, что разные звуки (например, [p], [b], [m]) во время произношения выглядят почти одинаково, то есть имеют общую визему. Всего каждое предложение имело по 64 тысячи вариантов.

Как показали результаты тестирования, LipNet может правильно распознавать речь по губам в 93,4 процентах случаев.

Таким образом, системе удалось не только обойти другие программы, но и специально обученных людей (их точность распознавания речи достигает 52,3 процентов).

Тем не менее, сами авторы работы отмечают, что условия проверки работы LipNet были весьма «тепличными», при распознавании произвольной человеческой речи результат может быть значительно хуже.

Источник: https://InfoResist.org/neyroset-nauchili-chitat-po-gubam-luchshe-cheloveka/

Google DeepMind AI обходит человеческих экспертов в области чтения по губам

ПодробностиОпубликовано: 24.11.

2016 08:31Автор: Super RomanПросмотров: 2330Программа искусственного интеллекта DeepMind от Google может быть наиболее известной сборкой AplhaGO, которая обошла одного из лучших игроков в Го в мире, но эта технология имеет множество применений в области науки и может оказаться особенно полезной для людей с нарушениями слуха, сообщает ITbukva.

com.

Исследователи из Оксфордского университета и DeepMind объединились, чтобы создать систему искусственного интеллекта, используя 5000 часов видео BBC, которые содержали 118 000 предложений. Ей удалось превзойти профессионального читателя по губам, который предоставляет услуги для британских судов.

После показа случайной выборки из 200 видео из передач BBC, человек, читающий по губам, смог расшифровать меньше четверти произносимых слов. Но когда система ИИ была протестирована с использованием того же набора данных, она расшифровала почти половину слов и могла создать целые сложные фразы.

Кроме того, машина смогла аннотировать 46 процентов слов без ошибок, в то время как профессионалу удалось только около 12 процентов. Большинство ошибок ИИ были незначительными, как отсутствие 'S' в конце слов.

Обратите внимание

Две недели назад еще одна система глубокого обучения, которая может читать по губам, была разработана в Оксфордском университете. LipNet также был в состоянии победить человека в точном чтении по губам, хотя набор данных GRID, используемый в данном случае, содержал только 51 уникальное слово, в то время как данные BBC содержат почти 17 500, в соответствии с New Scientist.

GRID используется в хорошо освещенных видео людей, стоящих перед камерой и читающих слова длительностью три секунды. После показа ИИ 29 000 видео, он имел частоту ошибок лишь 6,6 процента, в то время как люди, которые были протестированы с использованием 300 подобных видео, имели средний коэффициент ошибок 47,7 процента.

Исследователи говорят, что система могла бы найти применение в мобильных технологиях, виртуальных помощниках, а также для задач распознавания речи. Она может быть также оказать неоценимую помощь глухим и людям с нарушениями слуха в понимании других.

«Машина, которая может читать по губам, открывает множество приложений: диктовать инструкции или сообщения на телефон в шумной среде; транскрибировать архивные немые фильмы, распознавать одновременную речь нескольких человек, а также улучшить производительность распознавания автоматизированной речи в целом», — пишут исследователи в своей статье.

Latest video

Понравилась новость? Поделись ею

Источник: https://ITbukva.com/soft/14634-google-deepmind-ai-obkhodit-chelovecheskikh-ekspertov-v-oblasti-chteniya-po-gubam.html

Ссылка на основную публикацию