Карпов Алексей Анатольевич - Диссертации

Научная тема: «АУДИОВИЗУАЛЬНЫЕ РЕЧЕВЫЕ ИНТЕРФЕЙСЫ В АССИСТИВНЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЯХ»

Специальность: 05.13.11

Год: 2013

Основные научные положения, сформулированные автором на основании проведенных исследований:

Концептуальная модель универсальной ассистивной информационной технологии с аудиовизуальными пользовательскими интерфейсами на основе многомодального распознавания речи, синтеза аудиовизуальной речи и элементов русского жестового языка, бесконтактного человеко-машинного взаимодействия.
Метод объединения аудио- и видеоинформации в процессе многомодального распознавания речи, отличающийся применением асинхронных вероятностных моделей с индивидуальными весами информативности модальностей речи в моделях, позволяет при распознавании учитывать временное рассогласование (асинхронность) потоков соответствующих единиц звучащей и видимой речи, характерное для речеобразования.
Система аудиовизуального распознавания русской речи, объединяющая модели, методы и программные средства анализа аудиосигнала и автоматического чтения речи по губам говорящего, повышает точность распознавания русской речи и робастность к шумам в диалоговых системах с речевым интерфейсом.
Универсальный многомодальный интерфейс и система аудиовизуального синтеза элементов русского жестового языка и речи по тексту, объединяющая "говорящую голову", обеспечивающую синтез русской речи, и виртуальную модель человека ("жестовый аватар"), выполняющую видеосинтез динамических жестов, обеспечивает аудиовизуальный вывод текстовой информации посредством генерации речи, артикуляции губ аватара и элементов русского жестового языка как для обычных пользователей, так и для глухих и незрячих людей.
Многомодальный человеко-машинный интерфейс и система для бесконтактной работы с компьютером, отличающаяся интегрированием методов, алгоритмов и программных средств автоматического распознавания речи и машинного зрения, обеспечивает управление графическим интерфейсом компьютера без использования рук посредством голосовых команд и движений головы оператора.

Список опубликованных работ

В международных научных журналах

1.Karpov, A. ICANDO: Low Cost Multimodal Interface for Hand Disabled People / A.Karpov, A.Ronzhin // Journal on Multimodal User Interfaces.– 2007.– Vol. 1, N 2. – pp. 21-29.

2.Karpov, A. Information Enquiry Kiosk with Multimodal User Interface / A.Karpov, A.Ronzhin // Pattern Recognition and Image Analysis. – 2009. – Vol. 19, N 3. – pp. 546-558.

3.Karpov, A. A Multimodal Framework for the Communication of the Disabled / S.Argyropoulos, K.Moustakas, A.Karpov, O.Aran, D.Tzovaras, T.Tsakiris, G.Varni, B.Kwon // Journal on Multimodal User Interfaces. – 2008.– Vol.2, N 2 – pp.105-116.

4.Karpov, A. Russian Voice Interface / A.Ronzhin, A.Karpov // Pattern Recognition and Image Analysis. – 2007. – Vol. 17, N 2. – pp. 321-336.

5.Karpov, A. Automatic Fingersign to Speech Translation System / M.Hruz, P.Campr, E.Dikici, A.Kindirouglu, Z.Krnoul, Al.Ronzhin, H.Sak, D.Schorno, L.Akarun, O.Aran, A.Karpov, M.Saraclar, M.Zelezny // Journal on Multimodal User Interfaces. – 2011. – Vol. 4, N 2. – pp. 61-79.

6.Karpov, A. Multi-lingual Fingerspelling Recognition in a Handicapped Kiosk / A.Kindiroglu, H.Yalcın, O.Aran, M.Hruz, P.Campr, L.Akarun, A.Karpov // Pattern Recognition and Image Analysis. – 2011. – Vol. 21, N 3. – pp. 402-406.

7.Karpov, A. Automatic Recognition of Fingerspelling Gestures in Multiple Languages for a Communication Interface for the Disabled / A.Kindiroglu, H.Yalcın, O.Aran, M.Hruz, P.Campr, L.Akarun, A.Karpov // Pattern Recognition and Image Analysis. – 2012. – Vol. 22, N 4. – pp. 527-536.

8.Karpov, A. Modeling of pronunciation, Language and Nonverbal Units at Conversational Russian Speech Recognition / I.Kipyatkova, A.Karpov, V.Verkhodanova, M.Zelezny // International Journal of Computer Science and Applications. – 2013. – Vol. 10, N 1. – pp. 11-30.

9.Karpov, A. Large vocabulary Russian speech recognition using Syntactico-statistical Language Modeling / A.Karpov, K.Markov, I.Kipyatkova, D.Vazhenina, A.Ronzhin // Speech Communication. – 2013, http://dx.doi.org/10.1016/j.specom.2013.07.004

В ведущих российских журналах из перечня ВАК Минобрнауки РФ

10.Карпов, А.А. Когнитивные исследования ассистивного многомодального интерфейса для бесконтактного человеко-машинного взаимодействия / А.А.Карпов // Информатика и ее применения. – 2012. – Т. 6, N 2. – С. 77-86.

11.Карпов, А.А. Машинный синтез русской дактильной речи по тексту / А.А.Карпов // Научно-техническая информация. Серия 2: Информационные процессы и системы. – 2013. – N 1. – С. 20-26.

12.Карпов, А.А. Ассистивные информационные технологии на основе аудиовизуальных речевых интерфейсов / А.А.Карпов // Труды СПИИРАН. – 2013. – Вып. 27. – С. 114-128.

13.Карпов, А.А. Автоматическое распознавание аудиовизуальной русской речи с применением асинхронной модели / А.А.Карпов // Информационно-измерительные и управляющие системы. – 2010. – Т. 8, N 7. – С. 91-96.

14.Карпов, А.А. Аудиовизуальный речевой интерфейс для систем управления и оповещения / А.А.Карпов // Известия ЮФУ. Технические науки. – 2010. – N 3. – С. 218-222.

15.Карпов, А.А. Компьютерный анализ и синтез русского жестового языка / А.А.Карпов // Вопросы языкознания. – 2011. – N 6. – С. 41-53.

16.Карпов, А.А. ICanDo: Интеллектуальный помощник для пользователей с ограниченными физическими возможностями / А.А.Карпов // Вестник компьютерных и информационных технологий. – 2007. – N 7. – С. 32-41.

17.Карпов, А.А. Разработка компьютерной системы “говорящая голова” для аудиовизуального синтеза русской речи по тексту / А.А.Карпов, Л.И.Цирульник, М.Железны // Информационные технологии. – 2010. – Т. 9, N 8. – С. 13-18.

18.Карпов, А.А. Методология оценивания работы систем автоматического распознавания речи / А.А.Карпов, И.С.Кипяткова // Известия вузов. Приборостроение. – 2012. – Т. 55, N 11. – С. 38-43.

19.Карпов, А.А. Многомодальные ассистивные системы для интеллектуального жилого пространства / А.А.Карпов, Л.Акарун, Ал.Л.Ронжин. // Труды СПИИ-РАН. – 2011. – Вып. 19. – С. 48-64.

20.Карпов, А.А. Разработка бимодальной системы аудиовизуального распознавания русской речи / А.А.Карпов, A.Л.Ронжин, Б.М.Лобанов, Л.И.Цирульник, М.Железны // Информационно-измерительные и управляющие системы. – 2008. – Т. 6, N 10. – С. 58-62.

21.Карпов, А.А. Формализация лексикона системы компьютерного синтеза языка жестов / А.Карпов, И.А.Кагиров // Труды СПИИРАН. – 2011. – Вып. 16. – С. 123-140.

22.Карпов, А.А. Сравнительный анализ функциональности прототипов интеллектуальных пространств / Ал.Л.Ронжин, А.А.Карпов // Труды СПИИРАН. – 2013. – Вып. 24. – С. 277-290.

23.Карпов, А.А. Проектирование интерактивных приложений с многомодальным интерфейсом / А.Л.Ронжин, А.А.Карпов // Доклады ТУСУР. – 2010. – N 1(21). – С. 124-127.

24.Карпов, А.А. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи / И.С.Кипяткова, А.А.Карпов // Информационно-управляющие системы. – 2010. – N 4(47). – С. 2-8.

25.Карпов, А.А. Моделирование речевых сбоев в системах автоматического распознавания речи / В.О.Верходанова, А.А.Карпов // Вестник Томского государственного университета. – 2012. – N 363. – С. 10–15.

26.Карпов, А.А. Количественный анализ лексики русского WordNet и Викислова-рей/ А.В.Смирнов, В.М.Круглов, А.А.Крижановский, Н.Б.Луговая, А.А.Карпов, И.С.Кипяткова // Труды СПИИРАН. – 2012. – Вып. 23. – С. 231-253.

27.Карпов, А.А. Исследование многомодального человеко-машинного взаимодействия на базе информационно-справочного киоска / A.Л.Ронжин, А.А.Карпов // Информационно-измерительные и управляющие системы. – 2009. – Т. 7, N 4. – С. 22-26.

28.Карпов, А.А. Сравнение методов локализации пользователя многомодальной системы по его речи / А.Л.Ронжин, А.А.Карпов // Известия вузов. Приборостроение. – 2008. – Т. 51, N 11. – С. 41-47.

29.Карпов, А.А. Мультимодальный человеко-машинный интерфейс в медицинских приложениях / С.Э.Чернакова, А.А.Карпов, А.И.Нечаев, А.Л.Ронжин // Мехатроника, автоматизация, управление. – 2008. – N 11. – С. 32-37.

Монографии, главы в книгах, учебные пособия

30.Карпов, А.А. Автоматическая обработка разговорной русской речи / И.С.Кипяткова, А.Л.Ронжин, А.А.Карпов. – СПб.: ГУАП, 2013. – 314 c.

31.Карпов, А.А. Речевой и многомодальный интерфейсы / А.Л.Ронжин, А.А. Карпов, И.В.Ли. – Информатика: неограниченные возможности и возможные ограничения. – М.: Наука, 2006. – 173 с.

32.Karpov, A. Two SIMILAR Different Speech and Gestures Multimodal Interfaces / A.Karpov, S.Carbini, A.Ronzhin, J.E.Viallet; D.Tzovaras (Ed.). – In: Multimodal User Interfaces: From Signals to Interaction (Chapter 7). – Germany: Springer, 2008. – pp. 155-184.

33.Карпов, А.А. Проектирование речевых интерфейсов для информационно-управляющих систем: учебное пособие / А.А.Карпов, И.С.Кипяткова, А.Л.Ронжин. – СПб: ГУАП, 2012. – 76 с.

В трудах ведущих международных конференций

34.Karpov A., Kipyatkova I., Ronzhin A. Very Large Vocabulary ASR for Spoken Russian with Syntactic and Morphemic Analysis. In Proc. 12th International Conference INTERSPEECH-2011, Florence, Italy, 2011, pp. 3161-3164.

35.Karpov A., Ronzhin A., Markov K., Zelezny M. Viseme-Dependent Weight Optimization for CHMM-Based Audio-Visual Speech Recognition. In Proc. INTERSPEECH-2010, Makuhari, Japan, 2010, pp. 2678-2681.

36.Karpov A., Tsirulnik L., Krnoul Z., Ronzhin A., Lobanov B., Zelezny M. AudioVisual Speech Asynchrony Modeling in a Talking Head. In Proc. INTERSPEECH-2009, Brighton, UK, 2009, pp. 2911-2914.

37.Karpov A., Ronzhin A., Kipyatkova I., Ronzhin Al., Akarun L. Multimodal Human Computer Interaction with MIDAS Intelligent Infokiosk. In Proc. 20th Intern. Conference on Pattern Recognition ICPR-2010, Istanbul, Turkey, 2010, pp. 3862-3865.

38.Karpov A., Krnoul Z., Zelezny M., Ronzhin A. Multimodal Synthesizer for Russian and Czech Sign Languages and Audio-Visual Speech. In Proc. 15th International Conference on Human-Computer Interaction HCI International-2013, Springer LNCS 8009, Las Vegas, Nevada, USA, 2013, pp. 520-529.

39.Karpov A., Ronzhin A., Kipyatkova I. An Assistive Bi-Modal User Interface Integrating Multi-Channel Speech Recognition and Computer Vision. In Proc. HCI In-ternational-2011, Springer LNCS 6762, Orlando, USA, 2011, pp. 454-463.

40.Karpov A., Carbini S., Ronzhin A., Viallet J.E. Two Different SIMILAR Speech and Gestures Multimodal Interfaces. In Proc. 16th European Signal Processing Conference EUSIPCO-2008, EURASIP Association, Lausanne, Switzerland, 2008.

41.Karpov A., Ronzhin A., Kipyatkova I. Designing a Multimodal Corpus of AudioVisual Speech using a High-Speed Camera. In Proc. 11th IEEE International Conference on Signal Processing ICSP-2012, Beijing, China, 2012, pp. 519-522.

42.Karpov A., Zelezny M. Towards Russian Sign Language Synthesizer: Lexical Level. In Proc. 5th International Workshop on Representation and Processing of Sign Languages at LREC-2012, Istanbul, Turkey, 2012, pp. 83-86.

43.Karpov A., Ronzhin A., Kipyatkova I., Zelezny M. Influence of Phone-viseme Temporal Correlations on Audiovisual STT and TTS Performance. In Proc. 17th International Congress of Phonetic Sciences ICPhS-2011, Hong Kong, 2011, pp. 1030-1033.

44.Ronzhin A., Karpov A., Kipyatkova I., Zelezny M. Client and Speech Detection System for Intelligent Infokiosk. In Proc. 13th Intern. Conference on Text, Speech and Dialog TSD-2010, Springer LNAI 6231, Brno, Czech Republic, 2010, pp. 560-567.

45.Karpov A., Ronzhin A., Leontyeva A. A Semi-automatic Wizard of Oz Technique for Let’sFly Spoken Dialogue System. In Proc. TSD-2008, Springer LNAI 5246, Brno, Czech Republic, 2008, pp. 585-592.

46.Aran O., Campr P., Hruz M., Karpov A., Santemiz P., Zelezny M. Sign-language-enabled Information Kiosk. In Proc. 4th Summer Workshop on Multimodal Interfaces eNTERFACE-2009, Orsay, France, 2009, pp. 24-33.

47.Karpov A., Ronzhin A. Russian Speech Recognition Model with Morphemic Analysis and Synthesis, In Proc. 19th International Congress on Acoustics ICA-2007, Madrid, Spain, 2007.

48.Kipyatkova I., Karpov A. Lexicon Size and Language Model Order Optimization for Russian LVCSR, In Proc. 15th International Conference on Speech and Computer SPECOM-2013, Springer LNAI 8113, Pilsen, Czech Republic, 2013, pp. 219-226.

49.Karpov A., Tsirulnik L., Zelezny M., Krnoul Z., Ronzhin A., Lobanov B. Study of Audio-Visual Asynchrony of Russian Speech for Improvement of Talking Head Naturalness. In Proc. SPECOM-2009, St. Petersburg, Russia, 2009, pp. 130-135.

Патенты и свидетельства о госрегистрации программ для ЭВМ и баз данных

50.Карпов, А.А. Многомодальный подвижный автомат информационного самообслуживания / А.Л. Ронжин, В.Ю. Будков, М.В. Прищепа, А.А. Карпов. – Патент на полезную модель N 108172 от 10.09.2011.

51.Карпов, А.А. Универсальная компьютерная система аудиовизуального синтеза русской звучащей речи и языка жестов по тексту / А.А. Карпов. – Свидетельство о государственной регистрации ПрЭВМ N 2012618286 от 12.09.2012.

52.Карпов, А.А. Компьютерная программа для синхронизации, захвата и объединения аудиовизуальных модальностей речи - RusAVSpeechRecorder / А.А. Карпов. – Свидетельство о гос. регистрации ПрЭВМ N 2011611037 от 28.01.2011.

53.Карпов, А.А. Мультимедиа корпус аудиовизуальной русской речи – RusAVSpeechCorpus / А.А. Карпов, А.Л. Ронжин, И.С. Кипяткова. – Свидетельство о государственной регистрации базы данных N 2011620085 от 28.01.2011.

54.Карпов, А.А. Многомодальный пользовательский интерфейс для бесконтактного управления компьютером (ICANDO) / А.А. Карпов, А.Л. Ронжин. – Свидетельство о государственной регистрации ПрЭВМ N 2008611031 от 26.02.2008.