Научная тема: «МОДЕЛИ И МЕТОДЫ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ НЕСТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ НА ОСНОВЕ БАЗЫ ЗНАНИЙ ОНТОЛОГИЧЕСКОГО ТИПА»
Специальность: 05.25.05
Год: 2014
Отрасль науки: Технические науки
Основные научные положения, сформулированные автором на основании проведенных исследований:
В диссертации разрабатывается система моделей и алгоритмов, направленных на комплексное решение задачи применения знаний о языке и о мире для улучшения качества автоматической обработки текстов в приложениях информационного поиска.

Предложена новая формализованная модель базы знаний онтологического типа - лингвистической онтологии, предназначенной для использования в автоматической обработке текстов в широких предметных областях. Модель основывается на сочетании принципов трех различных методологий разработки компьютерных ресурсов:

  • методологии разработки традиционных информационно-поисковых тезаурусов;
  • методологии разработки лингвистических ресурсов типа WordNet;
  • методологии создания формальных онтологий.

Предложенная модель позволяет в короткие сроки создавать онтологические ресурсы в неструктурированных предметных областях. Особенностью предлагаемого подхода к описанию предметной области является то, что создаваемые предметно-ориентированные базы знаний направлены на эффективное применение в различных задачах информационного поиска, что показано в целом ряде вычислительных экспериментов.

Предложена модель представления тематической структуры текстов на основе согласованного учета свойств лексической и глобальной связности текста. Предложен и реализован алгоритм автоматического построения тематического представления содержания текстов, которое моделирует основное содержание текста посредством выделения тематических узлов - совокупностей близких по смыслу понятий текста.

Предложен метод концептуального индексирования документов для информационно-поисковой системы, базирующийся на знаниях, описанных в предметно-ориентированной базе знаний, и построенном тематическом представлении документов.

Предложен и реализован алгоритм автоматического разрешения лексической многозначности на основе знаний, сочетающий информацию о локальном и глобальном контексте употребления многозначного слова. Метод разрешения многозначности базируется на совокупности различных контекстных признаков и для нахождения их оптимальной комбинации был использован численный метод координатного спуска.

Предложен и реализован алгоритм автоматической рубрикации документов, основанный на использовании тематического представления документов и описании рубрик в виде булевских выражений над понятиями лингвистической онтологии, и способный обрабатывать тексты различных типов (официальные документы, сообщения информационных агентств, газетные статьи). Система рубрикации легко настраивается на новый рубрикатор и новые типы текстов, рубрицирование можно осуществлять сразу по нескольким рубрикаторам. На основе предложенного метода было реализовано более 20 систем автоматической рубрикации текстов с количеством тематических рубрик от 35 до 3000. Возможности быстрой настройки системы рубрикации на новый рубрикатор и достигаемый при этом высокий уровень качества рубрикации был продемонстрирован на Российском семинаре по информационному поиску РОМИП в 2007 и 2010 гг1.

Предложен и реализован алгоритм автоматического многошагового построения булевского выражения по длинному поисковому запросу на естественном языке, включающий расширение запроса по тезаурусным отношениям, подтвержденным поисковой выдачей. Для обеспечения устойчивости обработки длинного поискового запроса метод построения булевских выражений используется в сочетании с совокупностью различных признаков запроса, документа и коллекции, и для нахождения оптимальной функции соответствия между запросом и документом был использован численный метод координатного спуска.

Предложен и реализован метод автоматического аннотирования отдельного документа, который базируется на тематическом представлении содержания текстов, что позволяет повысить связность создаваемой аннотации. Реализованная система автоматического аннотирования одного документа получила наилучший результат в одной из номинаций на конференции SUMMAC в 1998 г.2Предложен и реализован метод автоматического аннотирования новостного кластера на основе тематического представления кластера и моделировании лексической связности. Показано, что предложенная модель позволяет значительно улучшить связность порождаемой аннотации, а также снизить повторы информации, ухудшающие восприятие порожденного текста человеком.

Предложена и обоснована многофакторная модель извлечения терминов предметной области из текстов. Реализован новый метод автоматизированного извлечения терминов предметной области для пополнения предметно-ориентированной базы знаний. Метод основывается на вычислении для языковых выражений трех типов статистических характеристик:

  • характеристик, вычисленных на основе текстовой коллекции предметной области,
  • характеристик, вычисленных на основе поисковой выдачи глобальных поисковых систем,
  • характеристик, вычисляемых на основе известных терминов предметной области, что очень важно для пополнения предметно-ориентированной базы знаний, учета появляющихся новых терминов в развивающейся предметной области. Для нахождения оптимальной комбинации статистических характеристик для определения терминологичности выражения применяется метод машинного обучения - логистическая регрессия.
Список опубликованных работ
Монография, поддержанная грантом РФФИ:

1. Лукашевич Н.В. Тезаурусы в задачах информационного поиска. М.: Изд-во Московского университета, 2011.

Публикации в изданиях из перечня ВАК:

1.Лукашевич Н.В. Автоматизированное формирование информационно-поискового тезауруса по общественно-политической жизни России // НТИ. Сер.2. 1995. N 3. C.21-24.

2.Лукашевич Н.В., Салий А.Д. Тезаурус для автоматического рубрицирования и индексирования: разработка, структура, ведение // НТИ. Сер.2. 1996. N 1. С. 1-6.

3.Лукашевич Н.В. Автоматическое рубрицирование потоков текстов по общественно-политической тематике // НТИ. Сер.2. 1996. N 10. C. 22-30.

4.Лукашевич Н.В. Салий А.Д., Представление знаний в системе автоматической обработки текстов // НТИ. Сер.2. 1997. N3. С. 1-6.

5.Лукашевич Н.В., Добров Б.В. Модификаторы концептуальных отношений в тезаурусе для автоматического индексирования // НТИ, Сер.2. 2001. N 4. С. 21-28.

6.Добров Б.В., Лукашевич Н.В., Невзорова О.А., Федунов Б.Е. Методы и средства автоматизированного проектирования практической онтологии // Известия РАН. Теория и системы управления. 2004. N 2. С. 58-68.

7.Добров Б.В., Лукашевич Н.В. Лингвистическая онтология по естественным наукам и технологиям для приложений в сфере информационного поиска // Ученые записки Казанского Государственного Университета. Серия Физико-математические науки. 2007. т.149. книга 2. C.49-72.

8.Лукашевич Н.В. Моделирование отношения ЧАСТЬ-ЦЕЛОЕ в лингвистическом ресурсе для информационно-поисковых приложений // Информационные технологии. 2007. N12. С. 28-34.

9.Агеев М.С., Добров Б.В., Лукашевич Н.В. Автоматическая рубрикация текстов: методы и проблемы // Ученые записки Казанского государственного университета. Серия Физико-математические науки. 2008. Том 150. книга 4. C. 25-40.

10.Лукашевич Н.В., Логачев Ю.М. Комбинирование признаков для автоматического извлечения терминов // Вычислительные методы и программирование. разд. 2. 2010. C. 108-116.

11.Лукашевич Н.В. Понятия в формальных и лингвистических онтологиях // Научно-техническая информация, сер.2. 2011. N 7. С. 1-8.

12.Лукашевич Н.В., Четверкин И.И. Извлечение и использование оценочных слов в задаче классификации отзывов на три класса // Вычислительные методы и программирование. разд. 2. 2011. C. 73-81.

13.Алексеев А.А., Лукашевич Н.В. Автоматическое извлечение сущностей на основе структуры новостного кластера // Искусственный интеллект и принятие решений. 2011. N 4. C. 95-103.

14.Алексеев А.А., Лукашевич Н.В. Комбинирование признаков для извлечения тематических цепочек в новостном кластере // Труды Института системного программирования РАН. 2012, Т. 23. С. 257-276.

15.Лукашевич Н.В. Отношения часть-целое: теория и практика // Нейрокомпьютеры: разработка, применение. 2013. N1. С. 7-12.

Основные публикации, указанные в международных системах цитирования из списка ВАК:

1.Dobrov B., Loukachevitch N., Nevzorova O., Fedunov B. Methods of automated design of application ontology // Journal of Computer and Systems sciences international. 2004. V. 43. I. 2. P. 213-222. (Web of Science)

2.Loukachevitch N., Dobrov B. Sociopolitical Domain as a Bridge from General Words to Terms of Specific Domains // Proceedings of Second International WordNet Conference GWC-2004. 2004. P.163-168. (Web of Science)

3. Loukachevitch N., Dobrov B. Large-Scale Linguistic Ontology as a Basis for Text Categorization of Legislative Documents //Legal Knowledge And Information Systems: Jurix 2005, the Eighteenth Annual Conference. IOS Press, 2005. V. 134. P. 109-110. (Web of Science)

4.Ageev M., Dobrov B., Loukachevitch N. Sociopolitical Thesaurus in Concept-based Information Retrieval: Ad-hoc and Domain Specific Tasks // Cross-Language Evaluation Forum. Results of the CLEF 2005 Cross-Language System Evaluation Campaign / Eds.: C.Peters, V.Quochi. Springer Verlag, 2006. LNCS-4022. P. 141-150. (Scopus, Web of Science)

5.Loukachevitch N. Concept Formation in Linguistic Ontologies. Conceptual Structures: Leveraging Semantic Technologies // In Proceedings of ICCS-2009 / Eds Sebasian Rudolph, Frithjof Dau, Sergei O. Kuznetsov. Springer Verlag, 2009. LNAI-5662. P. 2-22. (Scopus)

6.Loukachevitch Natalia. Multigraph representation for lexical chaining // Proceedings of SENSE workshop, 2009. P. 67-76. (Scopus)

7.Loukachevitch N., Dobrov B. Combining Evidence for Automatic Extraction of Terms // In Proc. of 4th International conference on Pattern Recognition and Machine Intelligence, Springer Verlag, 2011. V. 6744. P. 234-240. (Web of Science)

8.Loukachevitch N. Establishment of taxonomic relationships in linguistic ontologies // Knowledge processing and data analysis. Springer Verlag, 2011. LNCS-6581. P.232-242. (Scopus).

9.Dobrov B., Loukachevitch N. Multiple evidence for term extraction in broad domains // International Conference Recent Advances in Natural Language Processing, RANLP-2011, pp. 710-715. (Scopus)

10.Alekseev A.A., Loukachevitch N.V. The automatic retrieval of news entities based on the structure of a news cluster // Scientific and Technical Information Processing, 2012. V 39. N 6. P. 303-309. (Scopus)

11.Alekseev A.,, Loukachevitch N. Use of multiple features for extracting topics from news clusters // Proceedings of SYRCODIS-2012, 2012. P. 3-11. (Scopus)

12.Chetviorkin I. I., Loukachevitch N. V. Extraction of Russian Sentiment Lexicon for Product Meta-Domain // Proceedings of COLING-2012, 2012, P. 593–610. (Scopus)

13.Bolshakova E., Loukachevitch N., Nokel M. Topic Models Can Improve Domain Term Extraction // International conference on Information Retrieval ECIR-2013, Springer Verlag, 2013. LNCS-7814, P.684-687. (Scopus)

Основные публикации в других научных изданиях

1.Лукашевич Н.В., Добров Б.В. Построение и использование тематического представления содержания документов // Труды 5ой Национальной конференции КИИ-96. Казань, 1996. С. 130-134.

2.Лукашевич Н.В. Автоматическое построение аннотаций на основе тематического представления текста // Труды международного семинара Диалог´97. Москва, 1997. С. 188-191.

3.Лукашевич Н.В. От общеполитического тезауруса к тезаурусу русского языка в контексте автоматической обработки больших массивов текстов // Труды международного семинара Диалог-99, Том 2. 1999. С. 184 -190.

4.Loukachevitch N., Dobrov B. Thesaurus-Based Structural Thematic Summary in Multilingual Information Systems // Machine Translation Review. 2000. N 11. p. 10-20.

5.Добров Б.В., Лукашевич Н.В. Тезаурус и автоматическое концептуальное индексирование в университетской информационной системе РОССИЯ // Третья Всероссийская конференция по Электронным Библиотекам «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск, 2001. С.78-82.

6.Лукашевич Н.В., Добров Б.В. Автоматическое выявление лексичеcкой связности текста // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2001. Вып. 6. Казань: Отечество, 2001. C. 19-38.

7.Loukachevitch N., Dobrov B. Development and Use of Thesaurus of Russian Language RuThes // In Proc. of workshop on WordNet Structures and Standartisation, and How These Affect WordNet Applications and Evaluation. (LREC2002) / Dimitris N. Christodoulakis. 2002. pp. 65-70.

8.Лукашевич Н.В., Добров Б.В. Тезаурус русского языка для автоматической обработки больших текстовых коллекций // Компьютерная лингвистика и интеллектуальные технологии: Труды Международного семинара Диалог’2002 / Под ред. А.С.Нариньяни. М.: Наука, 2002. Т.2. С.338-346.

9.Добров Б.В., Лукашевич Н.В. Автоматическая рубрикация полнотекстовых документов по классификаторам сложной структуры // Восьмая национальная конференция по искусственному интеллекту КИИ-2002. М.: Физматлит, 2002. Т.1. С.178-186.

10.Лукашевич Н.В., Добров Б.В. Организация тезаурусного поиска в Университетской информационной системе РОССИЯ // Русский язык в Интернете / Под ред. В.Д.Соловьева. Казань: Отечество, 2003. С.84-96.

11.Добров Б.В., Лукашевич Н.В., Сыромятников С.В. Формирование базы терминологических словосочетаний по текстам предметной области // Труды пятой всероссийской научной конференции "Электронные библиотеки: Перспективные методы и технологии, электронные коллекции. 2003. C. 201-210.

12.Loukachevitch N., Dobrov B. Development of Ontologies with Minimal Set of Conceptual Relations // In Proc. of Fourth International Conference on Language Resources and Evaluation / Eds: M.T.Lino et al. 2004. vol. VI. P. 1889-1892.

13.Loukachevitch N., Dobrov B. Development of Bilingual Domain-Specific Ontology for Automatic Conceptual Indexing // In Proc. of Fourth International Conference on Language Resources and Evaluation / Eds: M.T. Lino et al. 2004. vol. VI. P. 1993-1996.

14.Loukachevitch N., Dobrov B. Ontological Types of Association Relations in Information Retrieval Thesauri and Automatic Query Expansion // Proceedings of OntoLex 2004: Ontologies and Lexical Resources in Distributed Environments / Eds: A.Oltramari et al. 2004. P. 24-29.

15.Лукашевич Н.В., Добров Б.В. Взаимодействие лексики и терминологии в общезначимой сфере языка // Компьютерная лингвистика и интеллектуальные технологии: Тр. междунар. конференции Диалог’2004 / Под ред. И.М. Кобозевой, А.С. Нариньяни, В.П. Селегея. М.: Наука, 2004. С. 172-178.

16.Агеев М.С., Добров Б.В., Лукашевич Н.В. Поддержка системы автоматического рубрицирования для сложных задач классификации текстов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды шестой Всероссийской научной конференции. Пущино, 2004. С. 216-225.

17.Лукашевич Н.В, Добров Б.В. Отношения в онтологиях для решения задач информационного поиска в больших разнородных текстовых коллекциях // Девятая национальная конференция по искусственному интеллекту с международным участием КИИ-2004: Труды конференции. Т2. М.: Физматлит. 2004. С. 544-551.Добров Б.В., Лукашевич Н.В. Онтологии для автоматической обработки текстов: описания понятий и лексических значений. // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции "Диалог´2006 / Под ред. И.М. Кобозевой, А.С. Нариньяни, В.П. Селегея. М.: Наука. 2005. C. 138-142.

19.Добров Б.В., Лукашевич Н.В. Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние // Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2010. М.: Физматлит. 2010. С. 489-497.

20.Лукашевич Н.В., Добров Б.В. Разрешение лексической многозначности на основе тезауруса предметной области. Компьютерная лингвистика и интеллектуальные технологии. // Труды международной конференции «Диалог 2007». М.: Наука. 2007. C. 400-406.

21.Лукашевич Н.В. Проблемы установления родовидовых отношений в лингвистических онтологиях // Материалы Всероссийской конференции «Знания-Онтологии-решения» (ЗОНТ-07). 2007. С. 211-220.

22.Лукашевич Н.В. Типы и роли в лингвистических онтологиях // Труды Казанской школы по компьютерной лингвистике TEL-2006. Казань: Отечество, 2007. С. 49-64.

23.Лукашевич Н.В., Чуйко Д.С. Автоматическое разрешение лексической многозначности на базе тезаурусных знаний // Интернет-математика-2007: Сборник работ участников конкурса. Екатеринбург: Изд-во Урал. ун-та, 2007. С.108-117.

24.Лукашевич Н.В. Описание понятий-ролей в лингвистических и онтологических ресурсах // Материалы Всероссийской конференции RCDL-2007. 2007.

25.Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Онтологии и тезаурусы: модели, инструменты, приложения. М.: Изд-во ИНТУИТ, 2008. 176 с.

26.Добров Б.В., Лукашевич Н.В. Транзитивные нетаксономические отношения в онтологическом моделировании // Труды симпозиума Онтологическое моделирование. Институт проблем информатики РАН, 2008. C.229-259.

27.Агеев М.С., Добров Б.В., Лукашевич Н.В., Штернов С.В. УИС РОССИЯ в РОМИП 2008: поиск и классификация нормативных документов // Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП 2007-2008. Санкт-Петербург: НУ ЦСИ, 2008.

28.Агеев М.С., Добров Б.В., Красильников П., Лукашевич Н.В, Павлов А., Сидоров А., Штернов С.В. УИС РОССИЯ в РОМИП2007: поиск и классификация // Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП 2007-2008. Санкт-Петербург: НУ ЦСИ, 2008.

29.Лукашевич Н. В., Добров Б. В. Автоматическое аннотирование новостного кластера на основе тематического представления // Компьютерная лингвистика и интеллектуальные технологии по материалам ежегодной Международной конференции «Диалог 2009». 2009. Вып. 8 (15). C. 299-305.

30.Loukachevitch N. Multigraph representation for lexical chaining // In Proc. of SENSE workshop. 2009. P. 67-76.

31.Лукашевич Н.В., Логачев Ю.М. Использование методов машинного обучения для извлечения слов-терминов // Труды Конференции по искусственному интеллекту, КИИ-2010. 2010.