АДИТ-2007. Тезисы доклада
Тема: "Современные информационные технологии и сверка музейных коллекций"
Викторов Дмитрий Геннадьевич
  Казань
  Казанский Государственный Университет
  Лаборант
  E-mail: comtat@mail.ru

Разработка алгоритма извлечения информации из текста с помощью тезауруса. Извлекатель информации JInfoExtractor.

Извлекатель информации JInfoExtractor написан с использованием программной среды Java 5. Кроме извлечения информации, приложение способно производить математический анализ текста с помощью модуля Hudlomer и делать выводы о принадлежности текста к определенному стилю. Второй особенностью JInfoExtractor является использование интерпретатора языка Snowball, ориентированного на задание правил образования слов и извлечения основ слов (words stems). Все процессы сравнения слов проводятся только с их основами, благодаря чему можно не учитывать склонения.

 

 
  © АДИТ, 1997-2007