Информация о статье
2017 г., Том 22, № 4, с.11-21
Барахнин В.Б., Бакиева А.М., Бакиев М.Н., Тажибаева С.Ж., Батура Т.В., Лукпанова Л.Х.
Стемматизация и генерация словоформ в казахском языке для систем автоматической обработки текстов
Предложены алгоритмы анализа и синтеза словоформ в казахском языке, основанные на принципах разбиения слов на флективные классы. Поскольку казахский язык является агглютинативным, подключать словарь словоформ для автоматизации морфологического анализа нецелесообразно. Значительно эффективнее пользоваться словарями аффиксов и наборами правил. В процессе исследования созданы словари, включающие около 2000 глагольных аффиксов и их комбинаций для 17 флективных классов и около 3500 аффиксов и их комбинаций (вариантов окончаний) для существительных и прилагательных. Некоторые сочетания аффиксов повторяются. Такой объем словарей достаточен для того, чтобы осуществлять анализ текстов любой тематической принадлежности. Предлагаемые алгоритмы могут применяться на этапе морфологического анализа в поисковых и вопросно-ответных системах, системах автореферирования, а также при построении тезаурусов и онтологий.
[полный текст] Ключевые слова: казахский язык, стемматизация, генерация, морфологический анализ, аффикс,флективный класс
Библиографическая ссылка: Барахнин В.Б., Бакиева А.М., Бакиев М.Н., Тажибаева С.Ж., Батура Т.В., Лукпанова Л.Х. Стемматизация и генерация словоформ в казахском языке для систем автоматической обработки текстов // Вычислительные технологии. 2017. Т. 22. № 4. С. 11-21
|
|
|