Информация о статье
2020 г., Том 25, № 3, с.99-110
Авдеенко Т.В., Мезенцев Ю.А.
Кластеризация документов на основе семантической матрицы связей для концептуального индексирования
Рассматривается проблема кластеризации — автоматического разбиения коллекции документов на группы, близкие по тематике. Предложен новый подход к концептуальному индексированию документов путем перехода от набора ключевых терминов к взвешенному множеству концептов некоторой иерархической модели знаний. Получаемая в результате применения данного метода семантическая матрица связей документов с концептами онтологии может быть использована в качестве матрицы данных для решения задачи кластерного анализа. Оригинальный подход к кластеризации сводится к формализации в виде NP-трудной задачи смешанного программирования, декомпозиции и поэтапному решению, снижающему ее трудоемкость
[полный текст] [ссылка на elibrary]
Ключевые слова: кластеризация документов, концептуальное индексирование, таксономия, онтология, смешанное целочисленное программирование, NP-трудная задача
doi: 10.25743/ICT.2020.25.3.011
Библиографическая ссылка: Авдеенко Т.В., Мезенцев Ю.А. Кластеризация документов на основе семантической матрицы связей для концептуального индексирования // Вычислительные технологии. 2020. Т. 25. № 3. С. 99-110
|
|
|