Информация о статье
2008 г., Том 13, Спец. выпуск, с.93-101
Хмельнов А.Е., Шигаров А.О.
Метод извлечения таблиц из неформатированного текста
Извлечение таблиц из документов является одной из задач, решаемых в системах анализа и обработки документов. Существующие подходы к решению этой проблемы ориентируются на определенные среды и форматы представления документов. В данной работе предлагается эвристический метод извлечения таблиц из неформатированного текста. Предлагаемый метод использует особенности статистических таблиц и может быть применен к таблицам с подобной структурой. Кроме того, в методе предлагается модель для промежуточного представления таблиц, которую можно преобразовать к отношению реляционной модели.
[полный текст] Ключевые слова: Анализ и обработка документов, извлечение информации, извлечение таблиц из документов
Библиографическая ссылка: Хмельнов А.Е., Шигаров А.О. Метод извлечения таблиц из неформатированного текста // Вычислительные технологии. 2008. Т. 13. Специальный выпуск 1: Материалы XII Байкальской всероссийской конференции с международным участием "Информационные и математические технологии в науке и управлении", 2-11 июля 2007 г., Иркутск. С. 93-101
|
|
|