Журнал "Вычислительные технологии"

Информация о статье

2022 г., Том 27, № 5, с.69-78

Шигаров А.О., Парамонов В.В.

Сегментация текста неразмеченных PDF-документов

Большой объем нередактируемых документов публикуется и распространяется в формате PDF. Часто они являются “неразмеченными”, т. е. не сопровождаются аннотацией о собственной структуре, в них нет метаданных о месторасположении заголовков, параграфов, абзацев, таблиц, списков, рисунков, колонтитулов и пр. Анализ компоновки документов состоит в распознавании перечисленных элементов структуры. Базовой частью этого процесса является сегментация текста внутри страниц на блоки, которые затем можно классифицировать как заголовки, абзацы, ячейки таблиц и пр. Известные алгоритмы сегментации страниц в основном предназначены для работы либо с растровыми изображениями документов, либо с печатно-ориентированным ASCII-текстом. По сравнению с этими форматами данных PDF предоставляет дополнительную информацию (порядок рендеринга, шрифтовые метрики, линейки и пр.), которая может улучшить качество анализа компоновки документов. В работе излагается опыт адаптации некоторых существующих алгоритмов сегментации текста внутри страниц изображений документов и ASCII-текста, для того чтобы сделать их применимыми напрямую к формату PDF — неразмеченным случаям

[полный текст] [ссылка на elibrary]

Ключевые слова: анализ компоновки документов, сегментация страниц, изображения документов, PDF-доступность, обработка документной информации

doi: 10.25743/ICT.2022.27.5.007

Библиографическая ссылка:
Шигаров А.О., Парамонов В.В. Сегментация текста неразмеченных PDF-документов // Вычислительные технологии. 2022. Т. 27. № 5. С. 69-78