Закрыть окно


Замечания об особенностях представления данных текстов в Интернете

Проблемы представления математических текстов в Интернете хорошо известны. Все они очевидно относятся к методам представления математических формул, поскольку возможностей форматирования простого текста в рамках HTML вполне достаточно для удовлетворения большинства читателей и авторов (за исключением, может быть, небольшой части с очень высокими эстетическими запросами). Перечислим наиболее популярные способы решения проблемы представления математических формул.

1. Использование HTML и нестандартных шрифтов. Основной недостаток этого способа — отсутствие общепринятых стандартов на математические шрифты. Грядущий переход на 16-битное (UNICODE) представление текстов должно сильно облегчить ситуацию, но пока здесь также нет стандартов. Например, внутренние UNICODE-шрифты браузеров Netscape Communicator, Mozilla и Opera отличаются как между собой, так и от майкрософтовского Arial Unicode MS не только дизайном, но и набором именно математических символов ("упрямство" в этом вопросе корпорации Майкрософт можно объяснить, но трудно понять). Кроме того, математический текст, отображаемый шрифтами "без серифов (засечек)", такими как Arial, Lucida или Verdana выглядит очень непривычно.

2. Использование графических образов формул в рамках HTML. Недостатки его очевидны: как правило различное шрифтовое решение основного текста и формул не может удовлетворить даже невзыскательного читателя, невозможность корректного масштабирования текста в большинстве браузеров, трудности с переносом формул, обилие графических файлов, сопровождающих даже небольшой по объему текст, если он насыщен формулами (кроме того, автоматические трансляторы, как правило, дублируют рисунки, представляющие одну и ту же формулу) и т.д.

3. Использование графических образов документов. Речь идет, в основном о .pdf и .ps форматах. Основных недостатков здесь три: большой объем файлов, необходимость инсталлировать на машине читателя соответствующий plug-in, и редуцированные возможности поиска по тексту.

4. Представление формул с помощью тех или иных генерирующих формулы апплетов пока также далеко от универсального подхода. Ну и стандартная претензия к Java — быстродействие.

5. Наиболее перспективным в будущем представляется использование математического диалекта XML MathML. Однако к настоящему времени только специализированные браузеры "понимают" MathML. Имеются также plug-in'ы к распространенным браузерам, большинство из которых коммерческие. Поэтому приходится ждать того времени, когда "мир бизнеса" и "мир науки" договорятся и все браузеры будут понимать MathML, или ожидать прорыва в решении проблемы унифицированного представления универсальных текстов.

И, разумеется, каждый из этих способов требует того или иного объема дополнительной работы по трансляции подготовленного (обычно, в TEX-формате) математического текста. Несмотря на обилие соответствующих трансляторов, объем этой работы достаточно велик.

На данном сайте используется следующий вариант первого из описанных подходов. Текст (HTML-файлы) существует в двух вариантах: для Internet Explorer'а и для всех остальных браузеров. Это означает, что если Ваш браузер распознается как Internet Explorer (точнее, свойство userAgent объекта navigator DOM браузера содержит подстроку 'MSIE') и не содержит подстроки 'Opera', то Вы будете читать первый вариант файлов, а во всех остальных случаях — второй. В первом варианте используется для математических символов используется TrueType фонт Symbol (он поставляется практически со всеми дистрибутивами Windows 9x/NT/2000/XP). Во втором варианте математические символы — это символы UNICODE (по существу используются только символы из наборов "Standard HTML characters" и "Extended HTML Characters"). Синхронизация достигается тем, что второй вариант генерируется из первого с помощью специального Perl-скрипта.

Фонт основного текста в обоих вариантах — Times New Roman. Второй вариант выглядит правильно и в Internet Explorer'е (за исключением нескольких символов). С эстетической же точки зрения зрения лучший результат достигается на первом варианте.

Кроме того, из тех же эстетических соображений, я использовал сдедующие фонты:

Old English Text MT — готические символы,

Verdana — шрифт без серифов (засечек), он распознается фактически всеми браузерами,

Script MT Bold — рукописные символы.

Ситуация с тремя последними шрифтами такова. Ряд браузеров (в частности, все "старшие" Internet Explorer'ы, Netscape Communicator, Mozilla) под Windows при наличии ссылки на тот или иной фонт пытаются найти его среди установленных и при отсутствии таковых заменяют на фонт по умолчанию (например, Times New Roman для Internet Explorer'а), остальные не ищут отсутствующий фонт среди установленных, а сразу подставляют взамен его фонт по умолчанию. При просмотре Internet Explorer'ом критично наличие фонта Symbol, поскольку остальные используются только в буквенных обозначениях, а Symbol для математических обозначений. Если же у Вас отсутствует фонт Script MT Bold, вместо Вы увидите (я сознательно оставил фон внедренных рисунков белым непрозрачным). Хуже того, при отсутствии, скажем, шрифта Old English Text MT фразу Вы увидите как фразу и будете вынуждены различать обозначения функций по контексту!

По следующей таблице Вы можете определить установлены ли у Вас соответствующие фонты и подставляет ли их Ваш браузер. Если во второй и третьей колонках таблицы Вы видите тексты с одинаковым начертанием, то соответствующий шрифт на Вашем компьютере установлен и Ваш браузер их корректно подставляет.

Шрифт

Вы видите

Должно быть

Symbol

ABCabc

Old English Text MT

ABCabc

Verdana

ABCabc

Script MT Bold

ABCabc

Еще одно замечание относится к "большим" скобкам. В варианте для Internet Explorer'а различные скобки большого кегля (скобки в многоэтажных формулах, ограничивающие матрицу скобки и т. д.) набраны с помощью символов псевдографики, входящих в фонт Symbol. В текстах для "остальных" браузеров, не использующих фонт Symbol, в силу отсутствия символов псевдографики в UNICODE, пришлось поступиться эстетическими принципами. Результат в таблице

Internet Explorer

Остальные браузеры

Об эстетике приходится забыть. Очень большие матрицы я был вынужден заключать не в круглые, а в квадратные скобки, "сконструированные" из математических символов UNICODE.

Во втором варианте (для "остальных" браузеров) я был вынужден использовать некоторые символы, не входящие в наборы "Standard HTML characters" и "Extended HTML Characters", а именно,

Большинство браузеров интерпретируют эти символы правильно. В частности, если Вы сейчас видите соответствующие описанию символы, то Ваш (не Internet Explorer) браузер подходящий.

За исключением упомянутых пяти символов, оба варианта полностью удовлетворяют спецификации HTML 4.01. Соответствие текстов стандарту HTML 4.01 проверялось с помощью CSE HTML Validator Lite 3.00.

Все особенности представления собраны в стилевом (CSS) файле. Некоторые браузеры (в частности, "младшие" Netscape Communicator'ы) не понимают CSS и результат будет ужасающим.

Поскольку не все браузеры понимают JavaScript, я старался избегать динамики в втором варианте, в частности динамически раскрывающееся оглавление варианта для Internet Explorer'а заменено на статическое.

Нет никакой динамики и на серверной стороне — весь сайт представляет собой совокупность статических HTML-файлов.

Некоторые разделы наряду с обычными рисунками иллюстрируются динамическими рисунками-апплетами. Разумеется, Ваш браузер должен уметь их понимать и должен корректно интерпретировать их вызов (что бывает не всегда).

Я просматривал эти тексты в MS Internet Explorer 5.0, 5.5, 6.0, Mozilla 5.0, Opera 6.01 под Windows XP, Windows 2000 Advanced Server, Windows 2000 Professional, Windows 98, а также в Mozilla 0.9.9, Nautilus 1.0.6 и Galeon 1.2.0 под Red Hat Linux 7.3 (Valhalla). Приемлемое качество в других ситуациях гарантировать не могу (особенно это относится к отличным от Windows операционными системам, UNIX, Linux, Solaris, OS/2, ...). Неудовлетворительные результаты получаются, например, при использовании браузеров Netscape Communicator 4.79 и Konqueror 3.0.0 под Red Hat Linux 7.3.

Итак, гарантированно неприемлемый результат получится при использовании Internet Explorer'а в отсутствии фонта Symbol, использовании браузера, не понимающиего CSS (Cascading Style Sheets) и при использовании браузера, не понимающего расширенное множество символов HTML 4.0 (Extended HTML Characters).

Все тексты представляют собой откорректированные вручную файлы, полученные с помощью транслятора  TTH, version 2.32 или 3.05 из LaTEX2ε-файлов.

В заключение, о гиперссылках. Я старался добиться ситуации, когда в любой момент на странице (экране) можно найти гиперссылку на используемое понятие или обозначение, описанное в тексте. Таким образом, гиперссылок больше, чем обычно. Поэтому я сменил стандартное цветовое выделение гиперссылок — оно выглядит так: гиперссылки, посещенные гиперссылки, активизируемые (hover) гиперссылки. К сожалению, гиперссылки между курсами в силу многих причин пока отсутствуют.

Разумеется, ответственность за все ошибки и опечатки (коих, как я предполагаю, много) полностью несу я и прошу о них писать по адресу rust@lchd.ict.nsc.ru

Желательный формат сообщения: <... в п. 2.3.4 вместо "грибы съедобные: " следует читать "грибы ядовитые: "... (браузер ...) > или <... в п. 1.2.3 гиперссылка "функция" неправильная... (браузер ...) >.

Р. Ахмеров


Закрыть окно