Буквы, не представленные в Unicode
Надеюсь, будет полезен людям, которые работают с историческими текстами. Кодировка Unicode победным шагом марширует по компьютерному миру, вобрав в себя все разнообразие символов национальных кодировок. Казалось бы, при таком огромном количестве символов можно любой текст в точности воспроизвести в электронном виде. Однако, это не так.
Все дело в том, что Юникод в основе своей вобрал в себя языки современности, а символы, ставшие достоянием истории, представлены выборочно. И легко можно смоделировать ситуацию, когда какой-нибудь профессор истории наткнется на интересный текст в документе XIII века, написанный на древнеисландском языке. И захочет он сделать доклад для своих коллег-историков. И оформить свой креатив в формате PDF. Да вот беда, все буквы есть, а такой нет:
Что делать? Есть несколько вариантов:
•Оставить пустое место, куда вставить изображение символа. Будет правильно, но некрасиво.
•Найти среди существующих юникод-символов похожий и подставить его. Будет красиво, но неправильно.
•Использовать шрифт, где есть все символы. — Это верный вариант, угадал? — Да, мальчик, угадал, возьми с музейной полки средневековый пирожок.
Но такой шрифт не возьмется с потолка. Нужно, чтобы кто-то его создал. Нельзя, используя шрифт Times New Roman, писать рунами — хоть они и входят в Юникод, но не имеют графического представления в этом шрифте. Нужен шрифт с рунами. Что уж говорить о не-Юникод символах!
А почему бы не включить эти символы в Юникод, ведь свободного места в Юникод-пространстве в десять раз больше, чем уже занятого? Что им, жалко что-ли? Нет, не жалко, Unicode Consortium периодически вносит новые символы в Юникод, но для этого нужно проделать большую работу по оформлению заявки. Вот, к примеру, страничка википроекта о внесении символов алфавитов народов России в Юникод. До тех пор, пока Unicode Consortium не внесет изменения в стандарт, а использовать редкую букву очень хочется, в Юникоде существуют области символов для частного использования или Private Use Area (PUA), для которых и можно разработать шрифт, включающий в себя как стандартные, так и нестандартные символы.
Подобную работу для средневековых европейских языков на основе латиницы ведет некоммерческая организация Medieval Unicode Font Initiative (MUFI). Она имеет разработанный стандарт (рекомендации) для классификации символов и присвоения им значений из пространства PUA. Есть и шрифты, наряду с Юникод-символами, содержащие символы из рекомендаций MUFI. Список шрифтов можно найти там же, на сайте. Особо хочу выделить шрифт «Andron scriptor Web» как наиболее соответствующий актуальной рекомендации MUFI. Шрифт бесплатный для некоммерческого использования: ANDRON FREEFONT LICENCE AGREEMENT (AFL-1.0).
Теперь-то наш гипотетический профессор может быть доволен: достаточно скачать шрифт и установить в операционную систему, чтобы иметь возможность писать на древнеисландском. Или средневековом нижненемецком. Тут уж на любителя.
И напоследок, если кто-то заинтересовался использованием символов MUFI, могу порекомендовать вот табличку, где все символы сгруппированы по категориям, можно посмотреть увеличенное изображение каждого символа и его шестнадцатеричный HTML-код.
- Hits: 5468