Да-да. Как это ни печально, в эру UNICODE у меня снова встал
вопрос с кракозябрами или знаками вопроса вместо русских букв.

Обнаружилось, что все мои программы с русскоязычным интерфейсрм, написанные на Delphi 7, при отображении их в англоязычных операционных системах вместо русских букв отображают знаки вопроса. Скажу сразу, перевод проектов под UNICODE-совместимую версию Дельфи (2009 или 2010) практически не представляется возможным, поскольку в этих проектах использованы компоненты, не имеющие новых UNICODE-совместимых версий (поддержка компонентов авторами больше не осуществляется).

Странно не то, что интерфейс программ не отображает русских букв, а то, что вместо ожидаемых кракозябр отображаются знаки вопроса. Кракозябры - это не что иное, как символы текущей кодировки, имеющие коды, совпадающие с кодами русских букв в русской кодировке, и их появление вполне ожидаемо. Знаки вопроса же обычно возникают в том случае, когда система не может сопоставить использованный национальный символ UNICODE (например, русскую букву из UNICODE) с символом текущей кодировки (например, 1252, где похожих символов просто нет). Но у меня Юникодом и не пахнет нигде, у меня в интерфейсе изначально идёт кодировка 1251, которая в англоязычной кодировке 1252 должна отображаться кракозябрами! Очевидно, где-то в операционной системе происходит двойное преобразование по цепочке 1251 - UNICODE - 1252.

Операционная система Windows XP, Windows Vista и Windows 7 имеют специальную настройку локалей. Располагается она на Панели Управления, и называется "Язык и национальные стандарты". Там, на последней вкладке (вкладка "Дополнительно") можно выбрать язык для программ, не поддерживающих Юникод. По идее, после установки там русского языка, программа должна отображать русские буквы правильно. На деле же происходит отображение русских букв только в шапке программы и в компонентах ColorBox. Во всех остальных компонентах интерфейса остаются знаки вопроса.

Удивительно, но проблему решает совершенно другая настройка, а именно "Региональные параметры" (первая вкладка окна "Язык и региональные параметры"). Вообще-то эта вкладка отвечает за форматы выводимых чисел, денежных единиц, даты и времени, и какое отношение она имеет к кодировкам - непонятно. Тем не менее, если установить на ней значение "Русский (Россия)", знаки вопроса пропадают, и система начинает вести себя так, как положено, то есть интерфейс программы начинает отображать либо кракозябры, либо русские буквы в зависимости от настройки локали на вкладке "Дополнительно".

Вот такие результаты дают разные комбинации этих двух настроек в любой версии операционной системе Windows, начиная с версии Windows XP:

Формат: США
Локаль: США
Результат: Везде знаки вопроса

Формат: США
Локаль: Россия
Результат: Везде знаки вопроса, кроме шапки и колорбоксов, в которых отображаются русские символы

Формат: Россия
Локаль: США
Результат: Везде "кракозябры"

Формат: Россия
Локаль: Россия
Результат: Всё ОК!

Резюмируя вышесказанное, формулирую следующие непонятные мне вопросы:

  1. Почему на англоязычных компьютерах в интерфейсе русскоязычных программ, использующих однобайтовую кодировку, вместо кракозябр возникают знаки вопроса? Появляются ли они из-за возникновения цепочки преобразований 1251 - UNICODE - 1252, и если да, то почему, и как этого избежать?
  2. Почему при переключении локали на последней вкладке, знаки вопроса превращаются в русские символы только в шапке программы и в компоненте ColorBox? В чём разница между этими и всеми остальным компонентами?
  3. Почему на появление знаков вопроса влияет первая вкладка, отвечающая за формат выводимых чисел и дат? Можно ли решить вопрос, оставив формат отображения чисел и дат англоязычным, без нудной подгонки русского формата под англоязычный в дополнительных настройках?

Повторюсь, что вышеописанное касается всех версий Windows, начиная с версии Windows XP. Это наводит на мысль, что операционные системы работают правильно, и я просто чего-то недогоняю.


P.S.: Я выявил все форматы, при которых кириллица отображается нормально:

Азербайджанский (кириллица)
Амхарский (Эфиопия)
Армянский (Армения)
Ассамский (Индия)
Башкирский (Россия)
Белорусский (Беларусь)
Бенгальский (Бангладеш)
Бенгальский (Индия)
Болгарский (Болгария)
Боснийский (кириллица)
Грузинский (Грузия)
Гуджарати (Индия)
Дивихай (Мальдивы)
Инуктитут (слоговое письмо, Канада)
Казахский (Казахстан)
Каннада (Индия)
Киргизский (Киргизстан)
Конкани (Индия)
Кхмерский (Комбоджа)
Лаосский (ЛНДР)
Македонский (БЮР Македония)
Малаялам (Индия)
Мальтийский (Мальта)
Маори (Новая Зеландия)
Маратхи (Индия)
Монгольский (традиционный монгольский, КНР)
Монгольский (кириллица, Монголия)
Непальский (Непал)
Ория (Индия)
Панджаби (Индия)
Пашто (Афганистан)
Русский (Россия)
Санскрит (Индия)
Сербский (кириллица)
Сингальский (Шри-Ланка)
Сирийский (Сирия)
Таджикский (кириллица, Таджикистан)
Тамильский (Индия)
Татарский (Россия)
Телугу (Индия)
Тибетский (КНР)
Узбекский (кириллица, Узбекистан)
Украинский (Украина)
Хинди (Индия)
Юи (КНР)
Якутский (Россия)

Во всех остальных форматах, коих намного больше, возникают знаки вопроса. Отсюда дополнительный вопрос, что общего с точки зрения настроек операционной системы между всеми этими языками?

Кстати, 4 формата дали ещё один интересный результат:

Китайский (упрощённое письмо, КНР) и Китайский (упрощённое письмо, Сингапур) дали знаки параграфа §, чередующиеся с символами кириллицы.
Корейский (Корея) дал знаки ¬ чередующиеся с символами кириллицы.
Японский (Япония) дали знаки ˷ чередующиеся с символами кириллицы.

Так что вот дополнительная пища для размышлений.
Максим Новиков
Источник: http://novikovmaxim.livejournal.com/