textpub.neocities.org . [ записки про сайтостроение ]

Из моих записок про сайтостроение. Оригинальный пост в ЖЖ написан 09.04.2018 г.

Работа с кодировкой текста HTML-страниц

В стандартном «Блокноте» создаю простенькую HTML-страничку, на которой есть текст на русском, а теги HTML, естественно, на английском.

Через пункт меню «Файл», подпункт «Сохранить как...» страницу можно сохранить в четырех кодировках:

В «Блокноте» В Notepad++ 7.5.6 Размер файла в байтах
1ANSIWindows-1251 или ANSI331
2ЮникодUCS-2 LE BOM664
3Юникод Big EndianUCS-2 BE BOM664
4UTF-8UTF-8-BOM413
5---UTF-8410

Кстати, заметил, что Notepad++ 7.5.6 в строке состояния часто показывает неправильный размер файла. Например, в таблице выше для номеров 2, 3 и 4 показывает 410.

Файлы в других кодировках можно открыть в «Блокноте», однако текст на русском будет отображен неправильно.

Файл в кодировке UTF-8 можно открыть в «Блокноте», но при сохранении этого файла он запишется в кодировке UTF-8-BOM. По сути это одна и та же кодировка, просто в UTF-8-BOM в начале файла записывается специальный символ (метка порядка байтов, BOM), занимающий три байта и обозначающий, что в файле используется Юникод.

В принципе, для HTML-страниц нет нужды использовать эту метку, потому что в HTML для передачи браузеру сведений о кодировке страницы используется специальный тег. Поэтому в качестве кодировки текста HTML-страниц рекомендуют использовать UTF-8 без BOM.

Важный момент. Для правильного отображения HTML-страницы в браузере нужно не только получить эту страницу в нужной кодировке, но и передать браузеру сведения об этой кодировке упоминавшимся уже выше специальным тегом. Например, в HTML версии 5 этот тег, к примеру, для кодировки UTF-8 выглядит так (http://htmlbook.ru/html/meta/charset):

<meta charset="UTF-8">

textpub.neocities.org . [ записки про сайтостроение ]