textpub.neocities.org . [ записки про сайтостроение ]
Из моих записок про сайтостроение. Оригинальный пост в ЖЖ написан 09.04.2018 г.
В стандартном «Блокноте» создаю простенькую HTML-страничку, на которой есть текст на русском, а теги HTML, естественно, на английском.
Через пункт меню «Файл», подпункт «Сохранить как...» страницу можно сохранить в четырех кодировках:
№ | В «Блокноте» | В Notepad++ 7.5.6 | Размер файла в байтах |
---|---|---|---|
1 | ANSI | Windows-1251 или ANSI | 331 |
2 | Юникод | UCS-2 LE BOM | 664 |
3 | Юникод Big Endian | UCS-2 BE BOM | 664 |
4 | UTF-8 | UTF-8-BOM | 413 |
5 | --- | UTF-8 | 410 |
Кстати, заметил, что Notepad++ 7.5.6 в строке состояния часто показывает неправильный размер файла. Например, в таблице выше для номеров 2, 3 и 4 показывает 410.
Файлы в других кодировках можно открыть в «Блокноте», однако текст на русском будет отображен неправильно.
Файл в кодировке UTF-8 можно открыть в «Блокноте», но при сохранении этого файла он запишется в кодировке UTF-8-BOM. По сути это одна и та же кодировка, просто в UTF-8-BOM в начале файла записывается специальный символ (метка порядка байтов, BOM), занимающий три байта и обозначающий, что в файле используется Юникод.
В принципе, для HTML-страниц нет нужды использовать эту метку, потому что в HTML для передачи браузеру сведений о кодировке страницы используется специальный тег. Поэтому в качестве кодировки текста HTML-страниц рекомендуют использовать UTF-8 без BOM.
Важный момент. Для правильного отображения HTML-страницы в браузере нужно не только получить эту страницу в нужной кодировке, но и передать браузеру сведения об этой кодировке упоминавшимся уже выше специальным тегом. Например, в HTML версии 5 этот тег, к примеру, для кодировки UTF-8 выглядит так (http://htmlbook.ru/html/meta/charset):
<meta charset="UTF-8">