Случаи некорректного отображения текста
Конечно, когда в программе наотрез отказываются открываться, казалось бы, родные форматы, это поправить очень сложно, а то и практически невозможно. Но, бывают случаи, когда они открываются, а их содержимое невозможно прочесть. Речь сейчас идет о тех случаях, когда вместо текста, кстати, с сохраненной структурой, вставлены какие-то закорючки, «перевести» которые невозможно.
Эти случаи чаще всего связаны лишь с одним — с неверной кодировкой текста. Точнее, конечно, будет сказать, что кодировка не неверная, а просто другая. Не воспринимающаяся программой. Интересно еще то, что общего стандарта для кодировки нет. То есть, она может разниться в зависимости от региона. Так, создав файл, например, в Азии, скорее всего, открыв его в России, вы не сможете его прочитать.
В этой статье речь пойдет непосредственно о том, как поменять кодировку в Word. Кстати, это пригодится не только лишь для исправления вышеописанных «неисправностей», но и, наоборот, для намеренного неправильного кодирования документа.
Как исправить поврежденную кодировку символов (поврежденный текст) в Microsoft Word
Что такое повреждение символов текста?
Люди, которые активно работают с файлами Plain Text, имеющими суффикс с расширением .TXT, будут иногда сталкиваться с документами, показывающими искаженный текст вместо ожидаемого. Это явление часто происходит, когда поврежденный текстовый документ написан на иностранном языке, который не использует латинский алфавит, но может случиться для всех файлов, если есть несоответствия в настройках, использованных при сохранении файла.
Повреждение символа происходит, когда в файле сохранения используется кодировка файла по умолчанию, отличная от программы конечного пользователя. Большинство компьютерных программ по умолчанию используют кодировку UTF-8, но иностранные символы обычно также имеют одну или несколько систем кодирования, зависящих от языка. Например, азиатские языки используют 16-битную систему кодирования; следовательно, когда документ открывается на машине, которая использует 8-битную систему (например, UTF-8), текст будет заменен искаженными символами.
Будьте уверены, поврежденный текст не потерян.Есть много способов исправить поврежденную кодировку символов, в том числе с помощью специального программного обеспечения, созданного для этого конкретного сценария. Однако, если вы хотите исправить только один или два документа, загрузка и установка нового программного обеспечения может стать проблемой. Здесь я покажу вам, как исправить эти поврежденные текстовые файлы в Microsoft Word, который, вероятно, уже установлен на компьютерах под управлением операционной системы Windows.
Если вы используете компьютер Windows, скорее всего, у вас уже установлен Microsoft Word.Microsoft Word имеет встроенный преобразователь кодировки символов, который можно использовать для сохранения файла в нужной кодировке.
Это исправление будет работать с Microsoft Word 2003 и выше.
Windows по умолчанию открывает простые текстовые файлы (с расширением .txt) с помощью программы «Блокнот». Чтобы открыть поврежденный документ в Microsoft Word:
1. Щелкните правой кнопкой мыши документ
2. Выберите «Открыть с помощью»
3. Выберите «Слово»
Диалоговое окно «Преобразовать файл» должно открываться автоматически при обнаружении файла с поврежденной кодировкой.Выберите «Закодированный текст» из списка вариантов и нажмите «ОК».
Если диалоговое окно не появилось, его необходимо запустить вручную. Перейдите в «Файл» -> «Параметры» -> «Дополнительно» и прокрутите вниз, пока не дойдете до раздела «Общие». В разделе «Общие» установите флажок «Подтверждать преобразование формата файла при открытии». Закройте Word и снова откройте поврежденный документ, и появится диалоговое окно.
Диалоговое окно выбора кодировки должно автоматически предлагать правильную кодировку.Если это не так, вы можете вручную выбрать кодировку из списка.
Выберите «Автоматический выбор», если вы не уверены в исходной кодировке, или выберите из списка, если вы знаете язык, на котором находится файл. Вы сможете проверить, исправлен ли поврежденный файл, в окне предварительного просмотра.
Восстановленный текст теперь можно прочитать в Microsoft Word, но он все еще может отображаться как поврежденный в программном обеспечении для обработки обычного текста, поскольку многие из них не написаны для обработки специальной кодировки символов. Чтобы этого не произошло, лучше всего сохранить документ в обычной текстовой кодировке, такой как UTF-8 или UTF-16.
Для этого щелкните вкладку «Файл» в верхнем левом углу документа и выберите «Сохранить как» из списка. Выберите папку для сохранения и выберите «Обычный текстовый документ» в качестве формата файла. Нажмите «Сохранить».
Откроется новое диалоговое окно «Преобразование файла». Из списка выберите кодировку для окончательного документа. В поле предварительного просмотра будут выделены слова, которые не будут правильно сохранены, красным цветом, поэтому постарайтесь выбрать кодировку, которая соответствует документу. В случае сомнений лучше всего использовать формат Unicode в качестве кодировки, так как он разработан с учетом всех мировых систем письма.
Наконец, нажмите «ОК», чтобы сохранить исправленный документ.
Ваш документ теперь должен правильно отображаться в выбранной вами программе обработки обычного текста, например в Блокноте.
,
Определение
Перед рассказом о том, как поменять кодировку в Word, стоит дать определение этому понятию. Сейчас мы попробуем это сделать простым языком, чтобы даже далекий от этой тематики человек все понял.
Зайдем издалека. В «вордовском» файле содержится не текст, как многими принято считать, а лишь набор чисел. Именно они преобразовываются во всем понятные символы программой. Именно для этих целей применяется кодировка.
Кодировка — схема нумерации, числовое значение в которой соответствует конкретному символу. К слову, кодировка может в себя вмещать не только лишь цифровой набор, но и буквы, и специальные знаки. А ввиду того, что в каждом языке используются разные символы, то и кодировка в разных странах отличается.
Общие сведения о кодировке текста
Текст, который отображается в виде текста на экране, на самом деле сохраняется как числовые значения в текстовом файле. Компьютер переводит числовые значения в видимые символы. Для этого используется стандарт кодировки.
Кодировка — это схема нумерации, согласно которой каждому текстовому символу в наборе соответствует определенное числовое значение. Кодировка может содержать буквы, цифры и другие символы. В различных языках часто используются разные наборы символов, поэтому многие из существующих кодировок предназначены для отображения наборов символов соответствующих языков.
Различные кодировки для разных алфавитов
Сведения о кодировке, сохраняемые с текстовым файлом, используются компьютером для вывода текста на экран. Например, в кодировке «Кириллица (Windows)» знаку «Й» соответствует числовое значение 201. Когда вы открываете файл, содержащий этот знак, на компьютере, на котором используется кодировка «Кириллица (Windows)», компьютер считывает число 201 и выводит на экран знак «Й».
Однако если тот же файл открыть на компьютере, на котором по умолчанию используется другая кодировка, на экран будет выведен знак, соответствующий числу 201 в этой кодировке. Например, если на компьютере используется кодировка «Западноевропейская (Windows)», знак «Й» из исходного текстового файла на основе кириллицы будет отображен как «É», поскольку именно этому знаку соответствует число 201 в данной кодировке.
Юникод: единая кодировка для разных алфавитов
Чтобы избежать проблем с кодированием и декодированием текстовых файлов, можно сохранять их в Юникоде. В состав этой кодировки входит большинство знаков из всех языков, которые обычно используются на современных компьютерах.
Так как Word работает на базе Юникода, все файлы в нем автоматически сохраняются в этой кодировке. Файлы в Юникоде можно открывать на любом компьютере с операционной системой на английском языке независимо от языка текста. Кроме того, на таком компьютере можно сохранять в Юникоде файлы, содержащие знаки, которых нет в западноевропейских алфавитах (например, греческие, кириллические, арабские или японские).
Это интересно: Как настроить FTP-сервер в Windows 10, 7 и Linux
Как поменять кодировку в Word. Способ первый
После того, как этому явлению было дано определение, можно переходить непосредственно к тому, как поменять кодировку в Word. Первый способ можно осуществить при открытии файла в программе.
В том случае, когда в открывшемся файле вы наблюдаете набор непонятных символов, это означает, что программа неверно определила кодировку текста и, соответственно, не способна его декодировать. Все, что нужно сделать для корректного отображения каждого символа, — это указать подходящую кодировку для отображения текста.
Говоря о том, как поменять кодировку в Word при открытии файла, вам необходимо сделать следующее:
- Нажать на вкладку «Файл» (в ранних версиях это кнопка «MS Office»).
- Перейти в категорию «Параметры».
- Нажать по пункту «Дополнительно».
- В открывшемся меню пролистать окно до пункта «Общие».
- Поставить о.
- Нажать»ОК».
Итак, полдела сделано. Скоро вы узнаете, как поменять кодировку текста в Word. Теперь, когда вы будете открывать файлы в программе «Ворд», будет появляться окно. В нем вы сможете поменять кодировку открывающегося текста.
Выполните следующие действия:
- Откройте двойным кликом файл, который необходимо перекодировать.
- Кликните по пункту «Кодированный текст», что находится в разделе «Преобразование файла».
- В появившемся окне установите переключатель на пункт «Другая».
- В выпадающем списке, что расположен рядом, определите нужную кодировку.
- Нажмите «ОК».
Если вы выбрали верную кодировку, то после всего проделанного откроется документ с понятным для восприятия языком. В момент, когда вы выбираете кодировку, вы можете посмотреть, как будет выглядеть будущий файл, в окне «Образец». Кстати, если вы думаете, как поменять кодировку в Word на MAC, для этого нужно выбрать из выпадающего списка соответствующий пункт.
Создание текста с нужной кодировкой
Иногда возникает необходимость создания текстового файла в другой системе кодов. Например, для графического редактора PDF программы Works-6 или других программных продуктов. Редактор Word поможет Вам решить эту проблему. Нужно набрать текст так, как делаете обычно, соблюдая необходимую структуру и требования к набираемой информации.
После создания файла, в главном меню редактора заходим в ФАЙЛ, а далее выбираем СОХРАНИТЬ КАК. В выпадающем окне, кроме возможности определить будущее название файла, будут представлены варианты кодировки файла после сохранения.
Для предотвращения потери информации рекомендовано сохранить файл в обычном формате, а уже потом записать в требуемом.
Нужно учитывать, что существуют программы, которые не поддерживают переноса слов или строк текста. Поэтому, в данном случае, необходимо писать текст, избегая таких переносов.
Еще одна особенность при возникновении трудностей читаемости текста. Это небольшое отличие 2003 версии Worda от версий более поздних. Появился новый формат текстовых файлов – docx. Его отличие не носит вопрос кодировки, в том смысле, в котором мы его сейчас рассматриваем. И информацию такого рода на старой версии не просмотреть, необходимо обновление редактора.
Инструкция
- Если у вас нет программы Word, то скачайте ее с официального сайта разработчиков и установите на свой компьютер. Если вы не собираетесь постоянно использовать эту программу, то платить за нее не нужно, вам хватит пробной версии.
- Нажмите на нужный файл правой клавишей мышки и откройте подменю «Открыть с помощью», укажите программу Word. Если данной программы нет в списке, то запустите Word обычным способом. Откройте меню «Файл» и выберите команду «Открыть», укажите расположение нужного документа на жестком диске и нажмите «Открыть». Будет предложено несколько вариантов открытия файла, связанных с его нестандартной кодировкой, укажите нужный и нажмите команду ОК.
Подбор кодировки
- Далее нужно изменить кодировку и сохранить результат, для этого откройте меню «Файл» и нажмите пункт «Сохранить как». Укажите директорию для измененного документа, впишите новое имя и выполните команду «Сохранить». Загрузится окно атрибутов документа, выберите нужную кодировку и нажмите Enter (наиболее используемой кодировкой является «Юникод»).
- Внимательно отнеситесь к сохранению документа, если вы попытаетесь сохранить файл в прежнюю папку с прежним названием, то новый документ заменит собой старый файл. Чтобы сохранить на диске два разных документа, нужно использовать для них разные названия или папки.
- При сохранении файла также обратите внимание на его расширение. Если документ в дальнейшем будет открываться с помощью программы Word 2003 года выпуска и более старшими версиями, то используйте формат doc. Если документ нужен для программы 2007 года и более новых версий, то подойдет формат docx. Также стоит помнить, что формат doc открывается как на старых версиях программы, так и на новых, но у них ограниченное форматирование. Стоит понимать, что отображение текстового документа не стандартными символами – это не только признак неизвестной кодировки, возможно в используемом редакторе нет нужного шрифта, в таком случае нужно менять не кодировку, а шрифт.
Это интересно: Что за программа Unity Web Player способ установки, удаление, описание работы расширения
Способ второй: во время сохранения документа
Суть второго способа довольно проста: открыть файл с некорректной кодировкой и сохранить его в подходящей. Делается это следующим образом:
- Нажмите «Файл».
- Выберите «Сохранить как».
- В выпадающем списке, что находится в разделе «Тип файла», выберите «Обычный текст».
- Кликните по «Сохранить».
- В окне преобразования файла выберите предпочитаемую кодировку и нажмите «ОК».
Теперь вы знаете два способа, как можно поменять кодировку текста в Word. Надеемся, что эта статья помогла вам в решении вопроса.
Выбор кодировки при сохранении файла
Если не выбрать кодировку при сохранении файла, будет использоваться Юникод. Как правило, рекомендуется применять Юникод, так как он поддерживает большинство символов большинства языков.
Если документ планируется открывать в программе, которая не поддерживает Юникод, вы можете выбрать нужную кодировку. Например, в операционной системе на английском языке можно создать документ на китайском (традиционное письмо) с использованием Юникода. Однако если такой документ будет открываться в программе, которая поддерживает китайский язык, но не поддерживает Юникод, файл можно сохранить в кодировке «Китайская традиционная (Big5)». В результате текст будет отображаться правильно при открытии документа в программе, поддерживающей китайский язык (традиционное письмо).
Это интересно: Как переназначить клавиши на клавиатуре — обзор программ для переназначения
Примечание:
Так как Юникод — это наиболее полный стандарт, при сохранении текста в других кодировках некоторые знаки могут не отображаться. Предположим, например, что документ в Юникоде содержит текст на иврите и языке с кириллицей. Если сохранить файл в кодировке «Кириллица (Windows)», текст на иврите не отобразится, а если сохранить его в кодировке «Иврит (Windows)», то не будет отображаться кириллический текст.
Если выбрать стандарт кодировки, который не поддерживает некоторые символы в файле, Word пометит их красным. Вы можете просмотреть текст в выбранной кодировке перед сохранением файла.
При сохранении файла в виде кодированного текста из него удаляется текст, для которого выбран шрифт Symbol, а также коды полей.
Как решать проблемы кодировок в Windows и MS Office
С переходом ко все новым версиям Windows острота проблемы существования множества кодировок русского языка почти сошла на нет
Радикально данную проблему призван решить переход к Unicode, который для Windows длится уже не первое поколение этой системы, но все никак не закончится. И, как это часто бывает, решая одни проблемы, Unicode порождает множество других.
Впрочем, для интернет-ресурсов и писем это почти всегда легко решается браузерами и почтовыми клиентами автоматически. Если у вас веб-страница или письмо все же отображается «кракозябрами» (что иногда случается из-за несоблюдения разработчиками стандартов), то нужно из главного меню выбрать пункт «Кодировка» и там методом проб и ошибок установить нужную. Этот пункт в большинстве браузеров находится в меню «Вид» (напомним, что отсутствующее на виду в современных версиях веб-обозревателей главное меню всегда можно вызвать клавишей).
Проблемы «обычного текста» Одна из таких проблем связана с файлами в формате «обычный текст», хотя, казалось бы, что может быть проще? Бери последовательность текстовых символов и записывай в файл. Но именно из-за этой простоты, если уж проблема в них возникает, то по полной программе. Если вы попробуете сохранить русский текст через Word (любой версии после Office 97, включая последнюю 2010) как «обычный текст», то получите на выбор ряд однобайтовых русских кодировок. По умолчанию (рис.1) предлагается стандартная «кириллица Windows» ( также известная как 1251, или ANSI), знакомая еще по DOS.
Попробуйте сделать то же самое через стандартный «Блокнот» из Windows 7 — вам уже предложат выбор между привычной ANSI и аж тремя вариантами Unicode (рис. 2). Тут уже кроется засада: текстовый файл в формате «юникода» должен сопровождаться специальным заголовком BOM (Byte Order Mark), определяющим порядок следования байтов (т. е. какой байт в 2-байтовом символе идет первым — старший или младший). Собственно засада заключается в том, что BOM не является обязательным атрибутом юникод-файла, и, с одной стороны, может отсутствовать в текстах, полученных из внешнего источника (скажем, из-под некоторых Linux-программ), с другой — вызывать сбои в программах, которые этого заголовка «не понимают».
Рецепт тут один: по мере возможности избегать «юникода» в «чистых текстах» и ориентироваться на привычную ANSI. Это позволит избежать большинства проблем, связанных с русскоязычными текстовыми файлами, хотя и ограничит их переносимость в англоязычные или европейские версии ОС.
Другую задачу, связанную с текстовыми файлами, которая обычно ставит в тупик неопытных пользователей, умеет решать любой Microsoft Word, начиная с версии Office XP — это столкновение с текстами в нестандартной однобайтовой кодировке (например, старинной DOS, также известной как OEM, или 866). Сначала надо убедиться в настройках, что включена опция «Подтверждать преобразование формата файла при открытии» (по умолчанию она выключена!). В старых версиях Word эта настройка находится в меню «Сервис/Параметры» на вкладке «Общие». В Word 2007 нажмите на кнопку с эмблемой Office, выберите «Параметры Word» в нижней части открывшегося окна. В Word 2010 раздел «Параметры» доступен через меню «Файл». В «Параметрах» перейдите к пункту «Дополнительно» на боковой панели, а затем найдите там раздел «Общие» (рис. 3).
При включенной этой функции открывать «нечитаемый» текстовый файл следует через меню «Открыть» (а не щелчком из Проводника, при котором запустится, скорее всего, «Блокнот»). Потом следует выбрать из выпадающего списка типов файлов пункт «Восстановление текста из любого файла». Файл может быть, естественно, любого формата (т. е. необязательно с расширением TXT), лишь бы он содержал текст, а не двоичные символы.
Кстати, просто прочесть документ именно в DOS-кодировке можно и с помощью «Блокнота» и вообще любой программы, которая умеет менять шрифты — достаточно через меню выбора шрифта (в «Блокноте» это «Формат/Шрифт») заменить текущий на Terminal. Не забудьте только вернуть потом шрифт обратно, а то не прочтете нормальные документы. Unicode в Буфере обмена Однако такие конфликты с текстовыми файлами — довольно редкий случай. У рядового пользователя гораздо чаще возникают проблемы с Unicode в Буфере обмена. Обычная ситуация, когда при переносе текста из старых программ, не поддерживающих указанную кодировку, или некоторых PDF-документов вместо русского при вставке возникает что-нибудь вроде Auaia iayedai . В большинстве правильно составленных приложений помогает простое переключение на русский язык (именно в той программе, откуда производится копирование, а не в пункте назначения), но нередко встречаются особо упертые приложения и PDF-документы, откуда сведения о том, что это русский язык, не удается извлечь никакими силами.
Microsoft Word в старых версиях Office XP и 2003 умеет решать эту проблему, о чем многие не знают, — в нем есть функция «Исправить поврежденный текст» (в меню «Сервис»). В новых версиях 2007/2010 такой функции нет. В справке и на сайте Microsoft ничего об этом разыскать не удалось — вполне вероятно, в Microsoft посчитали, что продуктов, имеющих подобные свойства, уже не осталось в природе, что, к сожалению, не соответствует действительности.
Возможно, вам тоже не захочется терять время на поиски официального решения. Тогда воспользуйтесь моей программой ClipWin (рис. 4), которую можно скачать по адресу: revich.lib.ru/clipwin.zip. Интерфейс этой программы сделан в расчете на максимально быстрое выполнение операции, но без потери контроля за ее выполнением: если текст в системном «кармане» уже имеется — достаточно запустить программу и трижды нажать на . После первого нажатия текст (уже исправленный) вставится из Буфера обмена в окно для контроля, после второго — исправленный текст заменит тот, что был изначально, а после третьего у вас программа закроется, но сам текст будет исправлен и его можно будет вставлять куда угодно.
Раскладка клавиатуры как правильно? По моему глубокому убеждению, комфортно существовать и эффективно работать в среде Windows без использования дополнительных переключателей раскладки клавиатуры абсолютно невозможно — необходимость постоянного прицеливания скрюченными пальцами в две клавиши одновременно у меня вызывает боль в пальцах при одной только мысли об этом. Точнее, абсолютно невозможно это было до появления Vista, где вместе с традиционными комбинациям клавиш появилась, наконец, возможность переключать язык ввода одной клавишей <�Ё>. Но и такое решение, по крайней мере, для радетелей чистоты русского языка, неприемлемо — не вводить же букву Ё каждый раз через специальную вставку или таблицу символов.
Решение этой проблемы общеизвестно и заключается оно в применении популярной переключалки Punto Switcher, позволяющей настроить для выполнения операции в принципе любую клавишу (обычно это правый или ). Программа поддерживается «Яндексом», скачать ее можно из раздела «Программы» поисковика (по адресу soft.yandex.ru) или напрямую по адресу punto.yandex.ru. Об этой и других аналогичных программах недавно рассказал Александр Евдокимов в статье «Корректоры букв».
Многие программы данного типа способны выполнять и другую востребованную функцию: переключение уже набранного в неправильной раскладке текста. В зависимости от настроек, это может осуществляться даже автоматически, хотя лично я предпочитаю эту автоматику отключать.
Еще одно недоразумение, связанное с языковой раскладкой, встречается реже, но может добавить несколько неприятных моментов. После переключения на английский вас может озадачить одна особенность ввода некоторых символов. Это касается таких знаков, как кавычки, апострофы (их два — прямой и наклонный), тильда «~» и циркумфлекс («крышечка») «^». После нажатия соответствующей клавиши ничего не вводится — надо еще нажать либо пробел, чтобы ввести знак в «чистом» виде, либо еще какую-то букву или цифру, тогда знак введется перед ней. Можно нажать кавычку или апостроф дважды — появится сразу пара знаков (они и употребляются часто парами, текст тогда вводится между ними).
Такая, не всегда удобная особенность англоязычного компьютерного ввода может возникнуть, если по каким-то причинам для английского языка установлена раскладка «США-международная» (или, возможно, какая-то из европейских, которые у нас не в ходу). Недоразумение легко устраняется, если сменить раскладку для английского языка обратно на положенную по умолчанию просто «США». В Windows 7 к этой настройке можно добраться в Панели управления через «Языки и региональные стандарты / Языки и клавиатуры / Изменить клавиатуру / Общие / Добавить» (рис. 5).
Итоговый совет Если у вас возникают другие проблемы с кодировками, не описанные в этой статье, то, вероятнее всего, они вызваны установкой «не той» версии Windows — например, американской или европейской с дополнительным языковым пакетом. Во избежание таких проблем следует по возможности всегда пользоваться русской версией. Но так уж сложилась жизнь у русскоязычных пользователей Windows, что проблема кодировок была, есть и будет. Ее острота снижается по мере обновления программного обеспечения, но, вероятно, проблема никогда не исчезнет полностью.
Источник: Hard’n’Soft
Автор: Юрий Ревич
Изменение кодировки в программе «Notepad ++»
Подобное приложение используется многими программистами для создания сайтов, различных приложений и многого другого. Поэтому очень важно сохранять и создавать файлы, используя необходимую кодировку. Для того, чтобы настроить нужный вариант для пользователя, следует:
Шаг 1. Запустить программу и в верхнем контекстном меню выбрать вкладку «Кодировки».
Шаг 2. В выпадающем списке пользователю требуется выбрать из списка необходимую для него кодировку и щелкнуть на нее.
Шаг 3. Правильность проведения процедуры легко проверить, обратив внимание на нижнюю панель программы, которая будет отображать только что измененную кодировку.
Важно! Перед началом работы в «Notepad ++» в первую очередь рекомендуется проверить установленную кодировку. При необходимости ее нужно изменить при помощи инструкции, приведенной ранее.