7 czerwca 2012

Kodowanie polskich liter

Piotr Müldner-Nieckowski

Chodzi o znaki ą, ć, ę, ł, ń, ó, ś, ź, ż oraz Ą, Ć, Ę, Ł, Ń, Ó, Ś, Ź, Ż. Są z nimi kłopoty, bo przeważają systemy komputerowe amerykańskie, a nie polskie. W USA nigdy nie rozumiano problemu znaków narodowych, zwanych diakrytycznymi, ponieważ język angielski posługuje się literami łacińskimi. Natychmiast po pojawieniu się komputera osobistego Polacy starali się temu zaradzić, bo znaki narodowe pojawiały się na ekranie i w wydrukach w postaci tzw. robaczków.
Na początku lat 90. w Polsce było aż 18 standardów kodowania polskich znaków. Nasi programiści usiłowali przekonać Microsoft, że najlepszy jest kod Mazovia, ale bez skutku. Wszechwładna firma przyjęła kodowanie Windows-1250. Tymczasem państwo polskie ustanowiło standard ISO-8859-2. Jednym słowem był wielki bałagan.
Każdy znak w foncie (pliku z czcionkami) ma swój numer i matematyczny wzór litery. W tablicy znaków każdego fontu podstawiano wzory polskich znaków pod numery mało używanych znaków obcych. Do wyświetlania na ekranie i drukowania używało się właśnie takich spreparowanych fontów. Tabele z numerkami liter bywały i są do dziś krańcowo różne. Widać to szczególnie w e-mailach, w których wiele osób koduje polskie znaki według podpowiedzi programu pocztowego, na przykład bez polskich znaków diakrytycznych, tak że zdarzają się trudności z odczytem. Na przykład zapis „Zolcinski” może znaczyć: Żółciński, Zolciński, Zołciński, Żolciński, a że jest to nazwisko, każde odczytanie może być poprawne. Z kolei polskie fonty czasem nie miały istotnych znaków zagranicznych, jak choćby ü, ö, ä, á, ç, é. Problem polskich liter występuje w SMS-ach (dziś telefon komórkowy to mały komputer), a językoznawcy uważają, że wymaga to pilnej naprawy. Sytuację wykorzystują operatorzy i za polskie litery doliczają opłaty; groszowe, ale zawsze.
Na przełomie tysiącleci pojawiła się czcionkowa nowość. Grupa czołowych firm informatycznych postanowiła stworzyć wspólne dla wszystkich komputerowych systemów operacyjnych zbiory znaków dla wszystkich języków świata, których jest ok. 6 tys., i umieścić je razem, w jednym pliku danego kroju (każdy krój i jego odmiana, np. kursywa, ma swój osobny font). System ten nazwano Unicode (po polsku unikod). Tablica 18 znaków polskich ma w nim numer 238.
W tej chwili dominują trzy sposoby kodowania polskich liter: dla tekstów zwykłych Windows-1250, dla tekstów internetowych ISO-8859-2, a dla wszystkich tekstów globalnie, baz danych itp. – Unicode, który ma kilka podsystemów. Uff! Ponieważ użytkownicy komputerów zwykle nie mają o tym pojęcia, kłopoty ze znaczkami występują nadal. Jedynym wyjściem jest sprawdzanie (i ewentualne ustawianie) kodowania polskich znaków w programie pocztowym (najlepiej na ISO-8859-2, Europa Środkowa), czasem w przeglądarce internetowej. Program do pisania tekstów powinien być w wersji narodowej polskiej. Jeśli tekst zawiera znaki kodowane nietypowo, trzeba użyć konwertera, małego programu do transformacji znaków.

Archiwum