UTF-8

This page is a translated version of the page UTF-8 and the translation is 100% complete.

Other languages:

Resources

Az UTF-8 egy változó hosszúságú karakterkódolás, amely ebben az esetben azt jelenti, hogy szimbólumonként 1–4 bájtot használ. Az első UTF-8 bájt az ASCII kódolására szolgál, ezáltal a karakterkészlet teljes visszafelé kompatibilitást biztosít az ASCII-val. Az UTF-8 azt jelenti, hogy az ASCII és a latin karakterek kis méretnövekedés mellett cserélhetők ki, mivel csak az első bájt kerül felhasználásra. Az olyan keleti ábécéket használó felhasználók, mint például a japánok, akiknek egy magasabb bájtkategória lett kijelölve, elégedetlenek, mivel ez akár 50%-os redundanciát is eredményezhet adataikban.

Karakterkódolások

Mi a karakterkódolás?

A számítógépek önmagukban nem értik az nyomtatott szöveget úgy, ahogy egy ember. A számítógépek számára minden szöveges karakter egy számként van ábrázolva, hiszen a számítógépek alapján számok képezik, még a betűk esetében is. Hagyományosan minden számkészlet, amelyet ábécék és karakterek ábrázolására használtak (kódolási rendszer, kódolás vagy karakterkészlet néven ismert), méretében korlátozott volt a számítógépes hardver korlátai miatt.

Karakterkódolások története

A leggyakrabban használt (vagy legalábbis a legszélesebb körben elfogadott) karakterkészlet az ASCII (American Standard Code for Information Interchange). Általánosan úgy tartják, hogy az ASCII valaha létrehozott legsikeresebb szoftverszabvány. A modern ASCII-t 1986-ban (ANSI X3.4, RFC 20, ISO/IEC 646:1991, ECMA-6) szabványosította az American National Standards Institute.

Az ASCII szigorúan hétbites, ami azt jelenti, hogy hét bináris számjeggyel ábrázolható bitmintákat használ, amelyek a decimális 0-tól 127-ig terjedő tartományt biztosítanak. Ezek közé tartozik 33 nem látható vezérlőkarakter, amelyek többsége a 0 és 31 közötti tartományba esik, az utolsó vezérlőkarakter, a DEL vagy delete pedig a 127-es helyen található. A 32-től 126-ig terjedő karakterek látható karakterek: egy szóköz, írásjelek, latin betűk és számok.

Az ASCII nyolcadik bitjét eredetileg paritásbitként használták a hibakereséshez. Ha a hibakeresés nem szükséges, akkor az értéke 0 marad. Ez azt jelenti, hogy az ASCII esetében minden karakter egyetlen bájttal van ábrázolva.

Bár az ASCII elegendő volt a modern angol nyelvű kommunikációhoz, azonban más európai nyelvek esetében, amelyek ékezetes karaktereket is tartalmaznak, a helyzet nem volt ilyen egyszerű. Az ISO 8859 szabványokat e szükségletek kielégítésére fejlesztették ki. Ezek visszafelé kompatibilisek voltak az ASCII kódolással, de ahelyett, hogy a nyolcadik bitet üresen hagyták volna, azt további 128 karakter (32 vezérlőkarakter és 96 látható karakter) megjelenítésére használták minden kódolásban. Az ISO 8859 korlátai hamar megmutatkoztak, és jelenleg az ISO 8859 szabványnak 15 változata létezik (8859-1-től 8859-15-ig). Az ASCII-kompatibilis bájttartományon kívül ezekben a karakterkészletekben gyakran konfliktus van a bájtonként ábrázolt betűk között. Tovább bonyolítva a karakterkódolások közötti interoperabilitást a Windows-1252 kódolást használják néhány Microsoft Windows verzióban a nyugat-európai nyelvekhez. Látható karakterei az ISO 8859-1 szuperhalmazát alkotják, azonban több szempontból eltérnek. Ezek a készletek mind megőrzik az ASCII-kompatibilitást.

A nem latin ábécéket használó karakterkódolások, például a japán és koreai (valamint kisebb mértékben kínai) nyelvekhez használt EUC (Extended Unix Coding) teljesen eltérő egybájtos kódolásainak szükséges fejlesztése még nagyobb zavart okozott. Más operációs rendszerek ugyanazon nyelvekhez továbbra is eltérő karakterkészleteket használtak, például a Shift-JIS és az ISO-2022-JP készleteket. Azoknak a felhasználóknak, akik cirill betűket szerettek volna megjeleníteni, választaniuk kellett a KOI8-R között az orosz és bolgár, illetve a KOI8-U között az ukrán nyelvhez, valamint az összes többi cirill kódolás között, például a sikertelen ISO 8859-5 és a gyakori Windows-1251 készletek közül. Ezek közül mindegyik karakterkészlet jelentősen megszakította az ASCII kódolással való kompatibilitást. Bár meg kell jegyezni, hogy a KOI8 kódolások a cirill karaktereket latin sorrendben helyezik el, így ha a nyolcadik bit elvész, a szöveg még mindig megfejthető egy ASCII terminálon fordított kis-nagybetűs átírással.

Mindez tömeges zűrzavart és szinte teljes képtelenséget eredményezett a többnyelvű kommunikációban, különösen az eltérő ábécék között. Ekkor jött a Unicode karakterkódolás.

Mi az Unicode?

A Unicode elveti a hagyományos egybájtos karakterkészletek korlátait. 17 "síkon" keresztül, amely 65 536 kódpontból áll, legfeljebb 1 114 112 karaktert tud leírni. Az első sík, (más néven "Alapvető Többnyelvű Síknak", "Basic Multilingual Plane" vagy BMP-nek), szinte minden karaktert tartalmaz, amelyre egy felhasználónak valaha szüksége lehet. Sokan tévesen feltételezték, hogy a Unicode egy 16 bites karakterkészlet.

A Unicode karakterkódolást számos különböző módon térképezték fel, de a két leggyakoribb az UTF (Unicode Transformation Format) és UCS (Universal Character Set). Az UTF után következő szám a bitek számát jelzi egy egységben, míg az UCS után következő szám a bájtok számát jelzi. Az UTF-8 az Unicode szöveg legelterjedtebb módjává vált annak nyolcbites tiszta jellege miatt. Ezért ez ennek a dokumentumnak a tárgya.

Mit tud csinálni az UTF-8 karakterkódolás?

Az UTF-8 lehetővé teszi a felhasználók számára, hogy szabványoknak megfelelő és nemzetközileg elfogadott többnyelvű környezetben dolgozzanak, viszonylag alacsony adatfelesleggel. Ez az előnyben részesített módja a nem ASCII-karakterek továbbításának az interneten keresztül, e-mailben, IRC-n vagy szinte bármilyen más médiumon keresztül. Ennek ellenére sokan visszaélésszerűnek tartják az UTF-8 használatát az online kommunikációban. Mindig célszerű tisztában lenni az adott csatorna, levelezőlista vagy Usenet csoport hozzáállásával az UTF-8 karakterkódoláshoz, mielőtt Ön a nem ASCII UTF-8 karakterkódolást elkezdené használni.

UTF-8 karakterkódolás beállítása a Gentoo alatt

UTF-8 helyi beállítások keresése vagy létrehozása

Most, hogy a Unicode mögötti alapelvek már ismertté váltak, készüljön fel az UTF-8 helyi használatának megkezdésére!

Azoknak a felhasználóknak, akik több ismeretre vágynak, további magyarázat található a Nyelvterület beállítása útmutatóban.

Ezután a felhasználónak el kell döntenie, hogy rendelkezésre áll-e az adott nyelvhez UTF-8 karakterkódolású nyelvterület-beállítás, vagy szükséges-e azt létrehozni.

user $locale -a | grep 'en_GB'

en_GB
en_GB.utf8

A fenti parancs kimenetéből keressen egy olyan eredményt, amelynek végződése hasonló a következőhöz: .UTF-8. Ha nincs hasonló végződésű eredmény, akkor létre kell hozni egy UTF-8 kompatibilis nyelvterület-beállítást.

A parancs a végződést kisbetűvel, kötőjelek nélkül jeleníti meg, és bár a glibc mindkét formát érti, sok más program nem. A leggyakoribb példa erre Xorg. Ezért mindig jobb előnyben részesíteni az UTF-8 használatát az utf8 helyett.

Note
Kizárólag akkor hajtsa végre a következő kódot, ha az operációs rendszer nem rendelkezik UTF-8 nyelvterület-beállítással az adott nyelv számára.

Cserélje ki az "en_GB" értéket a kívánt nyelvterület-beállításra:

root #localedef -i en_GB -f UTF-8 en_GB.UTF-8

Egy másik módja a UTF-8 nyelvterület-beállítás hozzáadásának az /etc/locale.gen fájlhoz való hozzáadása, majd a szükséges helyi beállítások legenerálása a locale-gen parancs segítségével. A nyelvterület-beállítások a locale-archive fájlba kerülnek kiírásra: /usr/lib/locale/locale-archive.

CODE Line in /etc/locale.gen

en_GB.UTF-8 UTF-8

root #locale-gen

 * Generating 1 locales (this might take a while) with 1 jobs
 *  (1/1) Generating en_GB.UTF-8 ...                            [ ok ]
 * Generation complete

Nyelvterület-beállítás alkalmazása

Egy változót szükséges beállítani az új UTF-8 nyelvterület-beállítások alkalmazásának az érdekében: LC_CTYPE (opcionálisan módosítható a LANG változó is, hogy megváltoztassa az operációs rendszer nyelvét). Számos módja van ennek a beállítására. Néhány rendszergazda előnyben részesíti, hogy csak egy adott felhasználónak legyen UTF-8 környezete. Ebben az esetben ezeket a ~/.profile (/bin/sh Bourne shell felhasználók számára), a ~/.bash_profile vagy a ~/.bashrc (/bin/bash Bourne again shell felhasználók számára) fájlokban állítják be. További részletek és bevált gyakorlatok a Nyelvterület beállítása útmutatóban találhatók.

Mások inkább globálisan állítják be a nyelvterület-beállításokat. Egy konkrét eset, amikor a cikk szerzője különösen ajánlja ennek megtételét, az, ha a /etc/init.d/xdm fájlt használják, mivel ez az init szkript elindítja a megjelenítő kezelőt és az asztali környezetet, mielőtt bármelyik említett shell indítófájl betöltődne. Más szóval, ez még azelőtt történik, hogy bármelyik változó betöltődne a környezetbe.

A nyelvterület-beállítások globális megadását a /etc/env.d/02locale fájlban kell elvégezni. Ennek a fájlnak a következőképpen kell kinéznie:

FILE /etc/env.d/02localeAz en_GB.UTF-8 demonstrálása

## Mint mindig, cserélje ki az "en_GB.UTF-8" értéket a megfelelő nyelvterület-beállítás értékére. Minden nyelvhez más érték tartozik!
LANG="en_GB.UTF-8"

Note
Lehetséges a LC_CTYPE változót a LANG változóval helyettesíteni. További információ az LC_CTYPE használata által érintett kategóriákról itt található: GNU locale oldal.

Ezután a környezetet a következő parancs futtatásával kell frissíteni:

root #env-update

>>> Regenerating /etc/ld.so.cache...

root #source /etc/profile

Most futtassa a locale parancsot argumentumok nélkül, hogy ellenőrizze, vajon betöltődtek-e a megfelelő változók a környezetbe:

root #locale

LANG=en_GB.utf8
LC_CTYPE="en_GB.utf8"
LC_NUMERIC="en_GB.utf8"
LC_TIME="en_GB.utf8"
LC_COLLATE="en_GB.utf8"
LC_MONETARY="en_GB.utf8"
LC_MESSAGES="en_GB.utf8"
LC_PAPER="en_GB.utf8"
LC_NAME="en_GB.utf8"
LC_ADDRESS="en_GB.utf8"
LC_TELEPHONE="en_GB.utf8"
LC_MEASUREMENT="en_GB.utf8"
LC_IDENTIFICATION="en_GB.utf8"
LC_ALL=

A nyelvterület környezeti változók értékei, amelyeket kifejezetten megadtak, például egy export utasításban (ha bash-t használ), idézőjelek nélkül jelennek meg. Azok, amelyek értékét más nyelvterület környezeti változóktól örökölték, idézőjelek között szerepelnek.

Alternatíva: Az eselect használata a nyelvterület-beállítások alkalmazása érdekében

Bár az operációs rendszert érdemes a fent leírt módon karbantartani, lehetséges ellenőrizni a megfelelően beállított nyelvterület-beállítást a eselect segédprogram használatával.

Használja a eselect parancsot az operációs rendszerben elérhető nyelvterület-beállítások listázásához:

root #eselect locale list

  [1] C
  [2] POSIX *
  [3] en_GB.utf8
  [ ] (free form)

Az eselect használatával a nyelvterület-beállítás alkalmazása olyan egyszerű, mint a lista megjelenítése. Miután meghatároztuk a megfelelő nyelvterület beállítást, hajtsuk végre a következő parancsot:

root #eselect locale set 3

Setting LANG to en_GB.utf8 ...

Ellenőrizzük le az eredményt:

root #eselect locale list

  [1] C
  [2] POSIX
  [3] en_GB.utf8 *
  [ ] (free form)

Abban az esetben, ha Ön előnyben részesíti, hogy a /etc/env.d/02locale fájlban .UTF-8 szerepeljen .utf8 helyett, akkor futtassa a megfelelő eselect parancsot:

root #eselect locale set en_GB.UTF-8

Setting LANG to en_GB.UTF-8 ...

root #eselect locale list

  [1] C
  [2] POSIX
  [3] en_GB.utf8
  [4] en_GB.UTF-8 *
  [ ] (free form)

A következő parancs futtatása frissíti a változókat a shellben:

root #env-update && source /etc/profile

>>> Regenerating /etc/ld.so.cache...

Ez minden. Az operációs rendszer most már UTF-8 nyelvterület beállításokat használ. A következő kihívás a mindennap használt alkalmazások beállítása lesz.

Alkalmazástámogatás

Amikor a Unicode először kezdett lendületet venni a szoftverek világában, a több-bájtos karakterkészletek nem voltak jól alkalmazhatók olyan programozási nyelvekhez, mint a C, amely a legtöbb általánosan használt program alapnyelve. Még ma is vannak programok, amelyek nem tudják megfelelően kezelni az UTF-8 kódolást. Szerencsére a legtöbb program, különösen a gyakoriak, támogatva vannak.

(V)FAT

Az UTF-8 támogatásért a FAT fájlrendszerekben tekintse meg a FAT cikket.

Fájlnevek

A fájlnevek kódolásának megváltoztatásához használható a app-text/convmv szoftvercsomag.

root #emerge --ask app-text/convmv

A convmv parancs formátuma a következő:

root #convmv -f <current-encoding> -t utf-8 <filename>

Cserélje ki az iso-8859-1 karakterkészletet az következő karakterkészlettel:

root #convmv -f iso-8859-1 -t utf-8 filename

A fájlok tartalmának módosításához használja a iconv segédprogramot, amely a sys-libs/glibc szoftvercsomaggal együtt települ fel az operációs rendszerre, és telepítve kell lennie minden Gentoo operációs rendszeren. Cserélje ki az iso-8859-1 karakterkészletet az átalakítandó karakterkészlettel. A parancs végrehajtása után győződjön meg arról, hogy a kimenet értelmezhető-e.

root #iconv -f iso-8859-1 -t utf-8 filename

Egy fájl átalakításához egy másik fájlt kell létrehozni:

root #iconv -f iso-8859-1 -t utf-8 filename > newfile

Erre a célra a recode (app-text/recode) szoftvercsomag is használható.

Rendszer parancssora

Azért, hogy az UTF-8 karakterkódolás a parancssorban engedélyezve legyen, szerkessze a /etc/rc.conf fájlt. Állítsa be az unicode="yes" értéket, és olvassa el a megjegyzéseket. Fontos, hogy olyan betűtípust használjon, amelynek karakterkészlete széles körben elterjedt, hogy a Unicode funkcióit teljes mértékben ki lehessen használni. Annak érdekében, hogy ez működjön, győződjön meg róla, hogy a Unicode nyelvterület-beállítása megfelelően létre lett hozva.

A keymap változót, amely a /etc/conf.d/keymaps fájlban van beállítva, Unicode billentyűkiosztásra kell megadni.

CODE Example /etc/conf.d/keymaps snippet

## (Cserélje le az "uk" jelölést az Önnek megfelelő nyelvterület billentyűzetkiosztásra.)
keymap="uk"

Ncurses és Slang

Note
Ne vegyen figyelembe semmilyen Slang szoftverre vonatkozó említést ebben a szakaszban, ha az Önnek nincs feltelepítve, vagy nincs rá szüksége.

Érdemes hozzáadni az unicode jelölőzászlót a globális jelölőzászlókhoz a /etc/portage/make.conf fájlban, majd ezt követően újra létre kell hozni és telepíteni kell a sys-libs/ncurses és sys-libs/slang szoftvercsomagokat. A Portage ezt automatikusan elvégzi, ha a --changed-use vagy a --newuse opciókat használja. Futtassa a következő parancsot a szoftvercsomagok beolvasásához:

root #emerge --update --deep --newuse @world

Újra telepítenünk kell azokat a szoftvercsomagokat, amelyek ezekhez kapcsolódnak, miután a USE változtatásokat alkalmaztuk. Az általunk használt eszköz (revdep-rebuild) az app-portage/gentoolkit szoftvercsomag része.

root #

revdep-rebuild --library libncurses.so.5

root #revdep-rebuild --library libslang.so.1

KDE, GNOME, és Xfce

Az összes jelentősebb asztali környezet teljes Unicode-támogatással rendelkezik, és nem igényel további beállítást azon kívül, amit ebben az útmutatóban már lefedtünk. Ennek oka, hogy az alapul szolgáló grafikus eszközkészletek (Qt vagy GTK 2) UTF-8 kompatibilisek. Következésképpen minden olyan alkalmazás, amely ezeken az eszközkészleteken fut, alapértelmezetten UTF-8 kompatibilis lesz.

On GTK based applications, the key sequence for hexadecimal Unicode input is Ctrl+Shift+u+<hex digit>. As an example, the unicode character ✔ which has unicode number U+2714 can be written as Ctrl+Shift+u+2714+ENTER, being rendered as ✔. IBus is needed for support in other applications.

X11 és a fontok

A TrueType betűtípusok támogatják a Unicode karakterkódolást, és a Xorg szerverhez mellékelt betűtípusok többsége kiterjedt karakterkészlettel rendelkezik, bár nem minden unicode karakterkódolásban elérhető karakterjel készült ehhez a betűtípushoz.

Továbbá, számos betűtípus szoftvercsomag a Portage szoftvercsomag-kezelőben Unicode kompatibilis. További információért az ajánlott betűtípusokról és a beállításról tekintse meg a Fontconfig oldalt.

Ablakkezelők és parancssorok

Azok az ablakkezelők, amelyek nem GTK-ra vagy Qt-re épülnek, általában nagyon jó Unicode-támogatással rendelkeznek, mivel gyakran használják az Xft könyvtárat a betűtípusok kezeléséhez. Ha az ablakkezelő nem használja az Xft-t a betűtípusokhoz, akkor továbbra is lehetséges a korábbi szakaszban említett FontSpec-et Unicode betűtípusként használni.

Az Xft-t használó és Unicode karakterkódolást támogató parancssorokat nehezebb megtalálni. A Konsole és a GNOME Terminal mellett a Portage legjobb opciói közé tartoznak a x11-terms/rxvt-unicode, x11-terms/xfce4-terminal, gnustep-apps/terminal, x11-terms/mlterm, vagy az egyszerű x11-terms/xterm, ha unicode USE jelölőzászlóval van felépítve, és uxterm módszerrel van meghívva. A app-misc/screen is támogatja az UTF-8 karakterkódolást, ha screen -U módszerrel van meghívva, vagy ha a következő be van helyezve a ~/.screenrc fájlba:

CODE ~/.screenrc for UTF-8

defutf8 on

Vim, emacs, xemacs, és nano

A Vim teljes UTF-8 támogatást nyújt, és beépített felismeréssel rendelkezik az UTF-8 fájlokhoz. További információért a Vim szövegszerkesztőben használja a :help mbyte.txt parancsot.

A GNU Emacs 23-as verziója óta, valamint az XEmacs 21.5-ös verziója teljes UTF-8 támogatással rendelkezik. A GNU Emacs 24 emellett támogatja a kétsávos szövegek szerkesztését is.

A nano szövegszerkesztő a 1.3.6-os verziója óta teljes UTF-8 támogatást nyújt.

Shell-ek

Jelenleg a Bash teljes Unicode támogatást nyújt a GNU readline könyvtáron keresztül. A Z Shell pedig Unicode támogatást kínál a unicode USE jelölőzászló használatával.

A C shell, a tcsh és a ksh egyáltalán nem támogatja az UTF-8 karakterkódolást.

Irssi

Az irssi teljes UTF-8 támogatással rendelkezik, bár ehhez a felhasználónak be kell állítania egy opciót.

[irssi]set term_charset UTF-8

Az olyan csatornákon, ahol gyakran cserélnek nem-ASCII karaktereket nem-UTF-8 karakterkészletekben, a /recode parancs használható a karakterek átalakítására. További információért írja be a /help recode parancsot.

Mutt

A Mutt levelezőkliens nagyon jó Unicode támogatással rendelkezik. Az UTF-8 használatához a Mutt email kliensben nem szükséges semmit hozzáadni a beállításfájlokhoz. A Mutt módosítás nélkül fog működni Unicode környezetben, ha minden beállításfájl (beleértve az aláírást is) UTF-8 kódolású.

Note
Előfordulhat, hogy a Mutt által olvasott e-mailekben továbbra is kérdőjelek, '?', jelennek meg. Ennek oka, hogy néhányan olyan levelezőklienst használnak, amely nem jelzi az alkalmazott karakterkészletet. Ezzel kapcsolatban keveset lehet tenni, mint például megkérni őket arra, hogy állítsák be helyesen a kliensüket.

További információkért látogasson el a Mutt Wiki oldalra.

A links és elinks böngészők

Ezek gyakran használt szöveges böngészők, és nézzük meg, hogyan engedélyezhetjük az UTF-8 támogatást rajtuk. elinks és links esetén két módja van ennek: az egyik a böngészőn belüli beállítási opció használata, a másik a konfigurációs fájl szerkesztése. A böngészőn keresztüli beállításhoz nyisson meg egy webhelyet a elinks vagy links böngészővel, majd nyomja meg az Alt + S kombinációt a Beállítások menü megnyitásához, majd válassza a Parancssor beállítások opciót, vagy nyomja meg a T billentyűgombot. Görgessen le és válassza ki az utolsó opciót UTF-8 I/O az Enter billentyűgomb megnyomásával. Ezután mentse el és lépjen ki a menüből. A links esetében előfordulhat, hogy újra meg kell nyomnia az Alt + S kombinációt, majd a S billentyűgombot a mentéshez. A beállításfájl opció az alábbiakban kerül bemutatásra.

CODE UTF-8 engedélyezése az elinks/links számára

## Az elinks esetében szerkessze az <span style="font-family: monospace; font-size: 95%; color: #3c763d; font-weight: 600;">/etc/elinks/elinks.conf</span> vagy <span style="font-family: monospace; font-size: 95%; color: #3c763d; font-weight: 600;">~/.elinks/elinks.conf</span> fájlt, és adja hozzá az alábbi sort.
set terminal.linux.utf_8_io = 1
## A links esetében szerkessze a <span style="font-family: monospace; font-size: 95%; color: #3c763d; font-weight: 600;">~/.links/links.cfg</span> fájlt, és adja hozzá az alábbi sort.
terminal "xterm" 0 1 0 us-ascii utf-8

Samba

A Samba egy szoftvercsomag, amely megvalósítja az SMB (Server Message Block) protokollt UNIX rendszerek számára, mint például a Mac-ek, Linux és FreeBSD. A protokollt néha a Common Internet File System (CIFS) névvel is illetik. A Samba tartalmazza a NetBIOS rendszert is, amelyet fájlmegosztásra használnak Windows-hálózatokon.

Adja hozzá a következő sorokat a [global] szekció alá:

root #nano -w /etc/samba/smb.conf

dos charset = 1255
unix charset = UTF-8
display charset = UTF-8

Tesztelni az egészet

Számos UTF-8 teszt weboldal érhető el, és a legtöbb népszerű Gentoo böngésző teljes UTF-8 támogatással rendelkezik.

Amikor Ön az egyik szövegalapú webböngészőt használja, teljesen biztosnak kell lennie abban, hogy Unicode-kompatibilis parancssort használ.

Ha bizonyos karakterek kb. négyzetszerű dobozokként jelennek meg, amelyekben betűk vagy számok találhatóak, akkor a jelenlegi betűtípus nem tartalmaz glyph-eket ezekhez a karakterekhez. Ehelyett egy dobozt jelenít meg az UTF-8 szimbólum hexadecimális kódjával.

Jelentett problémák és hibák

Rendszerbeállítás-fájlok (az /etc könyvtárban)

A legtöbb rendszerbeállítás-fájl (például /etc/fstab) nem támogatja a UTF-8 karakterkódolást. Ajánlott az ASCII karakterkészlet használata ezekhez a fájlokhoz.

Külső források

The Wikipedia entry for Unicode
The Wikipedia entry for UTF-8
Unicode.org
UTF-8.com
RFC 3629
RFC 2277
Characters vs. Bytes
The GNU C Library: Locales and Internationalization
Unifoundry.com - Unicode Tutorial
unicode USE flag description
This page is based on a document formerly found on our main website gentoo.org.
The following people contributed to the original document: Thomas Martin, Alexander Simonov, Shyam Mani,
They are listed here because wiki history does not allow for any external attribution. If you edit the wiki article, please do not add yourself here; your contributions are recorded on each article's associated history page.