Capítulo 8. I18N y L10N

Tabla de contenidos

El Multilenguaje (M17N) o Soporte del Lenguaje Propio para el software de aplicaciones se realiza en dos pasos.

Internacionalización (I18N): para hacer que el software sea capaz de gestionar múltiples configuraciones dependiendo de la configuración regional.
Localización (L10N): para hacer que el software sea capaz de gestionar la configuración regional.

	Sugerencia
	Hay 17, 18 o 10 letras entre "m" y "n", "i" y "n", o "l" y "n" en multilingüalización, internacionalización y localización que corresponden a M17N, I18N y L10N. Véase Internacionalización y localización para más detalles.

8.1. Configuración regional

El programa admite la internacionalización mediante la configuración de la variable de entorno "$LANG" para admitir la localización. La compatibilidad con la configuración regional real se basa en las características proporcionadas por la biblioteca libc y requiere que se instalen los paquetes locales o locales-all. El paquete locales debe inicializarse correctamente.

Si no están instalados los paquetes locales o locales-all, se pierde el soporte de las características de localización y el sistema utiliza mensajes en inglés de EE.UU. y maneja los datos como ASCII. Este comportamiento es el mismo que "$LANG" es establecido por "LANG=", "LANG=C", o "LANG=POSIX".

Los programas modernos como GNOME y KDE son multilingües. Se internacionalizan haciendo que manejen datos UTF-8 y se localizan proporcionando sus mensajes traducidos a través de la infraestructura gettext(1). Los mensajes traducidos pueden darse como paquetes de localización independientes.

El sistema GUI de escritorio Debian actual normalmente establece la configuración local en el entorno GUI como "LANG=xx_YY.UTF-8". Aquí, "xx" es Códigos de idioma ISO 639 y "YY" es Códigos de idioma ISO 3166. Estos valores se establecen mediante el diálogo de la GUI de configuración del escritorio y cambian el comportamiento del programa. Ver Sección 1.5.2, “La variable «$LANG»”

8.1.1. Razón de ser de la configuración regional UTF-8

La representación más simple de los datos de texto es ASCII que es suficiente para el inglés y usa menos de 127 caracteres (representable con 7 bits).

Incluso texto plano en inglés puede contener caracteres que no perteneces a ASCII, p. ej. las comillas ligeramente inclinadas a izquierda y derecha no están incluidas en ASCII.

“double quoted text” is not "double quoted ASCII"
‘single quoted text’ is not 'single quoted ASCII'

Para admitir más caracteres, se han utilizado muchos conjuntos de caracteres y sistemas de codificación para admitir muchos idiomas (consulte Tabla 11.2, “Relación de valores de codificación y su uso”).

EL conjunto de caracteres Unicode puede representar prácticamente todos los caracteres conocidos por humanos con un rango de punto de código de 21 bits (es decir, 0 a 10FFFF en notación hexadecimal).

El sistema de codificación de texto UTF-8 ajusta los puntos de código Unicode en un flujo de datos sensible de 8 bits, en su mayoría compatible con el sistema de procesamiento de datos ASCII. Esto hace que UTF-8 sea la opción preferida moderna. UTF representa el Formato de Transformación Unicode. Cuando los datos de texto sin formato ASCII se convierten en uno UTF-8, tienen exactamente el mismo contenido y tamaño que el original ASCII. Así que no pierde nada utilizando la configuración regional UTF-8.

En la local UTF-8 con el programa de aplicación compatible, puede mostrar y editar cualquier dato de texto en un idioma extranjero siempre que las fuentes y los métodos de entrada requeridos estén instalados y habilitados. Por ejemplo, en la configuración local "LANG=fr_FR.UTF-8", gedit(1) (editor de texto para el escritorio GNOME) puede mostrar y editar datos de texto de caracteres chinos mientras presenta menús en francés.

Sugerencia

Tanto la nueva configuración "en_US.UTF-8" como la antigua configuración local estándar "C"/"POSIX" utilizan el mensaje en inglés estadounidense estándar, tienen diferencias sutiles en el orden de clasificación, etc. Si desea manejar no solo los caracteres ASCII, sino también todos los caracteres codificados en UTF-8 con elegancia mientras mantiene el antiguo funcionamiento local "C", use la configuración local no estándar "C.UTF-8" en Debian.

	Nota
	Algunos programas utilizan más memoria después de configurarlos con l18N. Esto es debido a que se han escrito para utilizar UTF-32(UCS4) internamente para utilizar Unicode con el fin de optimizar la velocidad y utilizan 4 bytes por cada carácter ASCII con independencia de la configuración regional seleccionada. Nuevamente, no se pierde nada por utilizar como configuración regional UTF-8.

8.1.2. Reconfiguración de la configuración regional

Para que el sistema acceda a un lugar en particular, los datos del lugar deben compilarse desde la base de datos del lugar.

El paquete locales no viene con datos locales precompilados. Necesitas configurarlo como:

# dpkg-reconfigure locales

Este proceso consta de 2 pasos.

Selecciona todas las configuraciones regionales que desea compilar al formato binario. (Asegúrate de incluir al menos una configuración regional UTF-8)

Establece el valor de la configuración regional predeterminada para todo el sistema creando "/etc/default/locale" para que lo utilice PAM (consulta Sección 4.5, “PAM y NSS”).

El valor de la configuración regional predeterminada para todo el sistema establecido en "/etc/default/locale" se puede anular por la configuración GUI para aplicaciones GUI.

	Nota
	El sistema de codificación tradicional real puede identificarse mediante "`/usr/share/i18n/SUPPORTED`". Así, el "`LANG=en_US`" es "`LANG=en_US.ISO-8859-1`".

El paquete locales-all viene con datos de configuración regional precompilados para todos los datos de la configuración regional. Dado que no crea "/etc/default/locale", es posible que también necesite instalar el paquete locales.

	Sugerencia
	El paquete `locales` de algunas distribuciones derivadas de Debian viene con los datos de la configuración regional precompilados para todas las configuraciones regionales. Necesitas instalar ambos paquetes `locales` y `locales-all` en Debian para emular dicho entorno de sistema.

8.1.3. Codificación del nombre de archivo

Para el intercambio de datos entre plataformas (ver Sección 10.1.7, “Dispositivos de almacenamiento extraíbles”), puede necesitar montar un sistema de archivos con una codificación adecuada. Por ejemplo, mount(8) para el sistemas de archivos vfat da por sentado CP437 si se utiliza sin opciones. Necesitará dar al montar una opción explícita para utilizar UTF-8 o CP932 para los nombres de archivos.

	Nota
	When auto-mounting a hot-pluggable USB flash drive under modern desktop environment such as GNOME, you may provide such mount option by right clicking the icon on the desktop, click "Drive" tab, click to expand "Setting", and entering "utf8" to "Mount options:". The next time this USB flash drive is mounted, mount with UTF-8 is enabled.

Nota

Si esta actualizando su sistema o modificando los discos duros desde un sistema antiguo que no soporta UTF-8, los nombres de los archivos con caracteres que no son ASCII se pueden codificar con la histórica y obsoleta ISO-8859-1 o eucJP. Por favor busque ayuda entre las herramientas de conversión de texto para convertirlas a UTF-8. Ver Sección 11.1, “Herramientas para la conversión de información en formato texto”.

Samba, por defecto, utiliza Unicode para los clientes nuevos (Windows NT, 200x, XP) pero utiliza CP850 para los viejos (DOS and Windows 9x/Me). El valor por defecto de los clientes viejos se puede cambiar modificando la entrada«dos charset» en el archivo «/etc/samba/smb.conf», p. ej. a CP932 para el japonés.

8.1.4. Configuración regional de los mensajes y documentación traducida

Existen traducciones para muchos de los mensajes de texto y documentos que el sistema Debian muestra, como los mensajes de error, salida estándar de los programas, menús y páginas de manual. El conjunto de herramientas GNU gettext(1) se usan como respaldo para la mayoría de las actividades relacionadas con la traducción.

En «Tareas« → «Configuración regional« aptitude(8) tiene una relación muy completa de paquetes binarios útiles los cuales proporcionan mensajes según la configuración regional de las aplicaciones y documentación traducida.

Por ejemplo, puede tener los mensajes según su configuración regional instalando el paquete manpages-LANG. Para leer la página de man en italiano de nombre_del_programadesde «/usr/share/man/it/», ejecute lo siguiente.

LANG=it_IT.UTF-8 man programname

GNU gettext puede acomodar una lista prioritaria de idiomas en la traducción con la variable del entorno $LANGUAGE. Por ejemplo:

 $ export LANGUAGE="pt:pt_BR:es:it:fr"

Para más información, consulta info gettext y lee la sección "La variable LANGUAGE".

8.1.5. Efectos de la configuración regional

El orden de los caracteres con sort(1) y ls(1) se ve afectado por la configuración regional. La exportación de LANG=es_US.UTF-8 ordena en el diccionario A->a->B->b... ->Z->z, mientras que exportar LANG=C.UTF-8 ordena en el orden binario ASCII A->B->...->Z->a->b....

El formato de fecha de la ls(1) se ve afectado por la configuración regional (ver Sección 9.3.4, “Personalización de la visualización de la fecha y hora”).

El formato de la fecha de fecha(1) se ve afectado por la configuración regional. Por ejemplo:

 $ unset LC_ALL
 $ LANG=en_US.UTF-8 date
Thu Dec 24 08:30:00 PM JST 2023
 $ LANG=en_GB.UTF-8 date
Thu 24 Dec 20:30:10 JST 2023
 $ LANG=es_ES.UTF-8 date
jue 24 dic 2023 20:30:20 JST
 $ LC_TIME=en_DK.UTF-8 date
2023-12-24T20:30:30 JST

La puntuación numérica es diferente en las diferentes configuraciones regionales. Por ejemplo, en la configuración regional en Inglés, mil punto uno se muestra como "1,000.1", mientras que en la configuración regional en alemán, se muestra como "1.000, 1". Puedes ver la diferencia en los programas de hojas de cálculo.

Cada detalle de la variable del entorno "$LANG" se puede anular configurando las variables "$LC_*". Estas variables del entorno se pueden volver a anular configurando la variable $LC_ALL". Ver la página man locale(7) para obtener más detalles. A menos que tengas una razón de peso para crear configuraciones complejas, mantente alejado de ellas y simplemente usa la variable "$LANG" para establecer una configuración regional UTF-8.

8.2. La entrada por teclado

8.2.1. Teclado de entrada para la consola Linux y X Window

El sistema Debian puede configurarse para trabajar con muchas disposiciones internacionales del teclado utilizando los paquetes keyboard-configuration y console-setup.

# dpkg-reconfigure keyboard-configuration
# dpkg-reconfigure console-setup

Para la consola de Linux y el sistema X Window, esto actualiza los parámetros de configuración en "/etc/default/keyboard" y "/etc/default/console-setup". Esto también configura la fuente de la consola de Linux. Muchos caracteres no ASCII, incluyendo los caracteres acentuados utilizados por muchos idiomas europeos, pueden estar disponibles con dead key, AltGr key, y compose key.

8.2.2. La entrada por teclado para Wayland

Para GNOME en el sistema de escritorio Wayland, Sección 8.2.1, “Teclado de entrada para la consola Linux y X Window” no admite idiomas europeos distintos del inglés. IBus se creó para admitir no solo idiomas asiáticos sino también idiomas europeos. La dependencia del paquete del entorno de escritorio GNOME recomienda "ibus" a través de "gnome-shell". El código de "ibus" se ha actualizado para integrar las funcionalidades de las opciones setxkbmap y XKB. Debe configurar ibus desde "Configuración de GNOME" o "Ajustes de GNOME" para la entrada de teclado multilingüe.

	Nota
	Si ibus está activo, la configuración de su teclado X clásico por `setxkbmap` se puede anular por `ibus` incluso en un entorno de escritorio clásico basado en X. Puede deshabilitar `ibus` instalado usando `im-config` para establecer el método de entrada en "None". Para más información, ver Wiki de Debian en el teclado.

8.2.3. El soporte al método de entrada con lBus

Ya que el entorno de escritorio GNOME recomienda "ibus" a través de "gnome-shell", "ibus" es la mejor opción para el método de entrada.

La entrada multilenguaje a una aplicación se procesa como:

Keyboard                                       Application
   |                                                 ^
   |                                                 |
   +-> Linux kernel ->  Input method (ibus)  -> Gtk, Qt, X, Wayland
                          +-- Engine--+

La lista de IBus y sus paquetes son los siguientes.

Tabla 8.1. Lista de IBus y sus paquetes

paquete	popularidad	tamaño	soporte de la configuración regional
ibus	V:219, I:264	1874	infraestructura de método de entrada utilizando dbus
ibus-mozc	V:2.0, I:3.7	980	Japonés
ibus-anthy	V:0.6, I:1.2	8965	Japonés
ibus-skk	V:0.05, I:0.17	242	Japonés
ibus-kkc	V:0.06, I:0.19	211	Japonés
ibus-libpinyin	V:1.3, I:4.6	2769	Chino (para zh_CN)
ibus-chewing	V:0.14, I:0.81	288	Chinese (for zh_TW)
ibus-libzhuyin	V:0.01, I:0.12	41009	Chinese (for zh_TW)
ibus-rime	V:0.28, I:0.52	78	Chinese (for zh_CN/zh_TW)
ibus-cangjie	V:0.01, I:0.14	235	Chinese (for zh_HK)
ibus-hangul	V:0.4, I:2.2	264	Coreano
ibus-libthai	V:0.00, I:0.05	84	Tailandés
ibus-table-thai	I:0.05	59	Tailandés
ibus-unikey	V:0.19, I:0.35	286	vietnamita
ibus-keyman	V:0.04, I:0.21	191	Multilingüe: motor Keyman para más de 2000 idiomas
ibus-table	V:0.1, I:1.1	2271	tabla del motor de lBus
ibus-m17n	V:0.2, I:1.9	448	Multilenguaje: Indo, Árabe y otros

The Fcitx (version 5) input method framework is popular with Chinese users and compatible with "ibus".

The list of "fcitx5" and its engine packages are the following.

Tabla 8.2. List of Fcitx5 and its engine packages

paquete	popularidad	tamaño	soporte de la configuración regional
fcitx5	V:6, I:11	760	input method framework compatible with "`ibus`"
fcitx5-mozc	V:1.0, I:1.6	1262	Japonés
fcitx5-anthy	V:0.06, I:0.21	802	Japonés
fcitx5-skk	V:0.05, I:0.17	364	Japonés
fcitx5-kkc	V:0.00, I:0.08	409	Japonés
fcitx5-chinese-addons	I:8.6	18	Chinese (metapackage for zh_*)
fcitx5-pinyin	V:3.3, I:9.0	1000	Chino (para zh_CN)
fcitx5-chewing	V:0.2, I:1.2	213	Chinese (for zh_TW)
fcitx5-zhuyin	I:0.07	41044	Chinese (for zh_TW)
fcitx5-rime	V:0.36, I:0.71	365	Chinese (for zh_CN/zh_TW)
fcitx5-table-cangjie-large	I:0.11	1292	Chinese (for zh_HK)
fcitx5-hangul	V:0.07, I:0.22	231	Coreano
fcitx5-libthai	I:0.06	114	Tailandés
fcitx5-table-thai	I:0.09	34	Tailandés
fcitx5-unikey	V:0.06, I:0.17	586	vietnamita
fcitx5-m17n	V:0.15, I:0.58	255	Multilenguaje: Indo, Árabe y otros
fcitx5-table	V:0.3, I:8.8	518	table engine for fcitx5
fcitx5-keyman	V:0.04, I:0.06	234	Multilingüe: motor Keyman para más de 2000 idiomas

8.2.4. Ejemplo para el japonés

Encuentro que es muy útil el método de entrada en japonés iniciado en el entorno en inglés ("en_US.UTF-8"). Así es como hice esto con IBus para GNOME en Wayland:

Instale el paquete de herramientas de entrada para el japonés ibus-mozc (o ibus-anthy) con sus paquetes recomendados como im-config.
Seleccioné «Configuración« → «Teclado« → «Método de entrada« → pulsé «+» en «Métodos de entrada« → «Japonés« → "Mozc japonés (o anthy)" y haga clic en "Agregar" si no se ha activado.
Puede elegir tantas fuentes de entrada como desee.
Volver a entrar con su cuenta de usuario.
Configure la fuente de entrada pulsado el botón derecho en el icono de la barra de herramientas del interfaz gráfico de usuario.
Cambie entre fuentes de entrada con el SUPER-ESPACIO (habitualmente la tecla de Windows).

	Sugerencia
	Si desea tener acceso al entorno de teclado solo alfabético con el teclado japonés físico en el que shift-`2` tiene grabado `"` (comillas dobles), seleccione "Japonés" en el procedimiento anterior. Puede ingresar japonés usando "Mozc japonés (o anthy)" con un teclado físico "EE. UU." en el que shift-`2` tiene `@` (marca de arroba) grabado.

La entrada del menú del interfaz gráfico de usuario de im-config(8) es "método de entrada".
Alternativamente, ejecute "im-config" desde el shell del usuario.
im-config(8) se comporta de forma diferente si la orden se ejecuta como superusuario o no.
im-config(8) activa el mejor método de entrada en el sistema por defecto sin la intervención del usuario.

8.3. La salida por pantalla

La consola de Linux solo puede mostrar un número limitado de caracteres. (Necesita un programa de terminal especial como ifbterm(1) para visualizar lenguajes no europeos en una consola que no sea X).

El entorno GUI (Capítulo 7, Sistema GUI (interfaz gráfica de usuario)) puede mostrar cualquier carácter en UTF-8 siempre que las fuentes requeridas estén instaladas y habilitadas. (La codificación de los datos de la fuente original se cuida y es transparente para el usuario).

8.4. Ancho de los caracteres ambiguos de Asia oriental

Under the East Asian locale, the box drawing, Greek, and Cyrillic characters may be displayed wider than your desired width to cause the unaligned terminal output (see Unicode Standard Annex #11, 4.2 Ambiguous Characters).

Puede solucionar este problema:

gnome-terminal: Preferencias → Archivos de configuración → Nombre de configuración → Compatibilidad → Caracteres con ancho ambiguo → Estrecho
ncurses: asigne en el entorno export NCURSES_NO_UTF8_ACS=0.


Capítulo 7. Sistema GUI (interfaz gráfica de usuario)		Capítulo 9. Trucos del sistema