lunes, 26 de julio de 2010

La PC y los idiomas asiáticos

Este artículo explica en forma general las cuestiones a tener en cuenta para lograr escribir en chino u otro idioma asiático con nuestro sistema operativo en español. Con algunas salvedades, también es aplicable a cualquier idioma que no use el alfabeto latino.
Publicado originalmente el 31/12/2008 Creative Commons License



Para poder utilizar tu occidentalizada PC con idiomas asiáticos (o con idiomas no occidentales), deberás encarar tres problemas distintos: introducir caracteres asiáticos, ver (e imprimir) correctamente los caracteres introducidos, y formatear y editar (es decir, ser capaz de cambiar el tamaño, color, orientación, etc.) los caracteres, palabras y párrafos tanto occidentales como orientales.


Aunque en este artículo se tratan los idiomas asiáticos, en general es aplicable también a cualquier idioma que utilice caracteres distintos a los del alfabeto latino, como chino, coreano, japonés, hebreo, árabe, ruso, griego, indio, etc.

Empecemos aclarando responsabilidades:

  • La introducción de los caracteres, occidentales y asiáticos, es responsabilidad del Sistema Operativo (Windows, Linux o el que uses), y depende de la Configuración del soporte de idiomas del Sistema Operativo. En otras palabras, para poder introducir caracteres asiáticos hay que configurar el Sistema Operativo y no el procesador de textos que usas (el cual en adelante supondré que es OpenOffice.org, a mi criterio la mejor suite de oficina existente). Una vez hecho esto, podrás utilizar caracteres asiáticos en cualquier programa que tengas instalado en tu PC... mientras el programa en cuestión lo permita, por supuesto.
  • La visualización de los caracteres, occidentales y asiáticos, es responsabilidad – nuevamente – del Sistema Operativo, y está vinculada con los tipos (también llamados fuentes o tipografías) instalados, o sea, con la Instalación de tipos.
  • El formateo, edición, etc. del texto, sea oriental u occidental, es responsabilidad del programa que utilices que, como dije antes, supondré es OpenOffice.org. Mucha gente piensa – erróneamente – que para poder trabajar con idiomas asiáticos en OpenOffice.org hay que instalar la versión asiática de OpenOffice.org específica para el idioma deseado. Ésto no es necesario, OpenOffice.org en español es perfectamente capaz de trabajar tanto con idiomas asiáticos como con occidentales. Para aprender a habilitar las opciones exclusivas de OpenOffice.org para los idiomas asiáticos, consulta el artículo «Cómo configurar OpenOffice.org para idiomas asiáticos».

Pero mejor vayamos por partes.


Configuración del soporte de idiomas


El aspecto más notable de habilitar el soporte de idiomas asiáticos en el Sistema Operativo es que agrega opciones para poder escribir caracteres asiáticos utilizando un teclado occidental convencional (aunque no es lo único que hace, usualmente también instala tipos y modifica ciertos aspectos internos del Sistema Operativo).

La forma de habilitar el soporte de idiomas asiáticos depende del Sistema Operativo que utilices.
Si usas Ubuntu 9.4 o anterior, puedes leer cómo hacerlo en el artículo «Cómo instalar el soporte para idioma chino en Ubuntu 9.04».
Si usas Ubuntu 9.10 o posterior, puedes leer cómo hacerlo en el artículo «Cómo instalar el soporte de idioma chino en Ubuntu 10.04».
Si usas otra versión de Linux, la ayuda en línea e Internet seguramente te ayudarán a configurarlo.
Si todavía usas un Sistema Operativo privativo, como MS-Windows, consulta los manuales o al soporte técnico... haz valer el costo de la licencia que pagaste.

Una vez hecho esto, se habrá instalado un programa conocido como «IME», que es una sigla en inglés que significa algo así como «(programa) editor de métodos de entrada (de información)» (Input Method Editor)1. Más allá de lo que signifique su nombre, lo esencial que hay que saber es que el IME es el programa que se encarga de capturar las teclas pulsadas en el teclado, procesarlas, mostrar una lista de caracteres asiáticos equivalentes de donde podemos elegir él o los caracteres deseados, e insertar esos caracteres en el programa que estemos utilizando. El IME es un intermediario entre el teclado y la aplicación en uso. La Ilustración 1 muestra el IME de Linux en funcionamiento.

Ilustración 1: El IME llamado «SCIM», típico de Linux, en acción.

Existen muchas formas de escribir caracteres asiáticos con un teclado occidental. En el caso del idioma chino, por ejemplo, un método muy usado – al menos por los occidentales que estamos aprendiendo chino mandarín :) – es el Pinyin, que es una forma de transcribir la fonética utilizando el alfabeto occidental. A cada una de las formas de escribir caracteres orientales se las denomina, precisamente, método de entrada. Un IME es capaz de reconocer varios métodos de entrada distintos para un mismo idioma, por lo que que una vez habilitado el soporte de idiomas asiáticos de tu Sistema Operativo, probablemente tengas que configurar tu IME para que utilice tu método de entrada predilecto (por ejemplo, Pinyin).

Podemos concluir que aprender a escribir en un idioma asiático en nuestra PC es en realidad aprender a utilizar el IME de nuestro sistema operativo con nuestro método de entrada predilecto.

En el artículo «IME: cómo escribir en chino en la PC» encontrarás una explicación un poco más detallada de la función del IME.


Instalación de tipos


La Real Academia Española define tipo como «Pieza de la imprenta y de la máquina de escribir en que está de realce una letra u otro signo.» y «Cada una de las clases de esta letra.». Más comúnmente conocido como tipo de letra, tipografía o fuente (ésta última es una mala traducción del término empleado en inglés, font), un tipo es el conjunto de caracteres (letras, signos, símbolos, numerales, etc.) que comparten un mismo estilo gráfico y un mismo tamaño. El tipo define la forma de los caracteres, cómo se ven dibujados.

Normalmente en una PC existen muchos tipos instalados, como los famosos Times New Roman y Arial del mundo de Windows o sus similares Nimbus Roman y Nimbus Sans del mundo de Linux. Puedes instalar nuevos tipos en forma manual, y al hacerlo los mismos estarán disponibles para todas las aplicaciones de tu PC. Al instalar OpenOffice.org se instalan también los tipos DejaVu Sans, DejaVu Sans Mono, DejaVu Serif y OpenSymbol. La Ilustración 2 muestra estos tipos.

Ilustración 2: Tipos instalados por OpenOffice.org. La cuarta línea muestra algunos caracteres del tipo OpenSymbol.

Para poder ver los caracteres asiáticos que escribes debes instalar primero un tipo que sea compatible con el idioma deseado, es decir, un tipo que contenga los dibujos de los caracteres asiáticos del idioma elegido.

La inmensa mayoría de los tipos sirven sólo para escribir los caracteres occidentales del alfabeto latino. Hay excepciones, como el tipo OpenSymbol por ejemplo, que ofrece pequeños dibujos variados en lugar de los caracteres occidentales (los que en última instancia también son «dibujos», son dibujos de letras). Existen tipos que, además de los caracteres occidentales, contienen la mayoría de los caracteres de los idiomas asiáticos, tipos que contienen los caracteres de algunos idiomas asiáticos, tipos que contienen los caracteres de un sólo idioma asiático y tipos que no contienen ningún carácter asiático.

Si intentas escribir en un idioma asiático utilizando un tipo incompatible, en lugar de los caracteres asiáticos aparecerán espacios vacíos, rectángulos blancos u otros símbolos no menos insulsos. Peor aún, a veces los tipos son parcialmente compatibles (esto es, contienen sólo algunos caracteres asiáticos), y entonces parte del texto asiático aparece bien escrito y parte aparece mal escrito o directamente no aparece. La solución es asegurarse de utilizar un tipo que sea compatible con el idioma en cuestión, en nuestro caso, un tipo compatible con chino mandarín.

En general, los llamados «tipos Unicode» suelen ser compatibles con la mayoría de los idiomas asiáticos. Buscando en Google «unicode font free download» por ejemplo, pueden encontrarse cientos de tipos gratuitos para descargar e instalar.

El Consorcio Unicode es una asociación sin fines de lucro con cede en California (EE.UU.) que tiene como objetivo estandarizar la representación de todos los caracteres del universo, antiguos y modernos, conocidos y por conocer (incluso se está estudiando la incorporación del alfabeto Klingon a raíz de un pedido oficial de los fanáticos de la serie Star Trek2). Sintéticamente, y dicho en forma muy simplificada, el Consorcio Unicode crea una larga tabla ordenada con los caracteres existentes o que alguna vez hayan existido, asignándole a cada uno un número de identificación único. La última versión del Estándar Unicode es la 5.2.0, y tabula más de 107 000 caracteres de todos los alfabetos del mundo, ideogramas y colecciones de símbolos.

Los tipos denominados «Unicode» son los tipos que incluyen al menos una gran porción de los caracteres del estándar Unicode. Todavía no existe un tipo que contenga la totalidad de los caracteres estandarizados por Unicode: el tipo ocuparía tanta memoria en la computadora que sería un desperdicio de recursos, después de todo, ¿cuántas personas escriben con jeroglíficos egipcios diariamente, por ejemplo?

Existen dos tipos Unicode que no deberían faltar en ninguna PC para la escritura de caracteres asiáticos: AR PL UMing y AR PL UKai. Estos dos tipos fueron creados originalmente por la compañía Arphic, que cedió los derechos para hacerlos públicos gratuitamente bajo una licencia de uso libre, y su desarrollo continúa ahora en manos de la comunidad de usuarios. Son considerados dos de los tipos más completos en lo que a caracteres asiáticos respecta: contienen cerca de 27 000 ideogramas cada uno, y el número va en aumento con cada nueva versión. Actualmente, el objetivo de su desarrollo es llegar a incluir todos los caracteres taiwaneses Minna y Hakka, informando al Consorcio Unicode los caracteres faltantes en el estándar para que sean agregados. Por supuesto, también contienen los caracteres del alfabeto occidental, los caracteres de uso cotidiano de la mayoría de las lenguas orientales, letras griegas e incluso las vocales acentuadas necesarias para escribir los tonos en Pinyin.

El tipo AR PL UMing es el sucesor del famoso tipo AR PL ShanHeiSun Uni, mientras el tipo AR PL UKai es el sucesor del no menos famoso tipo AR PL ZenKai Uni. Normalmente ambos tipos se lanzan conjuntamente; al momento de escribir esto, la última versión es la 0.2.20080216.1, que fue lanzada el 16/02/2008, y pueden descargarse desde aquí.

Esta versión trajo la novedad de que cada tipo constituye una «colección Truetype», lo que quiere decir que dentro de cada tipo se incluyen cuatro variantes o «sabores»: CN (estilo simplificado de China y Singapur), HK (estilo tradicional de Hong Kong y Macao), TW (estilo tradicional de Taiwán) y TW MBE (estilo tradicional de Taiwán con extensiones Bopomofo modernas). Estas variantes difieren entre sí en la forma de representación de algunos ideogramas que, pese a ser esencialmente los mismos, se escriben con sutiles diferencias según las preferencias de cada región. La Ilustración 3 muestra las variantes de dos ideogramas según las regiones soportadas. Por el momento hay muy pocos ideogramas en las variantes, las versiones posteriores serán más completas y agregarán más sabores: JP (estilo japonés), KR (estilo coreano) y VM (estilo vietnamita).

Ilustración 3: Dos ideogramas ejemplificando las variantes dentro de una colección Truetype.

Como el nuevo sistema de «sabores» o variantes está en fase de prueba, es posible que algunos programas no sean capaces de mostrarlas, OpenOffice.org sí lo hace. La Ilustración 4 muestra cómo los cuatro sabores de ambos tipos aparecen en OpenOffice.org como si fuesen cuatro tipos distintos cada uno, pese a que en realidad se trata de dos tipos con cuatro variantes cada uno.

Ilustración 4: Los sabores de los tipos AR PL UKai y AR PL UMing en las opciones de OpenOffice.org.

No confundas la variante CN (estilo simplificado de China y Singapur) con los caracteres chinos simplificados ni las variantes TW y TW MBE (estilo tradicional de Taiwán) con los caracteres chinos tradicionales. Tanto AR PL UMing como AR PL UKai (como casi todos los tipos Unicode), incluyen los caracteres simplificados junto con los tradicionales en el mismo tipo. Las variantes o sabores se refieren a diferencias en los trazos de un mismo carácter simplificado o de un mismo carácter tradicional que son populares en las distintas regiones de Asia, es decir, a las diferentes formas de escribir un mismo ideograma.

Antes era muy común ver en el nombre de un tipo la palabra Big5, anunciando que el mismo sólo contenía caracteres chinos tradicionales, o la sigla GB, anunciando que el mismo sólo contenía caracteres chinos simplificados. La aparición de los tipos Unicode (y de computadoras más potentes capaces de manejarlos), hizo que estos tipos quedasen obsoletos. Quizás los tipos más famosos de su época, hoy prácticamente en desuso, sean AR PL KaitiM Big5 y AR PL KaitiM GB – ambos reemplazados por AR PL UKai – y AR PL Mingti2L Big5 y AR PL SungtiL GB – ambos reemplazados por AR PL UMing. Evita utilizar tipos Big5 o GB, los tipos Unicode son mucho más completos, flexibles y prácticos.

El proceso de instalación de los tipos difiere según el Sistema Operativo. Muchos Sistemas Operativos (la mayoría de las distribuciones de Linux, por ejemplo), instalan tipos compatibles automáticamente al configurar el soporte del idioma elegido. Los tipos Unicode compatibles con los idiomas asiáticos ocupan mucho más espacio en el disco rígido que los tipos occidentales (por ejemplo, AR PL UMing «pesa» 20 veces más que Times New Roman), por eso normalmente se instalan recién después de habilitar el soporte asiático. Algunos tipos, como el Arial de MS-Windows, vienen en una versión reducida, que cubre sólo los caracteres occidentales y que se instala por defecto, y una versión denominada «Unicode», que puede reemplazar a la reducida y contiene los caracteres occidentales y la mayoría de los orientales (en realidad ambos son Unicode, el que se instala por defecto está «recortado»).


Configurar OpenOffice.org


La última parte en el proceso de preparación de tu PC para poder utilizar idiomas asiáticos en OpenOffice.org es, precisamente, configurar OpenOffice.org, tema que se trata en el artículo «Cómo configurar OpenOffice.org para idiomas asiáticos».


Artículos relacionados


Tal vez te interese leer también:


1 Hoy otras acepciones más adecuadas para IME están ganando popularidad, como «motor de métodos de entrada» (Input Method Engine) o «entorno de métodos de entrada» (Input Method Environment).

2 No, no es broma. Marc Okrand, un reconocido lingüista norteamericano fue contratado por la Paramount Pictures para crear una gramática, una fonética y un sistema de caracteres para el idioma Klingon, llamado tlhIngan Hol, y los fanáticos de Star Trek desarrollaron y estandarizaron la nueva lengua. Ya existe el soporte de tlhIngan Hol en Linux, numerosas publicaciones, academias del lenguaje, e incluso Google en Klingon.




1 comentario:

Entradas populares