Mundo Web
manuales - recursos - gráficos - programación...

Home - HTML - Etiquetas olvidadas- 1 - 2 - 3 - 4 - 5

LAS ETIQUETAS OLVIDADAS (II)
por Luciano Moreno, del departamento de diseúo web de BJS Software.


El problema de los caracteres y los idiomas.-

Los que somos fanáticos o aficionados a la Red de redes estamos constántemente intercambiando por ella información de todo tipo y en variedad de formatos. Nos enviamos e-mails, navegamos por multitud de páginas web, estamos apuntados a grupos de noticias, etc. Pero ?cómo navega por la Red y cómo se presenta ante nosotros esta información?.

En general, cada protocolo HTTP posee una forma particular de intercambio de datos. Los documentos de HTML, las páginas web, se basan en la transferencia de texto plano, en el que incluimos una serie de etiquetas que nos perrmiten maquetar y dar formato al texto contenido en las páginas. Pero para escribir este texto necesitamos usar una serie de caracteres que nos permitan construir el cuerpo del documento, y este conjunto de signos, en HTML, es limitado y está prefijado, por lo que no tenemos la libertad de acción que nos puede parecer en un principio, si no que tenemos las manos atadas en cuanto a qué caracteres podemos usar al escribir nuestras páginas web.

¿Porqué esta limitación en los signos léxicos que podemos emplear?.

El creador de una página web escribe el texto de la misma en un equipo que está preparado para trabajar en un idioma determinado, normalmente el del país de este, y utiliza un teclado que soporta los caracteres necesarios para representar todas las palabras necesarias de ese idioma.

Una vez escrita la página, se envía al servidor, y para ello el contenido del texto se transforma a un formato adecuado para su transmisión vía Internet. De esta forma, cuando la página se almacena en el servidor web ya no es ese documento claro y bien expresado que creó el diseúador, si no un conjunto de códigos de información, de tal forma que el servidor no sabe nada del idioma en que inicialmente fué escrito ese documento.

Cuando navegador web cliente solicita una página a un servidor web, este divide el contenido del documento en octetos de bits, los empaqueta según el protocolo HTTP y los envía al cliente. Cuando estos datos llegan al navegador, es su misión descomprimir estos paquetes , juntarlos de nuevo para crear el documento original y presentarlo en pantalla. Pero el navegador no sabe en que idioma estaba inicialmente escrito el texto que le llega, ya que en realidad sólo le llegan 0 y 1, y por ello tal vez el conjunto de símbolor que representaban al caracter ú que escribió un creador espaúol se traduzcan en en caracter c en el navegador del visitante, y con ello la página inicial del creador no puede ser vista correctamente por el usuario final.

Esto ocurre porque el formato de transferencia de información entre el servidor web y el navegador asocia 1 único bit de datos para cada caracter, con un orden preestablecido de antemano. Como el sistema está basado en una asignación de 256 bits de memoria para el juego completo de caracteres completo a usar, es facil deducir que en total dispondremos de 256 caracteres diferentes para escribir todo el texto de la página.

Ya que sólo disponemos de este limitado conjunto de caracteres, surge la necesidad de establecer de alguna forma un patrón común para todos los documentos, de tal forma que sea quién sea la persona que pide nuestra página al servidor web tengamos la seguridad de que va a verla correctamente, tal como nosotros la escribimos.

Pero con 256 caracteres no podemos representar todos los posibles idiomas que hay en el mundo, por lo que este patrón además debe procurar mecanismos o trucos para convertir los caracteres que no entren en los 256 adoptados como estándares a caracteres válidos, que puedan ser luego mostrados correctamente en la ventana del navegador.

Además, aunque todos los navegadores web deberían presentar los caracteres de las páginas de acuerdo con este patrón, la realidad no es así, y el juego usado por cada navegador depende de este, del sistema operativo usado e incluso de si el equipo es un PC o es un Mac.

Por este motivo se han adoptado una serie de juegos de caracteres diferentes, que puedan cubrir la totalidad de los idiomas comúnmente usados en Internet. Los más empleados están formados por un conjunto de caracteres comunes a todos ellos, los 128 primeros de la lista ( la famosa tabla de caracteres ASCII 160)(ASCII: American Standard Coding for the Interchange of Information), que incluyen todos los caracteres alfabéticos y numéricos comunes, junto con la mayoría de los símbolos presentes en los teclados estándar, y los demás hasta el 256 son propios de un idioma determinado.

Referencias a caracteres

Es posible también referirse a los caracteres no comunes en los diferentes idiomas mediante las denominadas REFERENCIAS A CARACTERES, que consisten en representar los caracteres especiales por medio de un grupo de los comunes, logrando de este modo expresar cualquier caracter posible por medio de los 128 estándar. Es lo que ocurre por ejemplo con nuestra letra ú o con los acentos castellanos.

Las referencias a caracteres se pueden incluir en un documento HTML de dos formas diferentes:


Trabajando con estas referencias a caracteres podemos escribir en nuestro documento HTML las palabras que deseemos y en el idioma que queramos, ya que son interpretadas igual por todos los sistemas y navegadores, al quedar reducido todo el contenido a caracteres ASCII de 7 bits.

A este grupo de caracteres especiales pertenecen también aquellos que HTML se guarda para escribir sus etiquetas, como < (&lt;), > (&gt;), espacios en blanco (&nbsp;), & (&amp;) y " (&quot;):

La tabla completa de referencias a caracter podeís verla en la siguiente ventana.

De esta forma, tendremos que escribir las palabras en castellano como Espa&ntilde;a, acci&oacute;n o cig&uuml;e&ntilde;a, en vez de España, acción y cigüeña.

anterior
siguiente

Home - HTML - Etiquetas olvidadas- 1 - 2 - 3 - 4 - 5