Estándares de codificación de caracteres y Dreamweaver

via Cristalab by Siriö on 11/30/09


Dada la importancia de la legibilidad y claridad de los contenidos, se puede publicar Sitios Web que visualicen distintos caracteres en distintos idiomas.

Adobe Dreamweaver CS4, puede publicar contenidos escritos en distintos idiomas simultáneamente, mediante procedimientos llamados Codificación.

Unicode

Es el estándar de codificación de caracteres diseñado para facilitar la transmisión y visualización de textos de múltiples lenguajes, ideogramas, dialectos y lenguas muertas.

Los puntos de codigo de Unicode se identifican por un número entero. Según su arquitectura, un ordenador utilizará unidades de 8, 16 o 32 bits para representar dichos enteros. Las formas de codificación de Unicode reglamentan la forma en que los puntos de código se transformaran en unidades tratables por el computador.

Unicode incluye sistemas de escritura modernos como: Árabe, Braille, Copto, Cirílico, Griego, Han (Kanji, Hanja y Hanzi), Japonés (Kanji, Hiragana y Katakana), Hebreo y Latino. Escrituras históricas menos utilizadas, incluso aquellas extinguidas como Cuneiforme, Griego antiguo, Lineal B micénico, Fenicio y Rúnico.

Entre los caracteres no que no forman parte de alfabetos se encuentran símbolos musicales y matemáticos, fichas de juegos como Mahjong, Domino, Flechas, Iconos, etc.

Además Unicode dispone de versiones predefinidas de la mayoría de combinaciones de letras y símbolos diacríticos en uso en la actualidad y define mecanismos de combinación de caracteres.

Unicode define tres formas de codificación bajo el nombre UTF o Formato de Transformación Unicode (Unicode Transformation Format):

  • UTF-8: codificación orientada a byte con símbolos de longitud variable
  • UTF-16: codificación de 16 bits de longitud variable optimizada para la representación del plano básico multilingüe (BMP)
  • UTF-32: codificación de 32 bits de longitud fija, y la más sencilla de las tres

UTF-8

Formato de codificación de caracteres Unicode utilizando símbolos de longitud variable. UTF-8 divide los caracteres Unicode en varios grupos, en función del número de bytes necesarios para codificarlos. El número de bytes depende exclusivamente del código de carácter asignado por Unicode y del número de bytes necesario para representarlo.

UTF-16

Código de caracteres que proporciona una forma de representar caracteres unicode e ISO/IEC 10646 como una serie de palabras de 16 bits y 24 bits susceptibles de ser almacenados o transmitidos a través de redes de datos.

La codificación de los mapas de cada carácter a una secuencia de palabras de 16 bits. Los Caracteres son conocidos como puntos de código y las palabras de 16 bits que se conoce como código de unidades. Para los caracteres en el Plano Multilingüe Básico (BMP), la codificación resultante es una sola palabra de 16 bits. Para los caracteres en los otros planos, la codificación se traducirá en un par de palabras de 16 bits, así como un sustituto llamado par. Todos los posibles puntos de código a partir de U+0000 a través de U+10FFFF, a excepción de la sustitución, los puntos de código U+D800–U+DFFF (que no son caracteres), se asigna únicamente en UTF-16, independientemente del punto de código del carácter actual o futura cesión o el uso.

UTF-32

Protocolo de codificación de caracteres Unicode que utiliza exactamente 32 bits para cada punto de código Unicode. Todos los demás formatos de transformación de Unicode usan codificaciones de longitud variable.

Dado que UTF-32 usa 4 bytes para cada carácter de espacio es bastante ineficiente. En concreto, lo caracteres BMP no son tan raras en la mayoría de los textos, que pueden muy bien ser considerado como inexistente conversaciones para determinar el tamaño, haciendo UTF-32 entre dos y cuatro veces el tamaño de otras codificaciones.

BOM

Marca de orden de bytes o (BOM, por el inglés Byte Order Mark) es el carácter Unicode U+FEFF en code point (espacio no-separable de anchura-cero, en inglés zero-width no-break space), cuando este carácter se emplea para marcar el endianness (la orientación de escritura del flujo de bytes) de una cadena de caracteres UCS/Unicode con código en UTF-16 o UTF-32 y/o como marca para indicar que el texto está codificado en UTF-8, UTF-16 o UTF-32.

Procedimiento de Codificación

Para que las páginas se visualicen en distintos caracteres, se debe codificar el documento en un formato Unicode establecido.

  1. Crearemos una pagina nueva, Archivo>Nuevo o Ctrl+N y se muestra los detalles del Tipo de Pagina y Diseño
  2. Presionamos sobre el botón Preferencias, vemos los parámetros para un Nuevo Documento:
    • Documento Predeterminado: Podemos elegir entre HTML, Js, ASP, PHP, ActionScript, entre otras…
    • Formato de Archivo: Podemos editar manualmente la extensión
    • Tipo de Documento: Definimos la descripción de estructura y sintaxis del documento:
      • HTML 4.01 Estricto: Nueva versión de HTML 4 con opciones de multimedia, lenguajes de scripts, hojas de estilo, mejores servicios de imprenta, y los documentos que son más accesibles a los usuarios con discapacidad
      • HTML 4.01 Transicional: Nueva versión de HTML 4 compatible con versiones anteriores
      • XHTML 1.0 Estricto: Es similar a HTML cumpliendo con las especificaciones XML, para definir estructuras CSS
      • XHTML 1.0 Transicional: Tipo de documento XHTML 1 compatible con navegadores antiguos
      • XHTML 1.1: Una reformulación de XHTML 1.0 Strict usando módulos definidos y frameworks XHTML. El propósito de este tipo de documento es servir de base para el futuro XHTML ampliado la familia de “tipos de documentos” y proporcionar una respuesta coherente, con visión de futuro de tipo de documento limpiamente separada de la obsoleta
      • XHTML Movile 1.0: DTD específicos para dispositivos móviles.
    • Codificación Predeterminada: Lista de Entidades de Caracteres para un lenguaje determinado.

      Si especifica Occidental Europeo (Latin), se insertará esta etiqueta meta:

      Código :

      <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

      Si especifica japonés (Shift JIS), se insertará esta etiqueta meta:

      Código :

      <meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS">

      Si especifica Multilingüe ( Unicode UTF-8 ), se insertará esta etiqueta meta:

      Código :

      <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

      Si selecciona Unicode ( UTF-8 ) como codificación predeterminada, puede incluir una marca de orden de bytes (BOM) en el documento seleccionando la opción Incluir firma Unicode (BOM). Una BOM está formada por entre 2 y 4 bytes situados al comienzo de un archivo de texto que identifican a un archivo como Unicode y, en este caso, el orden de los bytes siguientes. Dado que UTF-8 carece de orden de bytes, la adición de una BOM UTF‑8 es opcional. Es obligatoria en el caso de UTF-16 y UTF-32.

      Puede poner tilde a “Utilizar al Abrir Archivos” para que una pagina codifique automáticamente un documento no definido.

      • Formulario de Normas Unicode: Normalización de codificaciones elegidas, normalización es el proceso mediante el cual se verifica que todos los caracteres que se pueden guardar de formas diferentes se guardan de la misma forma.
      • C (Descomposición canónica, seguido por Composición Canoníca): Generar la descomposición canónica de la cadena origen S de acuerdo con las asignaciones de la descomposición en la última versión de la base de datos de caracteres Unicode. Iterar a través de cada carácter que C en descomposición, de la primera a la última. Si C no está bloqueada desde el último arranque L y puede ser primaria en combinación con L, y luego sustituir el compuesto por LC y eliminar C.
      • D (Descomposición Canoníca): Es el proceso de adopción de una cadena, la sustitución de compuestos recursivamente caracteres Unicode utilizando la descomposición canónica asignaciones (incluido el algorítmico Hangul descomposición canónica asignaciones).
      • KC (Compatibilidad de descomposición, seguido por Composición Canoníca): Generar la descomposición de la compatibilidad de la cadena origen S de acuerdo con las asignaciones de la descomposición en la última versión de la base de datos de caracteres Unicode. Iterar a través de cada carácter que C en descomposición, de la primera a la última. Si C no está bloqueada desde el último arranque L y puede ser primaria en combinación con L, y luego sustituir el compuesto por LC y eliminar C.
      • KD (Descomposición de Compatibilidad): Es el proceso de adopción de una cadena, la sustitución de compuestos recursivamente caracteres Unicode utilizando la descomposición canónica asignaciones (incluida la descomposición canónica algorítmica Hangul asignaciones) y la compatibilidad con Unicode asignaciones de descomposición, y poner el resultado en el orden canónico.
    • Podemos incluir una firma BOM en todos los documentos que generemos.

Una vez definida la incorporación de los contenidos en distintos idiomas se guarda el archivo (Ctrl+S) y se publica

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: