UTF-8
Estándar ISO 10646 (Unicode)
Idioma plurilingüe Ver y modificar los datos en Wikidata
Estado En uso
Anterior UTF-1

UTF-8 (8-bit Unicode Transformation Format) es un formato de codificación de caracteres Unicode e ISO 10646 que utiliza símbolos de longitud variable. UTF-8 fue creado por Robert C. Pike y Kenneth L. Thompson. Está definido como estándar por la <RFC 3629> de la Internet Engineering Task Force (IETF).[1]​ Actualmente es una de las tres posibilidades de codificación reconocidas por Unicode y lenguajes web, o cuatro en ISO 10646.

Sus características principales son

Estas características lo hacen atractivo en la codificación de correos electrónicos y páginas web.[2][3]​ El IETF requiere que todos los protocolos de Internet indiquen qué codificación utilizan para los textos y que UTF-8 sea una de las codificaciones contempladas.[4]​ El Internet Mail Consortium (IMC) recomienda que todos los programas de correo electrónico sean capaces de crear y mostrar mensajes codificados utilizando UTF-8.[5]

Historia

UTF-8 fue ideado por Kenneth L. Thompson bajo los criterios de diseño de Rob Pike el 2 de septiembre de 1992. Ambos lo implementaron e implantaron en su sistema operativo Plan 9 from Bell Labs. Posteriormente fue oficialmente presentado en la conferencia USENIX en San Diego en enero de 1993. Fue promovido a estándar con el patrocinio de X/Open Joint Internationalization Group (XOJIG) y durante el proceso recibió diferentes nombres como FSS/UTF y UTF-2.[1]

Descripción

UTF-8 divide los caracteres Unicode en varios grupos, en función del número de bytes necesarios para codificarlos. El número de bytes depende exclusivamente del código de carácter asignado por Unicode y del número de bytes necesario para representarlo. La distribución de caracteres es la siguiente:

Una propiedad importante de la codificación es que los bits más significativos del primer byte de una secuencia multi-byte determinan la longitud de la secuencia. Estos bits más significativos 110 para secuencias de dos bytes; 1110 para secuencias de tres bytes, etc. Estos bits además proporcionan la información de sincronía que permite identificar el inicio de un símbolo.

Codificación de los caracteres

La tabla siguiente muestra la forma en que se codifican los caracteres. Los valores fijos al principio de cada byte garantizan el cumplimento del principio de no superposición, pues son distintos en función de la posición del byte en la cadena. Se incluye también la codificación UTF-16 para ver la diferencia con una codificación de número fijo de bytes.

Rango de puntos
UNICODE
Valor escalar UTF-16 UTF-8 Notas
000000-00007F 00000000 0xxxxxxx 00000000 0xxxxxxx 0xxxxxxx Rango equivalente a US-ASCII. Símbolos de un único byte donde el bit más significativo es 0
000080-0007FF 00000yyy yyxxxxxx 00000yyy yyxxxxxx 110yyyyy 10xxxxxx Símbolos de dos bytes. El primer byte comienza con 110, el segundo byte comienza con 10
000800-00FFFF zzzzyyyy yyxxxxxx zzzzyyyy yyxxxxxx 1110zzzz 10yyyyyy 10xxxxxx Símbolos de tres bytes. El primer byte comienza con 1110, los bytes siguientes comienzan con 10
010000-10FFFF 000uuuuu zzzzyyyy yyxxxxxx 110110ww wwzzzzyy
110111yy yyxxxxxx
(wwww = uuuuu - 1)
11110uuu 10uuzzzz 10yyyyyy 10xxxxxx Símbolos de cuatro bytes. El primer byte comienza con 11110, los bytes siguientes comienzan con 10

Siguiendo el esquema anterior, sería posible incrementar el tamaño máximo del símbolo de 4 a 6 bytes. La definición de UTF-8 dada por Unicode no admite esta posibilidad que sí es admitida por ISO/IEC.[6]

Ejemplo: Codificación del carácter Unicode ñ.

Veamos, a modo de ejemplo, cómo se codifica en UTF-8 el carácter eñe (ñ), que en Unicode corresponde con el punto de código U+00F1:

Para recuperar el punto de código original se realiza el proceso inverso, descomponiendo las secuencias de bits en sus componentes y tomando solo los bits necesarios.

Errores de codificación

Las normas de codificación establecen, por lo tanto, límites a las cadenas que se pueden formar. Según la norma, un intérprete de cadenas debe rechazar como inválidos, y no tratar de interpretar, las caracteres mal formados. Un intérprete de cadenas UTF-8 puede cancelar el proceso señalando un error, omitir los caracteres mal formados o reemplazarlos por un carácter U+FFFD (REPLACEMENT CHARACTER).

Los siguientes son errores de codificación:

Byte order mark (BOM)

Cuando se sitúa al inicio de una cadena UTF-8, un carácter 0xFEFF, codificado en UTF-8 como 0xEF,0xBB,0xBF, se denomina Byte Order Mark (BOM) e identifica el contenido como una cadena de caracteres Unicode. Cuando este carácter se encuentra en otro lugar de la cadena debe ser interpretado con su significado original Unicode (ZWNBSP). Al ser UTF-8 una codificación en la que la unidad de información es el byte, no tiene la utilidad que sí tiene en UTF-16 y UTF-32 de identificar el orden de bytes en una palabra (endianness).

La especificación no recomienda o desaconseja la utilización de BOM, aunque sí desaconseja eliminarlo si existe como medida de seguridad, previendo errores en aplicaciones de firma digital, etc. También advierte que debe ser eliminado en operaciones de concatenación para impedir que se mantenga en posiciones no iniciales.

Derivaciones de UTF-8

Las siguientes normas de codificación presentan diferencias con la especificación UTF-8 y son, por lo tanto, incompatibles con ella.

CESU-8

Esta implementación realiza una traducción directa de la cadena de caracteres representada con UTF-16 en lugar de codificar los puntos de código Unicode. El resultado es codificaciones diferentes para caracteres Unicode con código superior a 0xFFFF.[1]Oracle, a partir de la versión 8, implementa CESU-8 con el alias UTF8 y, a partir de la versión 9, UTF-8 estándar con otro alias.[7]​ Java y Tcl utilizan esta codificación.[cita requerida]

UTF-8 modificado

Con UTF-8 modificado, el carácter nulo se codifica como 0xC080 en lugar de 0x00. De esta forma un texto que contenga el carácter nulo no contendrá el byte 0x00 y, por lo tanto, no se truncará en lenguajes como C que consideran 0x00 un final de cadena.

Todas las implementaciones conocidas de UTF-8 modificado cumplen, además, con CESU-8.[cita requerida]

Ventajas y desventajas

Ventajas

Desventajas

Referencias

  1. a b c d e F. Yergeau (Noviembre 2003). «RFC 3629 - UTF-8, un formato de transformación de ISO 10646». Internet Society. Consultado el 20 de mayo de 2009. 
  2. «Moving to Unicode 5.1». Official Google Blog. 5 de mayo de 2008. Consultado el 20 de mayo de 2009. 
  3. Usage of character encodings for websites
  4. H. Alvestrand (Enero 1998). «<RFC 2277> - Política oficial de IETF sobre juegos de caracteres e idiomas». Internet Engineering Task Force. Consultado el 20 de mayo de 2009. 
  5. «Utilización de Caracteres Internacionales en el Correo de Internet». Internet Mail Consortium. 1 de agosto de 1998. Archivado desde el original el 26 de octubre de 2007. Consultado el 20 de mayo de 2008. 
  6. The Unicode Consortium (octubre de 2006). «2.5 Encoding Forms». En Julie D. Allen, Joe Becker (et al.), ed. Unicode 5.0 standard (en inglés). Addisson-Wesley. ISBN 0-321-48091-0. 
  7. Simon Law (Mayo de 2005). «Globalization Support. Oracle Unicode database support.». Oracle Corporation. Archivado desde el original el 19 de abril de 2009. Consultado el 20 de mayo de 2009. 
  8. a b c The Unicode Consortium (octubre de 2006). Julie D. Allen, Joe Becker (et al.), ed. Unicode 5.0 standard (en inglés). Addisson-Wesley. ISBN 0-321-48091-0. 

Véase también