Unicode, String internals

Esta secciÃ³n ahonda en los interioridades de los string. Este conocimiento serÃ¡ Ãºtil para ti si planeas lidiar con emojis, raros caracteres matemÃ¡ticos, jeroglÃficos, u otros sÃmbolos extraÃ±os.

Como ya mencionamos, los strings de JavaScript estÃ¡n basados en Unicode: cada carÃ¡cter estÃ¡ representado por una secuencia de entre 1 y 4 bytes.

JavaScript nos permite insertar un carÃ¡cter en un string por medio de su cÃ³digo hexadecimal Unicode, usando estas tres notaciones:

\xXX

XX deben ser dos dÃgitos hexadecimales con un valor entre 00 y FF. Entonces, \xXX es el carÃ¡cter cuyo cÃ³digo Unicode es XX.

Como la notaciÃ³n \xXX admite solo dos dÃgitos hexadecimales, puede representar solamente los primeros 256 caracteres Unicode.

Estos primeros 256 caracteres incluyen el alfabeto latino, la mayorÃa de caracteres de sintaxis bÃ¡sicos, y algunos otros. Por ejemplo, "\x7A" es lo mismo que "z" (Unicode U+007A).
```
alert( "\x7A" ); // z
alert( "\xA9" ); // Â©, el sÃmbolo de copyright
```
\uXXXX XXXX deben ser exactamente 4 dÃgitos hexadecimales con un valor entre 0000 y FFFF. Entonces, \uXXXX es el carÃ¡cter cuyo cÃ³digo Unicode es XXXX.

Caracteres con un valor Unicode mayor que U+FFFF tambiÃ©n pueden ser representados con esta notaciÃ³n, pero en ese caso necesitamos usar los llamados â€œpares sustitutosâ€, descritos mÃ¡s adelante.
```
alert( "\u00A9" ); // Â©, lo mismo que \xA9, usando la notaciÃ³n de 4 dÃgitos hexa
alert( "\u044F" ); // Ñ, letra del alfabeto cirÃlico
alert( "\u2191" ); // â†‘, sÃmbolo flecha
```
\u{Xâ€¦XXXXXX}

Xâ€¦XXXXXX debe ser un valor hexadecimal de 1 a 6 bytes entre 0 y 10FFFF (el mayor punto de cÃ³digo definido por Unicode). Esta notaciÃ³n nos permite fÃ¡cilmente representar todos los caracteres Unicode existentes.
```
alert( "\u{20331}" ); // ä½«, un raro carÃ¡cter chino
alert( "\u{1F60D}" ); // ðŸ˜, un sÃmbolo de cara sonriente
```

Pares sustitutos

Todos los caracteres frecuentes tienen cÃ³digos de 2 bytes (4 dÃgitos hexa). Las letras de la mayorÃa de los lenguajes europeos, nÃºmeros, los conjuntos bÃ¡sicos de caracteres ideogrÃ¡ficos CJK unificados (CJK: de los sistemas chino, japonÃ©s y coreano), tienen un representaciÃ³n de 2 bytes.

Inicialmente, JavaScript estaba basado en la codificaciÃ³n UTF-16 que solo permite 2 bytes por carÃ¡cter. Pero 2 bytes solo permiten 65536 combinaciones y eso no es suficiente para cada sÃmbolo Unicode posible.

Entonces, los sÃmbolos raros que requieren mÃ¡s de 2 bytes son codificados con un par de caracteres de 2 bytes llamado â€œpar sustitutoâ€.

Como efecto secundario, el largo de tales sÃmbolos es 2:

alert( 'ð’³'.length ); // 2, carÃ¡cter matemÃ¡tico X capitalizado
alert( 'ðŸ˜‚'.length ); // 2, cara con lÃ¡grimas de risa
alert( 'ð©·¶'.length ); // 2, un raro carÃ¡cter chino

Esto es porque los pares sustitutos no existÃan cuando JavaScript fue creado, por ello no es procesado correctamente por el lenguaje.

En realidad tenemos un solo sÃmbolo en cada lÃnea de los string de arriba, pero la propiedad length los muestra con un largo de 2.

Obtener un sÃmbolo puede ser intrincado, porque la mayorÃa de las caracterÃsticas del lenguaje trata a los pares sustitutos como de 2 caracteres.

Por ejemplo, aquÃ vemos dos caracteres extraÃ±os en la salida:

alert( 'ð’³'[0] ); // muestra sÃmbolos extraÃ±os...
alert( 'ð’³'[1] ); // ...partes del par sustituto

Las 2 partes del par sustituto no tienen significado el uno sin el otro. Entonces las alertas del ejemplo en realidad muestran basura.

TÃ©cnicamente, los pares sustitutos son tambiÃ©n detectables por su propio cÃ³digo: si un carÃ¡cter tiene cÃ³digo en el intervalo de 0xd800..0xdbff, entonces es la primera parte de un par sustituto. El siguiente carÃ¡cter (segunda parte) debe tener el cÃ³digo en el intervalo 0xdc00..0xdfff. Estos intervalos son reservados exclusivamente para pares sustitutos por el estÃ¡ndar.

Los mÃ©todos String.fromCodePoint y str.codePointAt fueron aÃ±adidos en JavaScript para manejar los pares sustitutos.

Esencialmente, son lo mismo que String.fromCharCode y str.charCodeAt, pero tratan a los pares sustitutos correctamente.

Se puede ver la diferencia aquÃ:

// charCodeAt no percibe los pares sustitutos, entonces da el cÃ³digo de la primera parte de ð’³:

alert( 'ð’³'.charCodeAt(0).toString(16) ); // d835

// codePointAt reconoce los pares sustitutos
alert( 'ð’³'.codePointAt(0).toString(16) ); // 1d4b3, lee ambas partes del par sustituto

Dicho esto, si tomamos desde la posiciÃ³n 1 (y hacerlo es incorrecto aquÃ), ambas funciones devolverÃ¡n solo la segunda parte del par:

alert( 'ð’³'.charCodeAt(1).toString(16) ); // dcb3
alert( 'ð’³'.codePointAt(1).toString(16) ); // dcb3
// segunda parte del par, sin sentido

EncontrarÃ¡s mÃ¡s formas de trabajar con pares sustitutos mÃ¡s adelante en el capÃtulo Iterables. Probablemente hay bibliotecas especiales para eso tambiÃ©n, pero nada lo suficientemente famoso como para sugerirlo aquÃ.

No podemos simplemente separar un string en una posiciÃ³n arbitraria, por ejemplo tomar str.slice(0, 4), y confiar en que sea un string vÃ¡lido:

alert( 'hi ðŸ˜‚'.slice(0, 4) ); //  hi [?]

AquÃ podemos ver basura (la primera mitad del par sustituto de la sonrisa) en la salida.

Simplemente sÃ© consciente de esto si quieres trabajar con confianza con los pares sustitutos. Puede que no sea un gran problema, pero al menos deberÃas entender lo que pasa.

Marcas diacrÃticas y normalizaciÃ³n

En muchos idiomas hay sÃmbolos compuestos, con un carÃ¡cter de base y una marca arriba o debajo.

Por ejemplo, la letra a puede ser el carÃ¡cter base para estos caracteres: Ã Ã¡Ã¢Ã¤Ã£Ã¥Ä.

Los caracteres â€œcompuestosâ€ mÃ¡s comunes tienen su propio cÃ³digo en la tabla UTF-16. Pero no todos ellos, porque hay demasiadas combinaciones posibles.

Para soportar composiciones arbitrarias, el estÃ¡ndar Unicode permite usar varios caracteres Unicode: el carÃ¡cter base y uno o varios caracteres de â€œmarcaâ€ que lo â€œdecoranâ€.

Por ejemplo, si tenemos S seguido del carÃ¡cter especial â€œpunto arribaâ€ (cÃ³digo \u0307), se muestra como á¹ .

alert('S\u0307'); // SÌ‡

Si necesitamos una marca adicional sobre la letra (o debajo de ella), no hay problema, simplemente se agrega el carÃ¡cter de marca necesario.

Por ejemplo, si agregamos un carÃ¡cter â€œpunto debajoâ€ (cÃ³digo \u0323), entonces tendremos" S con puntos arriba y abajo ": á¹¨.

Ejemplo:

alert( 'S\u0307\u0323' ); // SÌ‡Ì£

Esto proporciona una gran flexibilidad, pero tambiÃ©n un problema interesante: dos caracteres pueden ser visualmente iguales, pero estar representados con diferentes composiciones Unicode.

Por ejemplo:

let s1 = 'S\u0307\u0323'; // SÌ‡Ì£, S + punto arriba + punto debajo
let s2 = 'S\u0323\u0307'; // SÌ‡Ì£, S + punto debajo + punto arriba

alert( `s1: ${s1}, s2: ${s2}` );

alert( s1 == s2 ); // false aunque los caracteres se ven idÃ©nticos (?!)

Para resolver esto, existe un algoritmo de â€œnormalizaciÃ³n Unicodeâ€ que lleva cada cadena a la forma â€œnormalâ€.

Este es implementado por str.normalize().

alert( "S\u0307\u0323".normalize() == "S\u0323\u0307".normalize() ); // true

Lo curioso de esta situaciÃ³n particular es que normalize () reÃºne una secuencia de 3 caracteres en uno: \u1e68 (S con dos puntos).

alert( "S\u0307\u0323".normalize().length ); // 1

alert( "S\u0307\u0323".normalize() == "\u1e68" ); // true

En realidad, este no es siempre el caso. La razÃ³n es que el sÃmbolo á¹¨ es â€œbastante comÃºnâ€, por lo que los creadores de Unicode lo incluyeron en la tabla principal y le dieron el cÃ³digo.

Si desea obtener mÃ¡s informaciÃ³n sobre las reglas y variantes de normalizaciÃ³n, se describen en el apÃ©ndice del estÃ¡ndar: Unicode, pero para la mayorÃa de los propÃ³sitos prÃ¡cticos, la informaciÃ³n de esta secciÃ³n es suficiente.

Unicode, String internals

Pares sustitutos

Marcas diacrÃticas y normalizaciÃ³n

Comentarios

CapÃtulo

NavegaciÃ³n de lecciÃ³n

Pares sustitutos

Marcas diacrÃ­ticas y normalizaciÃ³n

Comentarios

CapÃ­tulo

NavegaciÃ³n de lecciÃ³n

Marcas diacrÃticas y normalizaciÃ³n

CapÃtulo