Unicode, Satr ichki tuzilishi

Bu boâ€™lim satr ichki tuzilishiga chuqurroq kiradi. Bu bilimlar agar siz emoji, noyob matematik yoki ieroglif belgilar yoki boshqa noyob simvollar bilan ishlashni rejalashtirgan boâ€™lsangiz foydali boâ€™ladi.

Biz allaqachon bilamizki, JavaScript satrlari Unicode ga asoslangan: har bir belgi 1-4 baytlik bayt ketma-ketligi bilan ifodalanadi.

JavaScript bizga quyidagi uchta yozuv usulidan biri bilan uning oâ€™n oltinchi Unicode kodini belgilash orqali satrga belgi kiritish imkonini beradi:

\xXX

XX 00 dan FF gacha qiymat bilan ikkita oâ€™n oltinchi raqam boâ€™lishi kerak, keyin \xXX Unicode kodi XX boâ€™lgan belgining oâ€™zi.

\xXX yozuvi faqat ikkita oâ€™n oltinchi raqamni qoâ€™llab-quvvatlagani uchun, u faqat birinchi 256 ta Unicode belgilari uchun ishlatilishi mumkin.

Bu birinchi 256 ta belgi lotin alifbosi, asosiy sintaksis belgilarining koâ€™pchiligi va boshqalarni oâ€™z ichiga oladi. Masalan, "\x7A" "z" (Unicode U+007A) bilan bir xil.
```
alert( "\x7A" ); // z
alert( "\xA9" ); // Â©, mualliflik huquqi belgisi
```
\uXXXX XXXX aniq 4 ta hex raqam boâ€™lishi kerak, qiymati 0000 dan FFFF gacha, keyin \uXXXX Unicode kodi XXXX boâ€™lgan belgi.

U+FFFF dan katta Unicode qiymatlariga ega belgilar ham bu yozuv bilan ifodalanishi mumkin, ammo bu holda biz surrogat juft deb ataladigan narsadan foydalanishimiz kerak (biz surrogat juftlar haqida ushbu bobda keyinroq gaplashamiz).
```
alert( "\u00A9" ); // Â©, \xA9 bilan bir xil, 4 raqamli hex yozuvdan foydalanib
alert( "\u044F" ); // Ñ, kirill alifbosi harfi
alert( "\u2191" ); // â†‘, yuqoriga o'q belgisi
```
\u{Xâ€¦XXXXXX}

Xâ€¦XXXXXX 0 dan 10FFFF gacha (Unicode tomonidan belgilangan eng yuqori kod nuqtasi) 1 dan 6 baytgacha oâ€™n oltinchi qiymat boâ€™lishi kerak. Bu yozuv bizga barcha mavjud Unicode belgilarini osongina ifodalash imkonini beradi.
```
alert( "\u{20331}" ); // ä½«, noyob xitoy belgisi (uzun Unicode)
alert( "\u{1F60D}" ); // ðŸ˜, tabassumli yuz belgisi (boshqa uzun Unicode)
```

Surrogat juftlar

Barcha tez-tez ishlatiladigan belgilar 2 baytli kodlarga ega (4 hex raqam). Koâ€™pgina Yevropa tillaridagi harflar, raqamlar va asosiy birlashtirilgan CJK ideografik toâ€™plamlar (CJK â€“ Xitoy, Yapon va Koreya yozuv tizimlaridan), 2 baytli tasvirga ega.

Dastlab, JavaScript faqat har bir belgi uchun 2 baytga ruxsat beradigan UTF-16 kodlashtirishga asoslangan edi. Ammo 2 bayt faqat 65536 ta kombinatsiyaga ruxsat beradi va bu Unicode ning har bir mumkin boâ€™lgan belgisi uchun etarli emas.

Shuning uchun 2 baytdan koâ€™proq talab qiladigan noyob belgilar â€œsurrogat juftâ€ deb ataladigan 2 baytli belgilar jufi bilan kodlanadi.

Yon taâ€™sir sifatida, bunday belgilarning uzunligi 2:

alert( 'ð’³'.length ); // 2, MATHEMATICAL SCRIPT CAPITAL X
alert( 'ðŸ˜‚'.length ); // 2, FACE WITH TEARS OF JOY
alert( 'ð©·¶'.length ); // 2, noyob xitoy belgisi

Buning sababi surrogat juftlar JavaScript yaratilgan vaqtda mavjud emas edi va shuning uchun til tomonidan toâ€™gâ€™ri ishlov berilmaydi!

Yuqoridagi satrlarning har birida biz bitta belgi bor, ammo length xususiyati 2 uzunligini koâ€™rsatadi.

Belgini olish ham qiyin boâ€™lishi mumkin, chunki koâ€™pgina til xususiyatlari surrogat juftlarni ikkita belgi sifatida koâ€™radi.

Masalan, bu yerda biz chiqishda ikkita gâ€™alati belgini koâ€™rishimiz mumkin:

alert( 'ð’³'[0] ); // g'alati belgilarni ko'rsatadi...
alert( 'ð’³'[1] ); // ...surrogat juftning qismlari

Surrogat juft qismlari bir-birisiz maâ€™noga ega emas. Shuning uchun yuqoridagi misoldagi alertlar aslida axlatni koâ€™rsatadi.

Texnik jihatdan, surrogat juftlar ularning kodlari bilan ham aniqlanadi: agar belgi 0xd800..0xdbff oraligâ€™idagi kodga ega boâ€™lsa, u surrogat juftning birinchi qismidir. Keyingi belgi (ikkinchi qism) 0xdc00..0xdfff oraligâ€™idagi kodga ega boâ€™lishi kerak. Bu oraliqlar standart tomonidan faqat surrogat juftlar uchun ajratilgan.

Shuning uchun String.fromCodePoint va str.codePointAt usullari surrogat juftlar bilan ishlash uchun JavaScript ga qoâ€™shildi.

Ular mohiyatan String.fromCharCode va str.charCodeAt bilan bir xil, ammo ular surrogat juftlarni toâ€™gâ€™ri koâ€™radi.

Bu yerda farqni koâ€™rish mumkin:

// charCodeAt surrogat juftlardan xabardor emas, shuning uchun u ð’³ ning 1-qismi uchun kodlarni beradi:

alert( 'ð’³'.charCodeAt(0).toString(16) ); // d835

// codePointAt surrogat juftlardan xabardor
alert( 'ð’³'.codePointAt(0).toString(16) ); // 1d4b3, surrogat juftning ikkala qismini o'qiydi

Aytish kerakki, agar biz 1-pozitsiyadan olsak (va bu yerda ancha notoâ€™gâ€™ri), ikkalasi ham juftning faqat 2-qismini qaytaradi:

alert( 'ð’³'.charCodeAt(1).toString(16) ); // dcb3
alert( 'ð’³'.codePointAt(1).toString(16) ); // dcb3
// juftning ma'nosiz 2-yarmi

Tsiklda koâ€™rib chiqish imokniyatiga ega maâ€™lumot turlari bobida surrogat juftlar bilan ishlashning koâ€™proq usullarini topasiz. Buning uchun maxsus kutubxonalar ham bor, ammo bu yerda taklif qilish uchun etarlicha mashhur emas.

Biz satrni ixtiyoriy pozitsiyada shunchaki boâ€™la olmaymiz, masalan str.slice(0, 4) ni olib, uni haqiqiy satr deb kutishimiz mumkin, masalan:

alert( 'salom ðŸ˜‚'.slice(0, 4) ); //  salom [?]

Bu yerda biz chiqishda axlat belgi (tabassum surrogat juftning birinchi yarmi) ni koâ€™rishimiz mumkin.

Agar siz surrogat juftlar bilan ishonchli ishlashni niyat qilsangiz, buni yodda tuting. Katta muammo boâ€™lmasligi mumkin, ammo kamida nima sodir boâ€™layotganini tushunishingiz kerak.

Diakritik belgilar va normalizatsiya

Koâ€™p tillarda uning ustida/ostida belgi bilan asosiy belgidan tashkil topgan belgilar mavjud.

Masalan, a harfi quyidagi belgilar uchun asosiy belgi boâ€™lishi mumkin: Ã Ã¡Ã¢Ã¤Ã£Ã¥Ä.

Eng keng tarqalgan â€œkompozitâ€ belgilar Unicode jadvalida oâ€™zlarining kodiga ega. Ammo ularning hammasi emas, chunki juda koâ€™p mumkin boâ€™lgan kombinatsiyalar mavjud.

Ixtiyoriy kompozitsiyalarni qoâ€™llab-quvvatlash uchun Unicode standarti bizga bir nechta Unicode belgilardan foydalanish imkonini beradi: asosiy belgi va undan keyin uni â€œbezaydiganâ€ bir yoki koâ€™p â€œbelgiâ€ belgilari.

Masalan, agar bizda S dan keyin maxsus â€œustidagi nuqtaâ€ belgisi (kod \u0307) boâ€™lsa, u á¹ sifatida koâ€™rsatiladi.

alert( 'S\u0307' ); // á¹

Agar bizga harf ustida (yoki ostida) qoâ€™shimcha belgi kerak boâ€™lsa â€“ muammo yoâ€™q, faqat kerakli belgi belgisini qoâ€™shing.

Masalan, agar biz â€œostidagi nuqtaâ€ belgisini (kod \u0323) qoâ€™shsak, â€œustida va ostida nuqtalar bilan Sâ€ ga ega boâ€™lamiz: á¹¨.

Masalan:

alert( 'S\u0307\u0323' ); // á¹¨

Bu katta moslashuvchanlikni taâ€™minlaydi, ammo qiziqarli muammoni ham: ikkita belgi vizual jihatdan bir xil koâ€™rinishi mumkin, ammo turli Unicode kompozitsiyalar bilan ifodalanishi mumkin.

Masalan:

let s1 = 'S\u0307\u0323'; // á¹¨, S + ustidagi nuqta + ostidagi nuqta
let s2 = 'S\u0323\u0307'; // á¹¨, S + ostidagi nuqta + ustidagi nuqta

alert( `s1: ${s1}, s2: ${s2}` );

alert( s1 == s2 ); // false, garchi belgilar bir xil ko'rinsa ham (?!)

Buni hal qilish uchun har bir satrni bitta â€œnormalâ€ shaklga keltiradigan â€œUnicode normalizatsiyaâ€ algoritmi mavjud.

U str.normalize() tomonidan amalga oshiriladi.

alert( "S\u0307\u0323".normalize() == "S\u0323\u0307".normalize() ); // true

Bizning vaziyatimizda normalize() aslida 3 ta belgi ketma-ketligini bittaga birlashtirishi qiziq: \u1e68 (ikkita nuqta bilan S).

alert( "S\u0307\u0323".normalize().length ); // 1

alert( "S\u0307\u0323".normalize() == "\u1e68" ); // true

Haqiqatda, bu har doim ham shunday emas. Sababi á¹¨ belgisi â€œetarlicha keng tarqalganâ€, shuning uchun Unicode yaratuvchilari uni asosiy jadvalga kiritdilar va unga kod berdilar.

Agar siz normalizatsiya qoidalari va variantlari haqida koâ€™proq bilmoqchi boâ€™lsangiz â€“ ular Unicode standartining ilovasida tasvirlangan: Unicode Normalization Forms, ammo koâ€™pgina amaliy maqsadlar uchun ushbu boâ€™limdagi maâ€™lumotlar etarli.

Unicode, Satr ichki tuzilishi

Surrogat juftlar

Diakritik belgilar va normalizatsiya

Izohlar

Bob

Dars navigatsiyasi