Forskjell mellom UCS-2 og UTF-16 Forskjellen mellom

Anonim

UCS-2 vs UTF-16

UCS-2 og UTF-16 to tegnkodesystemer som bruker 2 byte, som består av 16 bits, for å representere hver karakter; dermed 2 og 16 suffiksene. Hovedforskjellen mellom UCS-2 og UTF-16 er den som brukes i dag. UCS-2 er en eldre ordning som siden har blitt ansett som foreldet og erstattet med den mye nyere og kraftigere UTF-16.

UCS-2 er en kodet fast bredde som bruker to byte for hvert tegn; Det betyr at det kan representere opptil totalt 216 tegn eller litt over 65 tusen. På den annen side er UTF-16 en koding for variabel bredde som bruker minst 2 byte og maksimalt 4 byte for hvert tegn. Dette gjør at UTF-16 representerer et hvilket som helst tegn i Unicode mens du bruker minimal plass for de mest brukte tegnene. For de fleste av de 65 000 + tegnene har UCS-2 og UTF-16 identiske kodepunkter; så de er stort sett likeverdige. Dette gjør at UTF-16-kompatible programmer kan tolke UCS-2-koder på riktig måte. Men omvendt ville det ikke fungere på grunn av de mange forbedringene i UTF-16.

En av de nevnte forbedringene er muligheten til å representere skript som går fra høyre til venstre i stedet for fra venstre til høyre. I UTF-16 kan skriptene identifisere retningsstyrke, og dermed tillate applikasjonen å korrekt gjengi ordene som er lagret i koden. UCS-2 mangler denne evnen og vil dermed ikke fungere med skript som arabisk og hebraisk, som beveger seg fra høyre til venstre. En annen funksjon som UTF-16 har er normalisering. Normalisering behandler ord som betyr det samme, men er representert annerledes som identiske. For eksempel kan ordene "kan ikke" og "ikke" være identiske siden sistnevnte bare er en sammentrekning av den førstnevnte. Dette er svært viktig, spesielt når du søker etter slike ord, da det ville muliggjøre et mer omfattende søkeresultat. I UCS-2 skjer dette ikke automatisk, så programmet må implementere en slik funksjon i seg selv.

Det er egentlig ingen grunn til å velge UCS-2 over UTF-16, bortsett fra å ha et program du ikke trenger å støtte UTF-16. I alle sammenhenger er UTF-16 overlegen UCS-2. Den er også i stor grad bakoverkompatibel, så du trenger ikke å bekymre deg for filer kodet i UCS-2.

Sammendrag:

  1. UCS-2 er foreldet og har siden blitt erstattet med UTF-16
  2. UCS-2 er en fast breddekodingsplan, mens UTF-16 er en koding med variabel bredde
  3. UTF-16 kompatible programmer kan lese UCS-2 filer, men ikke omvendt
  4. UTF-16 støtter rett til å la skript mens UCS-2 ikke
  5. UTF-16 støtter normalisering mens UCS-2 ikke