Unicode
| |
- Unicode Transformation Format
Name | UTF-8 | UTF-16 | UTF-16BE | UTF-16LE | UTF-32 | UTF-32BE | UTF-32LE |
Erste Codenummer | 0000 | 0000 | 0000 | 0000 | 0000 | 0000 | 0000 |
Letzte Codenummer | 10FFFF | 10FFFF | 10FFFF | 10FFFF | 10FFFF | 10FFFF | 10FFFF |
Codeblockgröße | 8 bits | 16 bits | 16 bits | 16 bits | 32 bits | 32 bits | 32 bits |
Byte-Reihenfolge | N/A | <BOM> | big-endian | little-endian | <BOM> | big-endian | little-endian |
Minimale Byteanzahl | 1 | 2 | 2 | 2 | 4 | 4 | 4 |
Maximale Byteanzahl | 4 | 4 | 4 | 4 | 4 | 4 | 4 |
UTF-8-Kodierung
0000 0000 - 0000 007F | 0xxxxxxx | ASCII-Zeichen | 27 | 128 |
0000 0080 - 0000 07FF | 110xxxxx 10xxxxxx | übrige Zeichen: Es muss immer die kleinste Codierung genommen werden | 211 - 27 | 1.920 |
0000 0800 - 0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx | 216 - 211 | 63.488 |
0001 0000 - 0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx | 220 | 1.048.576 |
UTF-16-Kodierung
0000 0000 - 0000 FFFF | xxxxxxxx xxxxxxxx | BMP | 216 | 65.536 |
0001 0000 - 0010 FFFF | 110110xx xxxxxxxx 110111xx xxxxxxxx | Zeichen über BMP | 220 | 1.048.576 |
| | | Unicode
|