국규 9566

  • v
  • t
  • e
그림으로 나타낸 국규 9566-97 문자 집합의 구조. 위쪽에 초록색으로 표시된 부분이 중복된 한글(조선어문자) 6글자이다.

국규 9566(KPS 9566)은 조선민주주의인민공화국에서 국가 규격으로 지정한 유일한 소위 조선어 문자 집합문자 인코딩이며, 2003년에 제정된 국규 9566-2003이 최신이다. 국규 9566은 적어도 세 종류의 문자 집합 또는 인코딩을 정의하며 각각은 다음과 같다.

  • 국규 9566-93: 1993년에 제정된 문자 집합으로 그 뒤의 표준과 호환성이 없고 거의 사용되지 않는다.
  • 국규 9566-97과 9566-2000: 1997년에 제정되고 2000년에 개정된 문자 집합이다.
  • 국규 9566-2003: 2003년에 제정된 문자 인코딩으로, EUC-KP 인코딩을 기반으로 CP949와 비슷한 방법으로 나머지 현대 한글(조선어문자)들을 모두 수록한 것이다. 그 외에 문자 집합 자체에 약간의 수정이 있었다. (공식적으로 EUC-KP는 등록되어있지 않다.)

국규 9566-97과 9566-2000은 EUC-KP 문자 인코딩으로 사용되는데, 이는 EUC-KR과 비슷하며 KS X 1001을 국규 9566으로 바꾼 것이다. 국규 9566-2003은 EUC-KP에서 인코딩할 수 없는 현대 한글들을 정규 EUC 영역 바깥에 추가한 것이며 기본적으로는 이전판과 하위 호환성이 있다. 하지만 이 인코딩들을 지원하는 프로그램이 거의 없기 때문에 현실적으로는 EUC-KR 등을 대신 사용하며, 문자 집합 자체는 국제 표준 등에서 참조 용도로만 사용하는 경우가 많다.

구성

국규 9566-2000은 94×94 문자 집합이며, 정렬을 제외한 전체적인 구조는 KS X 1001과 유사하다. 각 행들은 다음과 같이 구성되어 있다.

  • 0x21 ~ 0x2C: 특수 문자 영역 (문장 부호, 그림 문자, 한글[조선어문자] 자모, 선 문자, 히라가나, 가타카나, 그리스 문자, 키릴 문자 등)
  • 0x2F: 사용자 정의 영역 A
  • 0x30 ~ 0x4C: 한글 영역. 자주 쓰이는 2679자를 조선민주주의인민공화국 자모 차례에 따라 배열했다.
  • 0x4D ~ 0x7E: 한자 영역. 4653자를 한글(조선어문자)과 같이 독음 순서대로 배열했다.
  • 0x4C행과 0x7E행의 0x50열부터는 각각 사용자 정의 영역 B·C이다.

국규 9566-2003에서 정의하는 기본 문자 집합은 2000년판의 문자 집합의 확장이며, 대략 다음과 같은 점이 다르다.

  • 0x2E행에 ISO/IEC 8859-1에는 있지만 포함되지 않은 문자들을 모두 추가했다. (예를 들어, ë는 ISO/IEC 8859-1에서 0xEB에 있고 국규 9566-2003에서 0xAEEB에 배당된다)
  • 유니코드와의 변환표를 4.0 버전에 맞춰서 변경하였다.
  • 몇몇 문자들이 변경되거나 사라졌다. 예를 들어 0x28행 0x26열에 배당되었던 켈빈 기호가 유로화 기호(€)로 바뀌었고, 0x2C행 0x4F열의 문자가 사라졌다.

국규 9566-2003의 문자 인코딩은 8비트 문자 인코딩이며, 코드 페이지 949와 유사하다.

  • 128보다 작은 바이트에 ASCII를 배당한다.
  • 128보다 크거나 같은 두 바이트에 기본 94×94 문자 집합을 배당한다. 각 글자는 행과 열에 128을 더한 값을 사용하며, 행과 열 번호가 32 이상이기 때문에 실제로는 두 바이트는 161부터 254 범위에 있다.
  • 기본 문자 집합에 없는 8493자의 현대 한글(조선어문자)을 조선민주주의인민공화국 자모 차례에 따라 배당한다. 이 문자들은 코드 페이지 949의 확장 한글 영역과 정확히 같은 곳에 위치해 있으며 첫째 바이트가 129부터 194까지인 것만 다르다.

국규 9566-2003에 할당된 16776자 중 총 22자가 당시 시점에서 유니코드에 포함되어 있지 않았고 그 중 16자는 특수 문자이다. 나머지 6자는 0x24행 0x68열부터 0x6D열까지 배치된 중복된 한글(조선어) 음절인 "김, 일, 성, 김, 정, 일"이며[2][3], 따라서 국규 9566은 유니코드와 왕복 변환(round trip)을 할 수 없다. 따라서 범용 문자 집합에다 이 글자들을 추가할 것이 요구되었으나 유니코드 컨소시엄은 2000년에 이를 거절하였다.[4][5]

유니코드 컨소시엄은 김씨 일가의 이름 및 조선노동당 기호(동그라미 쳐진것과 쳐지지 않은 것 총 두 개)를 제외한 나머지 특수 문자들을 유니코드에 추가하여 특수문자 2자와 중복된 한글(조선어) 음절인 "김, 일, 성, 김, 정, 일" 6자 총 8자가 유니코드에 포함되어있지 않게 되었다. 김정은이 3대 세습을 한 뒤에 김정은의 이름이 국규 9566 코드에 추가되면서 2014년 현재 시점에서 특수문자 2자, 중복된 한글 9자("김, 일, 성, 김, 정, 일, 김, 정, 은")가 유니코드에 등재되어 있지 않다.

각주

  1. The encoding format documented by Unicode here.
  2. “55 лет развития внешней торговли”. Внешняя торговля. 2005년 3월 1일. 2005년 5월 11일에 원본 문서에서 보존된 문서. 2010년 1월 5일에 확인함.  지원되지 않는 변수 무시됨: |설명= (도움말)
  3. “북한에는 김일성, 김정일 전용 특수문자가 있다!”. 2010년 4월 14일에 확인함. 
  4. http://std.dkuug.dk/jtc1/sc2/wg2/docs/n2182.pdf
  5. http://std.dkuug.dk/jtc1/sc2/wg2/docs/n2282.doc

외부 링크

  • (영어) 국규 9566-97의 문자표
  • (한국어) 국규 9566-97의 문자표
  • 조선민주주의인민공화국(DPRK)의 문자셋
  • (영어) 국규 9566-2003의 변환표 (오픈오피스 과제 #33466)
  • v
  • t
  • e
분류 문자 집합
초기 전기통신
ISO/IEC 8859
서지적 이용
  • ANSEL
  • ISO 5426 / 5426-2 / 5427 / 5428 / 6438 / 6861 / 6862 / 10585 / 10586 / 10754 / 11822
  • MARC-8
국가 표준
EUC
ISO/IEC 2022
MacOS 코드 페이지
("스크립트")
  • 아랍어
  • 켈트어
  • 센트유로
  • ChineseSimp / 확장 유닉스 코드
  • ChineseTrad / Big5
  • 크로아티아어
  • 키릴어
  • 데바나가리
  • 딩뱃
  • 에스페란토
  • 파시
  • 게일어
  • 그리스어
  • 구자라트어
  • 구르무키
  • 히브리어
  • 아이슬란드
  • 일본어 / ShiftJIS
  • 한국어 / 확장 유닉스 코드
  • Latin-1
  • 로마어
  • 루마니아어
  • 사미어
  • 심볼
  • 태국어 / TIS-620
  • 터키어
  • 우크라이나어
도스 코드 페이지
  • 100
  • 111
  • 112
  • 113
  • 151
  • 152
  • 161
  • 162
  • 163
  • 164
  • 165
  • 166
  • 210
  • 220
  • 301
  • 437
  • 449
  • 489
  • 620
  • 667
  • 668
  • 707
  • 708
  • 709
  • 710
  • 711
  • 714
  • 715
  • 720
  • 721
  • 737
  • 768
  • 770
  • 771
  • 772
  • 773
  • 774
  • 775
  • 776
  • 777
  • 778
  • 790
  • 850
  • 851
  • 852
  • 853
  • 854
  • 855/872
  • 856
  • 857
  • 858
  • 859
  • 860
  • 861
  • 862
  • 863
  • 864/17248
  • 865
  • 866/808
  • 867
  • 868
  • 869
  • 874/1161/1162
  • 876
  • 877
  • 878
  • 881
  • 882
  • 883
  • 884
  • 885
  • 891
  • 895
  • 896
  • 897
  • 898
  • 899
  • 900
  • 903
  • 904
  • 906
  • 907
  • 909
  • 910
  • 911
  • 926
  • 927
  • 928
  • 929
  • 932
  • 934
  • 936
  • 938
  • 941
  • 942
  • 943
  • 944
  • 946
  • 947
  • 948
  • 949
  • 950/1370
  • 951
  • 966
  • 991
  • 1034
  • 1039
  • 1040
  • 1041
  • 1042
  • 1043
  • 1044
  • 1046
  • 1086
  • 1088
  • 1092
  • 1093
  • 1098
  • 1108
  • 1109
  • 1114
  • 1115
  • 1116
  • 1117
  • 1118
  • 1119
  • 1125/848
  • 1126
  • 1127
  • 1131/849
  • 1139
  • 1167
  • 1168
  • 1300
  • 1351
  • 1361
  • 1362
  • 1363
  • 1372
  • 1373
  • 1374
  • 1375
  • 1380
  • 1381
  • 1385
  • 1386
  • 1391
  • 1392
  • 1393
  • 1394
  • Kamenicky
  • 마조비아
  • CWI-2
  • KOI8
  • MIK
  • 이란 시스템
IBM AIX 코드 페이지
IBM 애플 매킨토시
에뮬레이터
  • 1275
  • 1280
  • 1281
  • 1282
  • 1283
  • 1284
  • 1285
  • 1286
IBM 어도비 에뮬레이션
  • 1038
  • 1276
  • 1277
IBM DEC 에뮬레이션
  • 1020
  • 1021
  • 1023
  • 1090
  • 1100
  • 1101
  • 1102
  • 1103
  • 1104
  • 1105
  • 1106
  • 1107
  • 1287
  • 1288
IBM HP 에뮬레이션
  • 1050
  • 1051
  • 1052
  • 1053
  • 1054
  • 1055
  • 1056
  • 1057
  • 1058
윈도우 코드 페이지
EBCDIC 코드 페이지
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37/1140
  • 38
  • 39
  • 40
  • 251
  • 252
  • 254
  • 256
  • 257
  • 258
  • 259
  • 260
  • 264
  • 273/1141
  • 274
  • 275
  • 276
  • 277/1142
  • 278/1143
  • 279
  • 280/1144
  • 281
  • 282
  • 283
  • 284/1145
  • 285/1146
  • 286
  • 287
  • 288
  • 289
  • 290
  • 297/1147
  • 298
  • 300
  • 320
  • 321
  • 322
  • 330
  • 352
  • 353
  • 355
  • 357
  • 358
  • 359
  • 360
  • 361
  • 363
  • 382
  • 383
  • 384
  • 385
  • 386
  • 387
  • 388
  • 389
  • 390
  • 391
  • 392
  • 393
  • 394
  • 395
  • 410
  • 420/16804
  • 421
  • 423
  • 424/8616/12712
  • 425
  • 435
  • 500/1148
  • 803
  • 829
  • 833
  • 834
  • 835
  • 836
  • 837
  • 838/838
  • 839
  • 870/1110/1153
  • 871/1149
  • 875/4971/9067
  • 880
  • 881
  • 882
  • 883
  • 884
  • 885
  • 886
  • 887
  • 888
  • 889
  • 890
  • 892
  • 893
  • 905
  • 918
  • 924
  • 930/1390
  • 931
  • 933/1364
  • 935/1388
  • 937/1371
  • 939/1399
  • 1001
  • 1002
  • 1003
  • 1005
  • 1007
  • 1024
  • 1025/1154
  • 1026/1155
  • 1027
  • 1028
  • 1030
  • 1031
  • 1032
  • 1033
  • 1037
  • 1047
  • 1068
  • 1069
  • 1070
  • 1071
  • 1073
  • 1074
  • 1075
  • 1076
  • 1077
  • 1078
  • 1079
  • 1080
  • 1081
  • 1082
  • 1083
  • 1084
  • 1085
  • 1087
  • 1091
  • 1097
  • 1112/1156
  • 1113
  • 1122/1157
  • 1123/1158
  • 1130/1164
  • 1132
  • 1136
  • 1137
  • 1150
  • 1151
  • 1152
  • 1159
  • 1165
  • 1166
  • 1278
  • 1279
  • 1303
  • 1364
  • 1376
  • 1377
  • JEF
  • KEIS
플랫폼 특화
  • 아콘
  • 어도비 표준
  • ATASCII
  • 아타리 ST
  • BICS
  • 카시오 계산기
  • CDC
  • CPC
  • DEC Radix-50
  • DEC MCS/NRCS
  • DG 인터내셔널
  • ELWRO-Junior
  • FIELDATA
  • GEM
  • GEOS
  • GSM 03.38
  • HP Roman 확장
  • HP Roman-8
  • HP Roman-9
  • HP 계산기
  • LICS
  • LMBCS
  • NEC APC
  • NeXT
  • PETSCII
  • 샤프 계산기
  • TI 계산기
  • Ventura International
  • Ventura Symbol
  • WISCII
  • XCCS
  • ZX80
  • ZX81
  • ZX 스펙트럼
유니코드 / ISO/IEC 10646
기타 코드 페이지
  • ABICOMP
  • APL
    • 293
    • 310
    • 351
  • Cork
  • HZ
  • 조합
  • SEASCII
  • TACE16
  • TRON
  • UTF-5
  • UTF-6
  • UTF-8
관련 주제