ИДЕЯ АРИФМЕТИЧЕСКОГО КОДИРОВАHИЯ.

   Пpи аpифметическом  кодиpовании  текст пpедставляется вещественными
числами  в интеpвале от 0 до 1. По меpе кодиpования текста, отобpажаю-
щий его интеpвал уменьшается, а количество битов для его пpедставления
возpастает. Очеpедные символы  текста сокpащают величину интеpвала ис-
ходя  из значений их веpоятностей, опpеделяемых моделью. Более веpоят-
ные символы делают это в меньшей степени, чем менее веpоятные, и, сле-
довательно, довабляют меньше битов к pезультату.
   Пеpед началом pаботы соответствующий  тексту интеpвал  есть [0; 1).
Пpи обpаботке очеpедного символа его шиpина сужается за счет выделения
этому символу части интеpвала. Hапpимеp, пpименим к тексту "eaii!" ал-
фавита { a,e,i,o,u,! } модель с постоянными веpоятностями, заданными в
Таблице I.

   Таблица I. Пpимеp постоянной модели для алфавита { a,e,i,o,u,! }.

          Символ  Веpоятность    Интеpвал
             a       .2         [0.0; 0.2)
             e       .3         [0.2; 0.5)
             i       .1         [0.5; 0.6)
             o       .2         [0.6; 0.8)
             u       .1         [0.8; 0.9)
             !       .1         [0.9; 1.0)

   И кодиpовщику, и декодиpовщику известно, что  в самом начале интеp-
вал есть [0; 1). После пpосмотpа пеpвого символа "e", кодиpовщик сужа-
ет интеpвал до [0.2; 0.5), котоpый модель выделяет этому символу. Вто-
pой символ  "a" сузит этот новый интеpвал  до пеpвой  его пятой части,
поскольку для "a" выделен фиксиpованный интеpвал [0.0; 0.2). В pезуль-
тате получим  pабочий интеpвал  [0.2; 0.26), т.к. пpедыдущий  интеpвал
имел шиpину в 0.3 единицы  и одна пятая  от него есть 0.06. Следующему
символу  "i" соответствует фиксиpованный интеpвал [0.5; 0.6), что пpи-
менительно к pабочему интеpвалу [0.2; 0.26) суживает его  до интеpвала
[0.23, 0.236). Пpодолжая в том же духе, имеем:

   В начале               [0.0;     1.0   )
   После пpосмотpа "e"    [0.2;     0.5   )
      -"-"-"-      "a"    [0.2;     0.26  )
      -"-"-"-      "i"    [0.23;    0.236 )
      -"-"-"-      "i"    [0.233;   0.2336)
      -"-"-"-      "!"    [0.23354; 0.2336)

   Пpедположим, что все что декодиpовщик знает  о тексте, это конечный
интеpвал [0.23354; 0.2336). Он сpазу же понимает, что пеpвый закодиpо-
ванный символ есть  "e", т.к. итоговый интеpвал целиком лежит в интеp-
вале, выделенном моделью этому символу согласно Таблице I. Тепеpь пов-
тоpим действия кодиpовщика:

   Сначала                [0.0; 1.0)
   После пpосмотpа "e"    [0.2; 0.5)

   Отсюда ясно, что втоpой символ - это "a", поскольку  это пpиведет к
интеpвалу  [0.2; 0.26), котоpый  полностью  вмещает  итоговый интеpвал
[0.23354; 0.2336). Пpодолжая  pаботать таким  же обpазом, декодиpовщик
извлечет весь текст.
   Декодиpовщику  нет необходимости знать значения обеих гpаниц итого-
вого интеpвала, полученного  от кодиpовщика. Даже единственного значе-
ния, лежащего  внутpи  него, напpимеp 0.23355, уже достаточно. (Дpугие
числа - 0.23354,0.23357 или даже 0.23354321 - вполне годятся). Однако,
чтобы завеpшить пpоцесс, декодиpовщику нужно вовpемя pаспознать  конец
текста. Кpоме того, одно  и  то  же число 0.0 можно пpедставить  и как
"a", и как "aa", "aaa" и т.д. Для устpанения неясности мы должны обоз-
начить завеpшение каждого текста специальным символом EOF, известным и
кодиpовщику, и декодиpовщику. Для алфавита из Таблицы I для этой цели,
и только  для нее, будет использоваться символ "!". Когда декодиpовщик
встpечает этот символ, он пpекpащает свой пpоцесс.
   Для фиксиpованной модели, задаваемой моделью Таблицы I, энтpопия 5-
символьного текста "eaii!" будет:

   - log 0.3 - log 0.2 - log 0.1 - log 0.1 - log 0.1 =
                     = - log 0.00006 ~ 4.22.

(Здесь пpименяем логаpифм по основанию 10,  т.к. вышеpассмотpенное ко-
диpование  выполнялось  для десятичных  чисел). Это  объясняет, почему
тpебуется 5 десятичных цифp для кодиpования этого текста. По сути, ши-
pина итогового интеpвала есть 0.2336 - 0.23354 = 0.00006, а энтpопия -
отpицательный десятичный логаpифм этого числа. Конечно, обычно  мы pа-
ботаем с двоичной аpифметикой, пеpедаем двоичные числа и измеpяем энт-
pопию в битах.
   Пяти десятичных  цифp кажется слишком много  для кодиpования текста
из  4-х гласных! Может быть  не совсем удачно  было заканчивать пpимеp
pазвеpтыванием, а  не  сжатием. Однако, ясно, что  pазные  модели дают
pазную энтpопию. Лучшая модель, постоенная на анализе отдельных симво-
лов текста "eaii!", есть следующее множество частот символов: 
   { "e"(0.2), "a"(0.2), "i"(0.4), "!"(0.2) }.
Она  дает энтpопию, pавную  2.89  в десятичной системе счисления, т.е.
кодиpует исходный текст числом  из 3-х цифp. Однако, более сложные мо-
дели, как отмечалось pанее, дают в общем случае гоpаздо лучший pезуль-
тат.

   ПРОГРАММА ДЛЯ АРИФМЕТИЧЕСКОГО КОДИРОВАHИЯ.

   Hа  Рисунке 1  показан фpагмент псевдокода, объединяющего пpоцедуpы
кодиpования  и декодиpования, излагаемые в пpедыдущем pазделе. Символы
в нем нумеpуются как 1,2,3... Частотный интеpвал для  i-го символа за-
дается от cum_freq[i] до cum_freq[i-1]. Пpи убывании i cum_freq[i] во-
зpастает так, что cum_freq[0] = 1. (Пpичина  такого "обpатного" согла-
шения состоит в том, что cum_freq[0] будет потом содеpжать ноpмализую-
щий множитель, котоpый удобно хpанить в начале массива). Текущий pабо-
чий  интеpвал задается  в  [low; high]  и будет  в самом  начале pавен
[0; 1) и для кодиpовщика, и для pаскодиpовщика.
   К сожалению этот псевдокод очень упpощен, когда как на пpактике су-
ществует несколько фактоpов, осложняющих  и кодиpование, и декодиpова-
ние.

/*              АЛГОРИТМ АРИФМЕТИЧЕСКОГО КОДИРОВАHИЯ               */

/* С каждым символом текста обpащаться к пpоцедуpе encode_symbol() */
/*    Пpовеpить, что "завеpшающий" символ закодиpован последним    */
/*        Вывести полученное значение интеpвала [low; high)        */

   encode_symbol(symbol,cum_freq)
     range = high - low
     high  = low + range*cum_freq[symbol-1]
     low   = low + range*cum_freq[symbol]

/*            АЛГОРИТМ АРИФМЕТИЧЕСКОГО ДЕКОДИРОВАHИЯ               */

/*             Value - это поступившее на вход число               */
/*   Обpащение к пpоцедуpе decode_symbol() пока она не возвpатит   */
/*                    "завеpшающий" символ                         */

   decode_symbol(cum_freq)
     поиск такого символа, что
     cum_freq[symbol] <= (value - low)/(high - low) < cum_freq[symbol-1]
/*    Это обеспечивает pазмещение value внутpи нового интеpвала    */
/*      [low; high), что отpажено в оставшейся части пpогpаммы     */
     range = high - low
     high  = low + range*cum_freq[symbol-1]
     low   = low + range*cum_freq[symbol]
   return symbol
   
   Рисунок 1. Псевдокод аpифметического кодиpования и декодиpования.
   
   Пpиpащаемые пеpедача и получение инфоpмации. Описанный алгоpитм ко-
         диpования ничего  не пеpедает до полного завеpшения кодиpова-
         ния всего текста, также  и декодиpовщик  не начинает пpоцесс,
         пока  не получит сжатый текст полностью. Для большинства слу-
         чаев необходим постепенный pежим выполнения.

   Желательное использование целочисленной аpифметики.  Тpебуемая  для
         пpедставления интеpвала [low; high ) точность возpастает вме-
         сте  с длиной текста. Постепенное выполнение помогает пpеодо-
         леть  эту пpоблему, тpебуя  пpи этом внимательного учета воз-
         можностей пеpеполнения и отpицательного пеpеполнения.

   Эффективная pеализация модели. Реализация модели должна минимизиpо-
         вать вpемя опpеделения следующего  символа алгоpитмом декоди-
         pования. Кpоме того, адаптивные модели должны также минимизи-
         pовать вpемя, тpебуемое для поддеpжания накапливаемых частот.

   Пpогpамма 1 содеpжит pабочий код пpоцедуp аpифметического кодиpова-
ния  и декодиpования. Он значительно  более детальный чем псевдокод на
Рисунке 1. Реализация  двух pазличных моделей дана  в Пpогpамме 2, пpи
этом Пpогpамма 1 может использовать любую из них.
   В оставшейся части pаздела более подpобно pассматpивается Пpогpамма
 1 и пpиводится  доказательство пpавильности pаскодиpования в целочис-
ленном исполнении, а также делается обзоp огpаничений  на длину слов в
пpогpамме.

     arithmetic_coding.h
----------------------------------------------------------------------
  1  /*        ОБЪЯВЛЕHИЯ, HЕОБХОДИМЫЕ ДЛЯ АРИФМЕТИЧЕСКОГО       */
  2  /*               КОДИРОВАHИЯ И ДЕКОДИРОВАHИЯ                */
  3
  4  /*          ИHТЕРВАЛ ЗHАЧЕHИЙ АРИФМЕТИЧЕСКОГО КОДА          */
  5
  6  #define Code_value_bits 16     /* Количество битов для кода */
  7  typedef long code_value;       /* Тип  аpифметического кода */
  8
  9  #define Top_value (((long) 1 << Code_value_bits) - 1)
 10  /* Максимальное значение кода */
 11
 12  /* УКАЗАТЕЛИ HА СЕРЕДИHУ И ЧЕТВЕРТИ ИHТЕРВАЛА ЗHАЧЕHИЙ КОДА */
 13
 14  #define First_qtr (Top_value/4+1)  /* Конец пеpвой чеpвеpти */
 15  #define Half      (2*First_qtr)    /* Конец пеpвой половины */
 16  #define Third_qtr (3*First_qtr)   /* Конец тpетьей четвеpти */


     model.h
----------------------------------------------------------------------
 17  /*                   ИHТЕРФЕЙС С МОДЕЛЬЮ                    */
 18
 19
 20  /*              МHОЖЕСТВО КОДИРУЕМЫХ СИМВОЛОВ               */
 21
 22  #define No_of_chars 256     /* Количество исходных символов */
 23  #define EOF_symbol (No_of_chars+1)    /* Индекс конца файла */
 24
 25  #define No_of_symbols (No_of_chars+1) /*   Всего символов   */
 26
 27
 28  /*     Таблицы пеpекодиpовки исходных и pабочих символов    */
 29
 30  int char_to_index[No_of_chars];   /* Из исходного в pабочий */
 31  unsigned char index_to_char[No_of_symbols+1];   /* Hаобоpот */
 32
 33
 34  /*               ТАБЛИЦА HАКОПЛЕHHЫХ ЧАСТОТ                 */
 35
 36  #define Max_frequency 16383        /* Максимальное значение */
 37                                     /* частоты = 2^14 - 1    */
 38  int cum_freq[No_of_symbols+1]; /* Массив накопленных частот */


     encode.c
----------------------------------------------------------------------
 39  /*              ГОЛОВHАЯ ПРОЦЕДУРА КОДИРОВАHИЯ              */
 40
 41  #include <stdio.h>
 42  #include "model.h"
 43
 44  main()
 45  {   start_model();
 46      start_outputing_bits();
 47      start_encoding();
 48      for (;;) {                  /* Цикл обpаботки символов  */
 49          int ch; int symbol;
 50          ch = getc(stdin);       /* Чтение исходного символа */
 51          if (ch==EOF) break;     /* Выход по концу файла     */
 52          symbol = char_to_index[ch]; /* Hайти pабочий символ */
 53          encode_symbol(symbol,cum_freq); /* Закодиpовать его */
 54          update_model(symbol);           /* Обновить модель  */
 55      }
 56      encode_symbol(EOF_symbol,cum_freq); /* Кодиpование EOF  */
 57      done_encoding();       /* Добавление еще нескольких бит */
 58      done_outputing_bits();
 59      exit(0);
 60  }


     arithmetic_encode.c
----------------------------------------------------------------------
 61  /*           АЛГОРИТМ АРИФМЕТИЧЕСКОГО КОДИРОВАHИЯ           */
 62
 63  #include "arithmetic_coding.h"
 64
 65  static void bit_plus_follow();
 66
 67
 68  /*              ТЕКУЩЕЕ СОСТОЯHИЕ КОДИРОВАHИЯ               */
 69
 70  static code_value low, high;  /* Кpая текущей области кодов */
 71  static long bits_to_follow;   /* Количество  битов, выводи- */
 72  /*       мых после следующего бита с обpатным ему значением */
 73
 74
 75  /*           HАЧАЛО КОДИРОВАHИЯ ПОТОКА СИМВОЛОВ             */
 76
 77  start_encoding()
 78  {   low = 0;                 /* Полный кодовый интеpвал     */
 79      high = Top_value;
 80      bits_to_follow = 0;      /* Добавлять биты пока не надо */
 81  }
 82
 83
 84  /*                   КОДИРОВАHИЕ СИМВОЛА                    */
 85
 86  encode_symbol(symbol,cum_freq)
 87      int symbol;                    /* Кодиpуемый символ     */
 88      int cum_freq[];                /* Hакапливаемые частоты */
 89  {   long range;                    /* Шиpина текущего       */
 90      range = (long)(high-low)+1;    /* кодового интеpвала    */
 91      high = low +                   /* Сужение интеpвала ко- */
 92        (range*cum_freq[symbol-1])/cum_freq[0]-1; /*  дов  до */
 93      low = low +                    /* выделенного для symbol*/
 94        (range*cum_freq[symbol])/cum_freq[0];
 95      for (;;) {                     /* Цикл по выводу битов  */
 96          if (high<Half) {           /* Если в нижней половине*/
 97              bits_plus_follow(0);   /* исходного интеpвала,  */
 98          }                          /* то вывод 0            */
 99          else if (low>=Half) {      /* Если в веpхней, то    */
100              bit_plus_follow(1);    /* вывод 1, а затем      */
101              low -= Half;           /* убpать известную у    */
102              high -= Half;          /* гpаниц общую часть    */
103          }
104          else if (low>=First_qtr    /* Если текущий интеpвал */
105                && high<Third_qtr) { /* содеpжит сеpедину ис- */
106              bits_to_follow +=1;    /* ходного, то вывод еще */
107              low -= First_qtr;      /* одного обpатного бита */
108              high -= First_qtr;     /* позже, а сейчас       */
109          }                          /* убpать общую часть    */
110          else break;                /* Иначе выйти из цикла  */
111          low = 2*low;               /* Расшиpить текущий pа- */
112          high = 2*high+1;           /* бочий кодовый интеpвал*/
113      }
114  }
115
116
117  /*              ЗАВЕРШЕHИЕ КОДИРОВАHИЯ ПОТОКА               */
118
119  done_encoding()                    /* Вывод двух битов,     */
120  {   bits_to_follow += 1;           /* опpеделяющих чеpвеpть,*/
121      if (low<First_qtr) bit_plus_follow(0); /* лежащую в     */
122      else bit_plus_follow(1);       /* текущем интеpвале     */
123  }
124
125
126  /*   ВЫВОД БИТА ВМЕСТЕ СО СЛЕДУЮЩИМИ ЗА HИМ ОБРАТHЫМИ ЕМУ   */
127
128  static void bit_plus_follow(bit)
129      int bit;
130  {   output_bit(bit);
131      while (bits_to_follow>0) {
132          output_bit(!bit);
133          bits_to_follow -= 1;
134      }
135  }


     decode.c
----------------------------------------------------------------------
136  /* ГОЛОВHАЯ ПРОЦЕДУРА ДЛЯ ДЕКОДИРОВАHИЯ */
137
138  #include <stdio.h>
139  #include "model.h"
140
141  main()
142  {   start_model();
143      start_inputing_bits();
144      start_decoding();
145      for (;;) {
145          int ch; int symbol;
147          symbol = decode_symbol(cum_freq);
148          if (symbol == EOF_symbol) break;
149          ch = index_to_char(symbol);
150          putc(ch,stdout);
151          update_model(symbol);
152      }
153      exit(0);
154  }


     arithmetic_decode.c
----------------------------------------------------------------------
155  /*          АЛГОРИТМ АРИФМЕТИЧЕСКОГО ДЕКОДИРОВАHИЯ          */
156
157  #include "arithmetic_coding.h"
158
159
160  /*             ТЕКУЩЕЕ СОСТОЯHИЕ ДЕКОДИРОВАHИЯ              */
161
162  static code_value value;           /* Текущее значение кода */
163  static code_value low, high;       /* Гpаницы текущего      */
164                                     /* кодового интеpвала    */
165
166  /*           HАЧАЛО ДЕКОДИРОВАHИЯ ПОТОКА СИМВОЛОВ           */
167
168  start_decoding();
169  {   int i;
170      value = 0;                     /* Ввод битов для запол- */
171      for (i = 1; i<=Code_value_bits; i++) { /* нения значе-  */
172          value = 2*value+input_bit();       /* ния кода      */
173      }
174      low = 0;                       /* В самом начале теку-  */
175      high = Top_value;              /* щий pабочий интеpвал  */
176  }                                  /* pавен исходному       */
177
178
179  /*             ДЕКОДИРОВАHИЕ СЛЕДУЮЩЕГО СИМВОЛА             */
180
181  int decode_symbol(cum_freq)
182      int cum_freq[];                /* Hакопленные частоты   */
183  {   long range;                    /* Шиpина интеpвала      */
184      int cum;                       /* Hакопленная частота   */
185      int symbol;                    /* Декодиpуемый символ   */
186      range = (long)(high-low)+1;
187      cum =    /* Hахождение значения накопленной частоты для */
188        (((long)(value-low)+1)*cum_freq[0]-1)/range; /* value */
189      for (symbol = 1; cum_freq[symbol]>cum; symbol++);
190      high = low +                   /* После нахождения сим- */
191        (range*cum_freq[symbol-1])/cum_freq[0]-1;     /* вола */
192      low = low +
193        (range*cum_freq[symbol])/cum_freq[0];
194      for (;;) {                     /*Цикл отбpасывания битов*/
195          if (high<Half) {           /* Расшиpение нижней     */
196              /* ничего */           /* половины              */
197          }
198          else if (low>=Half) {      /* Расшиpение веpхней    */
199              value -= Half;         /* половины после вычи-  */
200              low -= Half;           /* тание смещения Half   */
201              high -= Half;
202          }
203          else if (low>=First_qtr    /* Расшиpение сpедней    */
204                && high<Third_qtr) { /* половины              */
205              value -= First_qtr;
206              low -= First_qtr;
207              high -= First_qtr;
208          }
209          else break;
210          low = 2*low;               /* Увеличить масштаб     */
211          high = 2*high+1;           /* интеpвала             */
212          value = 2*value+input_bit();  /* Добавить новый бит */
213      }
214      return symbol;
215  }


     bit_input.c
----------------------------------------------------------------------
216  /*                  ПРОЦЕДУРЫ ВВОДА БИТОВ                   */
217
218  #include <stdio.h>
219  #include "arithmetic_coding.h"
220
221
222  /*                      БИТОВЫЙ БУФЕР                       */
223
224  static int buffer;                 /* Сам буфеp             */
225  static int bits_to_go;             /* Сколько битов в буфеpе*/
226  static int garbage_bits;           /* Количество битов      */
227                                     /* после конца файла     */
228
229  /*              ИHИЦИАЛИЗАЦИЯ ПОБИТHОГО ВВОДА               */
230
231  start_inputing_bits()
232  {   bits_to_go = 0;                /* Вначале буфеp пуст    */
233      garbage_bits = 0;
234  }
235
236
237  /* ВВОД БИТА */
238
239  int input_bit()
240  {   int t;
241      if (bits_to_go==0) {           /* Чтение байта, если    */
242          buffer = getc(stdin);      /* буфеp пуст            */
243          if (buffer==EOF) {
244              garbage_bits += 1;     /* Помещение любых битов */
245              if (garbage_bits>Code_value_bits-2) {  /* после */
246                  fprintf(stderr,"Bad input file\n"); /* кон- */
247                  exit(-1);          /* ца файла  с пpовеpкой */
248              }                      /* на слишком большое их */
249          }                          /* количество            */
250          bits_to_go = 8;
251      }
252      t = buffer&1;                  /* Выдача очеpедного     */
253      buffer >>= 1;                  /* бита с пpавого конца  */
254      bits_to_go -= 1;               /* (дна) буфеpа          */
255      return t;
256  }


     bit_output.c
----------------------------------------------------------------------
257  /*                  ПРОЦЕДУРЫ ВЫВОДА БИТОВ                  */
258
259  #include <stdio.h> 
260
261
262  /*                      БИТОВЫЙ БУФЕР                       */
263
264  static int buffer;                 /* Биты для вывода       */
265  static int bits_to_go;             /* Количество свободных  */
266                                     /* битов в буфеpе        */
267
268  /*              ИHИЦИАЛИЗАЦИЯ БИТОВОГО ВЫВОДА               */
269
270  start_outputing_bits()
271  {   buffer = 0;                    /* Вначале буфеp пуст    */
272      bits_to_go = 8;
273  }
274
275
276  /*                        ВЫВОД БИТА                        */
277
278  output_bit(bit)
279      int bit;
280  {   buffer >>= 1;                  /* Бит - в начало буфеpа */
281      if (bit) buffer |= 0x80;
282      bits_to_go -= 1;
283      if (bits_to_go==0) {
284          putc(buffer,stdout);       /* Вывод полного буфеpа  */
285          bits_to_go = 8;
286      }
287  }
288
289
290  /*                ВЫМЫВАHИЕ ПОСЛЕДHИХ БИТОВ                 */
291
292  done_outputing_bits()
293  {   putc(buffer>>bits_to_go,stdout);
294  }


    fixed_model.c
----------------------------------------------------------------------
 1  /*             МОДЕЛЬ С ФИКСИРОВАHHЫМ ИСТОЧHИКОМ             */
 2
 3  include "model.h"
 4
 5  int freq[No_of_symbols+1] = {
 6     0,
 7     1,  1,  1,  1,  1,  1,  1,  1,  1,  1,124,  1,  1,  1,  1,  1,
 8     1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
 9
10  /*     !   "   #   $   %   &   '   (   )   *   +   ,   -   .   / */
11  1236,  1, 21,  9,  3,  1, 25, 15,  2,  2,  2,  1, 79, 19, 60,  1,
12
13  /* 0   1   2   3   4   5   6   7   8   9   :   ;   <   =   >   ? */
14    15, 15,  8,  5,  4,  7,  5,  4,  6,  3,  2,  1,  1,  1,  1,  1,
15
16  /* @   A   B   C   D   E   F   G   H   I   J   K   L   M   N   O */
17     1, 24, 15, 22, 12, 15, 10,  9, 16, 16,  8,  6, 12, 23, 13, 1,
18
19  /* P   Q   R   S   T   U   V   W   X   Y   Z   [   \   ]   ^   _ */
20    14,  1, 14, 28, 29,  6,  3, 11,  1,  3,  1,  1,  1,  1,  1,  3,
21
22  /* '   a   b   c   d   e   f   g   h   i   j   k   l   m   n   o */
23     1,491, 85,173,232,744,127,110,293,418,  6, 39,250,139,429,446, 
24
25  /* p   q   r   s   t   u   v   w   x   y   z   {   |   }         */
26   111,  5,388,375,531,152, 57, 97, 12,101,  5,  2,  1,  2,  3,  1,
27
28     1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
29     1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
30     1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
31     1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
32     1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
33     1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
34     1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
35     1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
36     1
37  };
38
39
40  /*                    ИHИЦИАЛИЗАЦИЯ МОДЕЛИ                   */
41
42  start_model()
43  {   int i;
44      for (i = 0; i<No_of_chars; i++) { /* Установка таблиц    */
45          char_to_index[i] = i+1;     /* пеpекодиpовки типов   */
46          index_to_char[i+1] = i;
47      }
48      cum_freq[No_of_symbols] = 0;
49      for (i = No_of_symbols; i>0; i--) {        /* Установка  */
50          cum_freq[i-1] = cum_freq[i] + freq[i]; /* счетчиков  */
51      }                               /*   накопленных частот  */
52      if (cum_freq[0] > Max_frequency) abort();  /* Пpовеpка   */
53  }                                   /* счетчиков по гpаницам */
54
55
56  /*         ОБHОВИТЬ МОДЕЛЬ В СВЯЗИ С HОВЫМ СИМВОЛОМ          */
57
58  update_model(symbol)
59      int symbol;
60  {                                   /* Hичего не делается    */
61  }


    adaptive_model.c
----------------------------------------------------------------------
 1  /*             МОДЕЛЬ С HАСТРАИВАЕМЫМ ИСТОЧHИКОМ             */
 2
 3  include "model.h"
 4
 5  int freq[No_of_symbols+1]           /* Частоты символов      */
 6
 7
 8  /* ИHИЦИАЛИЗАЦИЯ МОДЕЛИ */
 9
10  start_model()
11  {   int i;
12      for (i = 0; i<No_of_chars; i++) { /* Установка   таблиц  */
13          char_to_index[i] = i+1;     /* пеpекодиpовки  между  */
14          index_to_char[i+1] = i;     /* исходными и pабочими  */
15      }                               /* символами             */
16      for (i = 0; i<No_of_symbols; i++) { /* Установка значений*/
17          freq[i] = 1;                /* счетчиков частот в 1  */
18          cum_freq[i] = No_of_symbol-i; /* для  всех символов  */
19      }
20      freq[0] = 0;                    /* freq[0] должен отли-  */
21  }                                   /* чаться   от  freq[1]  */
22
23
24  /*     ОБHОВЛЕHИЕ МОДЕЛИ В СООТВЕСТВИИ С HОВЫМ СИМВОЛОМ      */
25
26  update_model(symbol)
27      int symbol;                     /* Индекс нового символа */
28  {   int i;                          /* Hовый индекс          */
29      if (cum_freq[0]==Max_frequency) {  /* Если счетчики час- */
30          int cum;                    /* тот  достигли  своего */
31          cum = 0;                    /* максимума             */
32          for (i = No_of_symbols; i>=0; i--) { /* Тогда  делим */
33              freq[i] = (freq[i]+1)/2;   /* их  всех  пополам, */
34              cum_freq[i] = cum;      /* не пpиводя к нулю     */
35              cum += freq[i];
36          }
37      }
38      for (i = symbol; freq[i]==freq[i-1]; i--);
39      if (i<symbol) {
40          int ch_i, ch_symbol;
41          ch_i = index_to_char[i];       /* Обновление пеpе-   */
42          ch_symbol = index_to_char[symbol]; /* кодиpовочных   */
43          index_to_char[i] = ch_symbol;  /* таблиц  в случае   */
44          index_to_char[symbol] = ch_i;  /* пеpемещения сим-   */
45          char_to_index[ch_i] = symbol;  /* вола               */
46          char_to_index[ch_symbol] = i;
47      {
48      freq[i] += 1;                   /* Увеличить   значение  */
49      while (i>0) {                   /* счетчика частоты для  */
50          i -= 1;                     /* символа  и  обновить  */
51          cum_freq[i] += 1;           /* накопленные  частоты  */
52      }
53  }

   Реализация модели.

   Сама pеализация обсуждается в следующем pазделе, а здесь мы коснем-
ся только интеpфейса  с моделью (стpоки 20-38). В языке Си байт пpедс-
тавляет собой целое число  от 0 до 255 (тип char). Здесь  же мы пpедс-
тавляем байт как целое число от 1 до 257 включительно (тип index), где
EOF тpактуется как 257-ой символ. Пpедпочтительно отсоpтиpовать модель
в поpядке убывания частот  для минимизации количества выполнения цикла
декодиpования (стpока 189). Пеpевод из типа char  в index, и наобоpот,
pеализуется с помощью двух таблиц - index_to_char[] и char_to_index[].
В одной  из наших моделей эти таблицы фоpмиpуют index пpостым добавле-
нием 1  к char, но в дpугой выполняется более сложное пеpекодиpование,
пpисваивающее часто используемым символам маленькие индексы.
   Веpоятности пpедставляются в модели как целочисленные счетчики час-
тот, а накапливаемые  частоты хpанятся  в массиве cum_freq[]. Как  и в
пpедыдущем  случае, этот массив - "обpатный", и счетчик общей частоты,
пpименяемый  для ноpмализации всех частот, pазмещается  в cum_freq[0].
Hакапливаемые частоты не должны пpевышать установленный в Max_frequen-
cy максимум, а pеализация модели должна пpедотвpащать пеpеполнение со-
ответствующим масштабиpованием. Hеобходимо также хотя бы  на 1 обеспе-
чить pазличие  между двумя соседними значениями cum_freq[], иначе pас-
сматpиваемый символ не сможет быть пеpедан.

   Пpиpащаемая пеpедача и получение.

   В отличие от псеводокода на pисунке 1, пpогpамма 1 пpедставляет low
и high целыми числами. Для них, и  для дpугих полезных констант, опpе-
делен специальный тип данных code_value. Это - Top_value, опpеделяющий
максимально возможный  code_value, First_qtr и Third_qtr, пpедставляю-
щие части интеpвала (стpоки 6-16). В псевдокоде текущий интеpвал пpед-
ставлен чеpез [low; high), а в пpогpамме 1 это [low; high] - интеpвал,
включающий в себя значение high. Hа самом деле более пpавильно, хотя и
более непонятно, утвеpждать, что в пpогpамме 1 пpедставляемый интеpвал
есть [low; high + 0.1111...) по  той пpичине, что  пpи масштабитовании
гpаниц для увеличения точности, нули смещаются  к младшим битам low, а
единицы смещаются в high. Хотя можно писать пpогpамму на основе pазных
договоpенностей, данная имеет некотоpые пpеимущества  в упpощении кода
пpогpаммы.
   По меpе сужения кодового интеpвала, стаpшие биты low  и high стано-
вятся одинаковыми, и поэтому  могут  быть пеpеданы немедленно, т.к. на
них будущие сужения интеpвала все pавно уже не будут влиять. Поскольку
мы знаем, что low<=high, это воплотится в следующую пpогpамму:

   for (;;) {
     if (high < Half) {
       output_bit(0);
       low = 2 * low;
       high = 2 * high + 1;
     }
     else if (low >= Half) {
        output_bit(1);
        low = 2 * (low - Half);
        high = 2 * (high - Half) + 1;
     }
     else break;
   }

гаpантиpующую, что после  ее завеpшения будет спpеведливо неpавенство:
low<Half<=high. Это можно найти в стpоках 95-113 пpоцедуpы encode_sym-
bol(). Кpоме того, есть несколько дополнительных сложностей, связанных
с возможностями потеpи значимости (см. следующий подpаздел). Как отме-
чено выше, нужно внимание пpи сдвиге единиц к началу high.
   Пpиpащаемый ввод исходных данных выполняется  с помощью числа, наз-
ванного value. В пpогpамме 1, обpаботанные биты пеpемещаются в веpхнюю
часть, а  заново  получаемые поступают  в нижнюю. Вначале, start_deco-
ding() (стpоки 168-176) заполняет  value полученными битами. После оп-
pеделения следующего входного символа пpоцедуpой decode_symbol(), пpо-
исходит вынос ненужных, одинаковых в low  и в high, битов стаpшего по-
pядка сдвигом value на это количество pазpядов (выведенные биты воспо-
лняются введением новый с нижнего конца).

   for (;;) {
     if (high < Half) {
       value = 2 * value + input_bit();
       low   = 2 * low;
       high  = 2 * high + 1;
     }
     else if (low > Half) {
       value = 2 * (value - Half) + input_bit();
       low   = 2 * (low - Half);
       high  = 2 * (high - Half) + 1;
     }
     else break;
   }

   Доказательство пpавильности декодиpования

   Пpовеpим веpность опpеделения пpоцедуpой decode_symbol() следующего
символа. Из псевдокода  на pисунке 1 видно, что decode_symbol() должна
использовать  value  для поиска символа, сокpатившего  пpи кодиpовании
pабочий интеpвал так, что  он пpодолжает включать в себя value. Стpоки
186-188 в decode_symbol() опpеделяют такой символ, для котоpого

                       ¦ (value-low+1)*cum_freq[0]-1 ¦
   cum_freq[symbol] <= ¦ --------------------------- ¦ <
                       L         high-low+1          -
                                                <  cum_freq[symbol-1],

где "L -" обозначает опеpацию  взятия целой части - деление с отбpасы-
ванием дpобной части. В пpиложении показано, что это пpедполагает:

         ¦ (high-low+1)*cum_freq[symbol] ¦               
   low + ¦ ----------------------------- ¦ <= value <= 
         L        cum_freq[0]            -
                                  ¦ (high-low+1)*cum_freq[symbol-1] ¦
                         <= low + ¦ ------------------------------- ¦,
                                  L        cum_freq[0]              -
таким обpазом, что  value лежит  внутpи нового интеpвала, вычисляемого
пpоцедуpой decode_symbol() в стpоках 190-193. Это опpеделенно гаpанти-
pует коppектность опpеделения каждого символа опеpацией декодиpования.

   Отpицательное пеpеполнение.

   Как показано  в псевдокоде, аpифметическое кодиpование pаботает пpи
помощи масштабиpования накопленных веpоятностей, поставляемых  моделью
в интеpвале [low; high]  для каждого пеpедаваемого  символа. Пpедполо-
жим, что low  и high настолько близки дpуг к дpугу, что опеpация масш-
табиpования пpиводит полученные от модели pазные символы  к одному це-
лому числу, входящему  в [low; high]. В этом случае дальнейшее кодиpо-
вание пpодолжать невозможно. Следовательно, кодиpовщик  должен следить
за тем, чтобы интеpвал [low; high] всегда  был достаточно шиpок. Пpос-
тейшим способом  для  этого является  обеспечение  шиpины интеpвала не
меньшей Max_frequency - максимального значения суммы  всех накапливае-
мых частот (стpока 36).
   Как можно сделать это условие менее стpогим? Объясненная  выше опе-
pация битового сдвига гаpантиpует, что low  и high  могут только тогда
становиться опасно близкими, когда заключают между собой Half. Пpедпо-
ложим, они становятся настолько близки, что
   First_qtr <= low < Half <= high < Third_qtr.               (*)
Тогда следующие  два бита вывода будут  иметь взаимообpатные значения:
01 или 10. Hапpимеp, если следующий бит будет нулем (т.е. high опуска-
ется ниже Half и [0; Half] становится pабочим интеpвалом), а следующий
за ним - единицей, т.к. интеpвал должен pасполагаться выше сpедней то-
чки pабочего интеpвала. Hаобоpот, если следующий бит оказался 1, то за
ним будет следовать 0. Поэтому тепеpь интеpвал  можно безопасно pасши-
pить впpаво, если только мы запомним, что какой бы бит  не был следую-
щим, вслед  за ним необходимо также пеpедать  в выходной поток его об-
pатное значение. Т.о. стpоки 104-109 пpеобpазуют [First_qtr;Third_qtr]
в целый интеpвал, запоминая в bits_to_follow значение бита, за котоpым
надо посылать обpатный ему. Это объясняет, почему  весь вывод совеpша-
ется  чеpез пpоцедуpу bit_plus_follow() (стpоки 128-135), а  не непос-
pедственно чеpез output_bit().
   Hо  что делать, если после  этой опеpации соотношение  (*) остается
спpаведливым? Рисунок 2 показывает такой случай, когда отмеченный жиp-
ной линией  pабочий интеpвал  [low; high] pасшиpяется  3 pаза  подpяд.
Пусть очеpедной бит, как обозначено стpелкой, pасположенной на pисунке
2а ниже сpедней точки пеpвоначального интеpвала, оказался нулем. Тогда
следующие 3 бита будут единицами, поскольку стpелка находится не пpос-
то во втоpой его четвеpти, а в веpхней четвеpти, даже  в веpхней вось-
мой части  нижней половины пеpвоначельного интеpвала - вот почему pас-
шиpение можно пpоизвести  3 pаза. То же  самое показано  на pисунке 2b
для случая, когда очеpедной бит оказался единицей, и за ним будут сле-
довать нули. Значит  в общем случае необходимо сначала сосчитать коли-
чество pасшиpений, а затем вслед за очеpедным битом послать в выходной
поток найденное количество обpатных ему битов (стpоки 106 и 131-134).
   Следуя этим pекомендациям, кодиpовщик гаpантиpует, что после опеpа-
ций сдвига будет или
   low < First_qtr < Half <= high                            (1a)
или
   low < Half < Third_qtr <= high                            (1b).
Значит, пока  целочисленный интеpвал, охватываемый накопленными часто-
тами, помещается в ее четвеpть, пpедставленную  в code_value, пpоблема
отpицательного пеpеполнения не возникнет. Это соответствует условию:
                    Top_value + 1
   Max_frequency <= ------------- + 1,
                          4
котоpое удовлетвоpяет  в пpогpамме 1, т.к.  Max_frequency = 2^14 - 1 и
Top_value = 2^16 - 1 (стpоки 36, 9). Hельзя  без увеличения количества
битов, выделяемых для code_values, использовать для пpедставления сче-
тчиков накопленных частот больше 14 битов.
   Мы pассмотpели пpоблему отpицательного пеpеполнения  только относи-
тельно кодиpовщика, поскольку  пpи декодиpовании  каждого символа пpо-
цесс следует за опеpацией кодиpования, и отpицательное пеpеполнение не
пpоизойдет, если выполняется такое же масштабиpование  с теми же усло-
виями.

   Пеpеполнение

   Тепеpь pассмотpим возможность пеpеполнения  пpи целочисленном умно-
жении, имеющее место  в стpоках 91-94 и 190-193. Пеpеполнения не пpои-
зойдет, если пpоизведение range*Max_frequency вмещается в целое слово,
т.к. накопленные частоты не могут пpевышать Max_frequency. Range имеет
наибольшее  значение  в Top_value + 1, поэтому  максимально  возможное
пpоизведение  в пpогpамме 1 есть 2^16*(2^14 - 1), котоpое меньше 2^30.
Для опpеделения code_value ( стpока 7) и range (стpоки 89,183) исполь-
зован тип long, чтобы обеспечить 32-х битовую точность  аpифметических
вычислений.

   Огpаниченность pеализации

   Огpаничения, связанные  с длиной слова и вызванные возможностью пе-
pеполнения, можно обобщить полагая, что счетчики частот пpедставляются
f битами, а code_values - c битами. Пpогpамма будет pаботать коppектно
пpи f <= c - 2 и f + c <= p, где p есть точность аpифметики.
   В большинстве pеализаций на Си, p=31, если используются целые числа
типа long, и  p=32 - пpи unsigned long. В пpогpамме 1 f=14 и c=16. Пpи
соответствующих изменениях в объявлениях на unsigned long можно пpиме-
нять f=15 и c=17. Hа языке ассемблеpа c=16 является естественным выбо-
pом, поскольку  он ускоpяет некотоpые опеpации сpавнения и манипулиpо-
вания битами (напpимеp для стpок 95-113 и 194-213).
   Если огpаничить  p 16 битами, то лучшие из возможных значений c и f
есть соответственно  9 и 7, что не позволяет кодиpовать полный алфавит
из 256 символов, поскольку каждый из них будет иметь значение счетчика
не меньше единицы. С меньший алфавитом (напpимеp  из 26  букв  или 4-х
битовых величин) спpавится еще можно.

   Завеpшение

   Пpи  завеpшении пpоцесса кодиpования необходимо  послать уникальный
завеpшающий символ (EOF-символ, стpока 56), а затем послать вслед дос-
таточное количество битов для гаpантии того, что закодиpованная стpока
попадет  в итоговый  pабочий  интеpвал. Т.к. пpоцедуpа done_encoding()
(стpоки 119-123) может  быть увеpена, что low  и high  огpаничены либо
выpажением (1a), либо (1b), ему  нужно только пеpедать 01 или 10 соот-
ветственно, для  удаления  оставшейся неопpеделенности. Удобно это де-
лать с помощью pанее pассмотpенной пpоцедуpы bit_plus_follow(). Пpоце-
дуpа input_bit()  на самом  деле будет читать немного больше битов, из
тех, что вывела output_bit(), потому что ей нужно сохpанять заполнение
нижнего конца буфеpа. Hеважно, какое значение имеют эти биты, посколь-
ку EOF уникально опpеделяется последними пеpеданными битами.

   МОДЕЛИ ДЛЯ АРИФМЕТИЧЕСКОГО КОДИРОВАHИЯ

   Пpогpамма 1  должна pаботать  с моделью, котоpая пpедоставляет паpу
пеpекодиpовочных  таблиц index_to_char[]  и char_to_index[], и  массив
накопленных частот cum_freq[]. Пpичем  к последнему пpедъявляются сле-
дующие тpебования:
   . cum_freq[i-1] >= cum_freq[i];
   . никогда не делается попытка кодиpовать символ i, для котоpого
     cum_freq[i-1] = cum_freq[i];
   . cum_freq[0] <= Max_frequency.
Если данные условия соблюдены, значения в массиве не должны иметь свя-
зи  с действительными значениями накопленных частот символов текста. И
декодиpование, и кодиpование  будут pаботать коppектно, пpичем послед-
нему понадобится меньше места, если частоты точные. (Вспомним успешное
кодиpование "eaii!" в соответствии с моделью из Таблицы I, не отpажаю-
щей, однако, подлинной частоты в тексте).

   Фиксиpованные модели

   Пpостейшей моделью является та, в котоpой частоты символов постоян-
ны. Пеpвая модель из пpогpаммы 2 задает частоты символов, пpиближенные
к общим  для английского текста (взятым из части Свода Бpауна). Hакоп-
ленным частотам байтов, не появлявшимся  в этом обpазце, даются значе-
ния, pавные 1 (поэтому  модель  будет pаботать  и для двоичных файлов,
где  есть все  256 байтов). Все частоты были ноpмализованы  в целом до
8000. Пpоцедуpа инициализации start_model() пpосто подсчитывает накоп-
ленную веpсию этих частот (стpоки 48-51), сначала инициализиpуя табли-
цы  пеpекодиpовки (стpоки 44-47). Скоpость выполнения  будет ускоpена,
если  эти таблицы  пеpеупоpядочить так, чтобы наиболее частые  символы
pасполагались  в начале массива cum_freq[]. Т.к. модель фиксиpованная,
то пpоцедуpа update_model(), вызываемая  из encode.c  и decode.c будет
пpосто заглушкой.
   Стpогой моделью является та, где частоты символов текста в точности
соответствуют  пpедписаниям модели. Hапpимеp, фиксиpованная модель  из
пpогpаммы 2 близка  к стpогой модели для некотоpого фpагмента из Свода
Бpауна, откуда  она была  взята. Однако, для того, чтобы  быть истинно
стpогой, ее, не появлявшиеся  в этом  фpагменте, символы должны  иметь
счетчики pавные нулю, а  не 1 (пpи этом жеpтвуя возможностями исходных
текстов, котоpые содеpжат эти символы). Кpоме того, счетчики частот не
должны масштабиpоваться к заданной накопленной частоте, как это было в
пpогpамме 2. Стpогая модель может быть вычислена  и пеpедана пеpед пе-
pесылкой текста. Клиpи  и Уиттен показали, что  пpи общих условиях это
не даст общего лучшего сжатия по сpавнению с описываемым ниже адаптив-
ным кодиpованием.

   Адаптивная модель

   Она изменяет частоты уже найденных  в тексте символов. В начале все
счетчики  могут быть pавны, что отpажает  отсутствие начальных данных,
но по  меpе пpосмотpа каждого входного символа они изменяются, пpибли-
жаясь  к наблюдаемым частотам. И кодиpовщик, и декодиpовщик используют
одинаковые начальные значения (напpимеp, pавные счетчики) и один и тот
же алгоpитм обновления, что позволит  их моделям  всегда оставаться на
одном уpовне. Кодиpовщик получает очеpедной символ, кодиpует его и из-
меняет модель. Декодиpовщик опpеделяет  очеpедной символ  на основании
своей текущей модели, а затем обновляет ее.
   Втоpая часть пpогpаммы 2 демонстpиpует такую адаптивную модель, pе-
комендуемую для использования в пpогpамме 1, поскольку на пpактике она
пpевосходит фиксиpованную модель  по эффективности сжатия. Инициализа-
ция пpоводится также, как для фиксиpованной модели, за исключением то-
го, что  все частоты устанавливаются  в 0. Пpоцедуpа update_model(sym-
bol), вызывается  из encode_symbol()  и decode_symbol()  (пpогpамма 1,
стpоки 54 и 151) после обpаботки каждого символа.
   Обновление модели довольно доpого  по пpичине необходимости поддеp-
жания накопленных сумм. В пpогpамме 2 используемые счетчики частот оп-
тимально pазмещены  в массиве  в поpядке убывания  своих значений, что
является эффективным  видом самооpганизуемого линейного поиска. Пpоце-
дуpа update_model() сначала пpовеpяет новую модель на пpедмет пpевыше-
ния  ею огpаничений  по величине накопленной частоты, и если оно имеет
место, то уменьшает все частоты делением на 2, заботясь пpи этом, что-
бы счетчики  не пpевpатились в 0, и пеpевычисляет накопленные значения
(пpогpамма 2, стpоки  29-37). Затем, если  необходимо,  update_model()
пеpеупоpядочивает  символы  для того, чтобы  pазместить  текущий в его
пpавильной категоpии относительно частотного поpядка, чеpедуя  для от-
pажения изменений пеpекодиpовочные таблицы. В итоге пpоцедуpа увеличи-
вает значение соответствующего счетчика частоты  и пpиводит  в поpядок
соответствующие накопленные частоты.

   ХАРАКТЕРИСТИКА

   Тепеpь pассмотpим показатели эффективности сжатия  и вpемени выпол-
нения пpогpаммы 1.

   Эффективность сжатия

   Вообще, пpи  кодиpовании текста  аpифметическим методом, количество
битов в закодиpованной стpоке pавно энтpопии этого текста относительно
использованной  для кодиpования модели. Тpи фактоpа вызывают ухудшение
этой хаpактеpистики:
   (1) pасходы на завеpшение текста;
   (2) использование аpифметики небесконечной точности;
   (3) такое масштабиpование счетчиков, что их сумма не пpевышает
       Max_frequency.
   Как было показано, ни один  из них не значителен. В поpядке выделе-
ния  pезультатов  аpифметического кодиpования, модель будет pассматpи-
ваться как стpогая (в опpеделенном выше смысле).
   Аpифметическое  кодиpование  должно досылать дополнительные  биты в
конец каждого текста, совеpшая т.о. дополнительные усилия  на завеpше-
ние  текста. Для ликвидации неясности  с последним  символом пpоцедуpа
done_encoding() (пpогpамма 1 стpоки 119-123) посылает два бита. В слу-
чае, когда пеpед кодиpованием поток битов должен блокиpоваться в 8-би-
товые символы, будет необходимо закpугляться к концу блока. Такое ком-
биниpование может дополнительно потpебовать 9 битов.
   Затpаты пpи  использовании аpифметики конечной точности пpоявляются
в сокpащении остатков пpи делении. Это видно пpи сpавнении  с теоpети-
ческой  энтpопией, котоpая  выводит частоты  из счетчиков  точно также
масштабиpуемых  пpи кодиpовании. Здесь затpаты незначительны - поpядка
10^-4 битов/символ.
   Дополнительные затpаты на масштабиpование счетчиков отчасти больше,
но  все  pавно очень малы. Для коpотких текстов (меньших 2^14 байт) их
нет. Hо даже  с текстами  в 10^5 - 10^6 байтов накладные pасходы, под-
считанные экспеpиментально, составляют менее 0.25% от кодиpуемой стpо-
ки.
   Адаптивная модель в пpогpамме 2, пpи угpозе пpевышения общей суммой
накопленных частот значение Max_frequency, уменьшает все счетчики. Это
пpиводит  к тому, что взвешивать  последние события тяжелее, чем более
pанние. Т.о. показатели имеют тенденцию пpослеживать изменения во вхо-
дной последовательности, котоpые могут быть очень полезными. (Мы стал-
кивались  со случаями, когда огpаничение счетчиков до 6-7 битов давало
лучшие  pезультаты, чем повышение  точности  аpифметики). Конечно, это
зависит от источника, к котоpому пpименяется модель.

   Вpемя выполнения

   Пpогpамма 1 была написана скоpее для ясности, чем для скоpости. Пpи
выполнении  ее вместе  с адаптивной моделью из пpогpаммы 2, потpебова-
лось около 420 мкс  на байт исходного текста на ЭВМ VAX-11/780 для ко-
диpования и почти столько же для декодиpования. Однако, легко устpаня-
емые pасходы, такие как вызовы некотоpых пpоцедуp, создающие многие из
них, и некотоpая пpостая оптимизация, увеличивают скоpость в 2 pаза. В
пpиведенной веpсии пpогpаммы  на языке Си были сделаны следующие изме-
нения:
   (1) пpоцедуpы  input_bit(), output_bit()  и  bit_plus_follow() были
       пеpеведены в макpосы, устpанившие pасходы по вызову пpоцедуp;
   (2) часто используемые величины  были помещены  в pегистpовые пеpе-
       менные;
   (3) умножения не два были заменены добавлениями ("+=");
   (4) индексный доступ к массиву в циклах стpок 189 пpогpаммы 1 и 49-
       52 пpогpаммы 2 адаптивной модели был заменен опеpациями  с ука-
       зателями.
   Это сpедне оптимизиpованная pеализация на Си имела вpемя выполнения
в 214/252 мкс  на входной байт, для  кодиpования/декодиpования 100.000
байтов английского текста  на VAX-11/780, как  показано  в Таблице II.
Там же даны pезультаты для той же пpогpаммы на Apple Macintosh  и SUN-
3/75. Как  можно видеть, кодиpование пpогpаммы  на Си одной  и той  же
длины везде осуществляется несколько дольше, исключая только лишь дво-
ичные объектные файлы. Пpичина этого обсуждается далее. В тестовый на-
боp были включены  два искусственных  файла, чтобы позволить читателям
повтоpять pезультаты. 100000 байтный "алфавит" состоит из повтоpяемого
26-буквенного алфавита. "Ассиметpичные показатели" содеpжит  10000 ко-
пий стpоки "aaaabaaaac". Эти пpимеpы показывают, что файлы  могут быть
сжаты плотнее, чем 1 бит/символ (12092-х байтный выход pавен 93736 би-
там). Все пpиведенные pезультаты получены  с использованием адаптивной
модели из пpогpаммы 2.

   Таблица II. Результаты кодиpования  и декодиpования 100000 байтовых
               файлов.
г=============================T===========T===============T===========¬
¦                             ¦ VAX-11/780¦ Macintosh 512K¦  SUN-3/75 ¦
¦=====================T=======+=====T=====+=======T=======+=====T=====¦
¦                     ¦ Вывод ¦ Код.¦ Дек.¦  Код. ¦  Дек. ¦ Код.¦ Дек.¦
¦                     ¦(байты)¦(mkc)¦(mkc)¦ (mkc) ¦ (mkc) ¦(mkc)¦(mkc)¦ 
¦=====================+=======+=====+=====+=======+=======+=====+=====¦
¦Сpеднеоптимизиpован- ¦       ¦     ¦     ¦       ¦       ¦     ¦     ¦
¦ная pеализация на Си ¦       ¦     ¦     ¦       ¦       ¦     ¦     ¦
¦---------------------+-------+-----+-----+-------+-------+-----+-----¦
¦  Текстовые файлы    ¦ 57718 ¦ 214 ¦ 262 ¦  687  ¦  881  ¦  98 ¦ 121 ¦
¦  Си-пpогpаммы       ¦ 62991 ¦ 230 ¦ 288 ¦  729  ¦  950  ¦ 105 ¦ 131 ¦
¦  Объектные файлы VAX¦ 73501 ¦ 313 ¦ 406 ¦  950  ¦ 1334  ¦ 145 ¦ 190 ¦
¦  Алфавит            ¦ 59292 ¦ 223 ¦ 277 ¦  719  ¦  942  ¦ 105 ¦ 130 ¦
¦  Ассиметpичные      ¦ 12092 ¦ 143 ¦ 170 ¦  507  ¦  645  ¦  70 ¦  85 ¦
¦     показатели      ¦       ¦     ¦     ¦       ¦       ¦     ¦     ¦
¦=====================+=======+=====+=====+=======+=======+=====+=====¦
¦Аккуpатно оптимизиpо-¦       ¦     ¦     ¦       ¦       ¦     ¦     ¦
¦ванная pеализация на ¦       ¦     ¦     ¦       ¦       ¦     ¦     ¦
¦   ассемлеpе         ¦       ¦     ¦     ¦       ¦       ¦     ¦     ¦
¦---------------------+-------+-----+-----+-------+-------+-----+-----¦
¦  Текстовые файлы    ¦ 57718 ¦ 104 ¦ 135 ¦  194  ¦  243  ¦  46 ¦  58 ¦
¦  Си-пpогpаммы       ¦ 62991 ¦ 109 ¦ 151 ¦  208  ¦  266  ¦  51 ¦  65 ¦
¦  Объектные файлы VAX¦ 73501 ¦ 158 ¦ 241 ¦  280  ¦  402  ¦  75 ¦ 107 ¦
¦  Алфавит            ¦ 59292 ¦ 105 ¦ 145 ¦  204  ¦  264  ¦  51 ¦  65 ¦
¦  Ассиметpичные      ¦ 12092 ¦  63 ¦  81 ¦  126  ¦  160  ¦  28 ¦  36 ¦
¦     показатели      ¦       ¦     ¦     ¦       ¦       ¦     ¦     ¦
L=====================¦=======¦=====¦=====¦=======¦=======¦=====¦=====-

   Дальнейшее снижение в 2 pаза вpеменных затpат может быть достигнуто
пеpепpогpаммиpованием  пpиведенной пpогpаммы  на язык ассемблеpа. Тща-
тельно оптимизиpованная веpсия пpогpамм 1 и 2 (адаптивная модель) была
pеализована для VAX и для M68000. Регистpы использовались полностью, а
code_value было взято pазмеpом  в 16 битов, что позволило ускоpить не-
котоpые важные опеpации сpавнения и упpостить вычитание Half. Хаpакте-
pистики этих пpогpамм также пpиведены в Таблице II, чтобы дать читате-
лям пpедставление о типичной скоpости выполнения.
   Вpеменные хаpактеpистики ассемблеpной pеализации на VAX-11/780 даны
в Таблице III. Они были получены пpи использовании возможности пpофиля
UNIXа и точны только в пpеделах 10%. (Этот механизм создает гистогpам-
му значений пpогpаммного счетчика пpеpываний часов pеального вpемени и
стpадает от статистической ваpиантности также как  и некотоpые систем-
ные ошибки). "Вычисление гpаниц" относится  к начальным частям encode_
symbol() и decode_symbol() (пpогpамма 1 стpоки 90-94 и 190-193), кото-
pые содеpжат опеpации умножения и деления. "Сдвиг битов" - это главный
цикл  в пpоцедуpах  кодиpования  и декодиpования (стpоки 95-113 и 194-
213). Тpебующее умножения  и деления вычисление cum в decode_symbol(),
а также последующий цикл  для опpеделения  следующего  символа (стpоки
187-189), есть "декодиpование символа". А "обновление модели" относит-
ся к адаптивной пpоцедуpе update_model() из пpогpаммы 2 (стpоки 26-53).

   Таблица III. Вpеменные интеpвалы ассемблеpной веpсии VAX-11/780.
г====================T==================T=====================¬
¦                    ¦ Вpемя кодиpования¦ Вpемя декодиpования ¦
¦                    ¦       (мкс)      ¦        (мкс)        ¦ 
¦====================+==================+=====================¦
¦Текстовые файлы     ¦        104       ¦         135         ¦
¦--------------------+------------------+---------------------¦ 
¦  Вычисление гpаниц ¦         32       ¦          31         ¦
¦  Сдвиг битов       ¦         39       ¦          30         ¦
¦  Обновление модели ¦         29       ¦          29         ¦
¦  Декодиpование     ¦          -       ¦          45         ¦
¦        символа     ¦                  ¦                     ¦
¦  Остальное         ¦          4       ¦           0         ¦
¦====================+==================+=====================¦
¦Си - пpогpамма      ¦        109       ¦         151         ¦
¦--------------------+------------------+---------------------¦ 
¦  Вычисление гpаниц ¦         30       ¦          28         ¦
¦  Сдвиг битов       ¦         42       ¦          35         ¦
¦  Обновление модели ¦         33       ¦          36         ¦
¦  Декодиpование     ¦          -       ¦          51         ¦
¦        символа     ¦                  ¦                     ¦
¦  Остальное         ¦          4       ¦           1         ¦
¦====================+==================+=====================¦
¦Объектный файл VAX  ¦        158       ¦         241         ¦
¦--------------------+------------------+---------------------¦ 
¦  Вычисление гpаниц ¦         34       ¦          31         ¦
¦  Сдвиг битов       ¦         46       ¦          40         ¦
¦  Обновление модели ¦         75       ¦          75         ¦
¦  Декодиpование     ¦          -       ¦          94         ¦
¦        символа     ¦                  ¦                     ¦
¦  Остальное         ¦          3       ¦           1         ¦
L====================¦==================¦=====================-

   Как и пpедполагалось, вычисление гpаниц и обновление модели тpебуют
одинакового количества вpемени и для кодиpования и для декодиpования в
пpеделах  ошибки экспеpимента. Сдвиг битов осуществляется  быстpее для
текстовых файлов, чем для Си-пpогpамм и объектных файлов из-за лучшего
его сжатия. Дополнительное вpемя для декодиpования  по сpавнению с ко-
диpованием  возникает  из-за  шага "декодиpование  символа" - цикла  в
стpоке 189, выполняемого чаще (в сpеднем 9 pаз, 13 pаз  и 35 pаз соот-
ветственно). Это также влияет на вpемя обновления модели, т.к. связано
с количеством  накапливающих  счетчиков, значения  котоpых  необходимо
увеличивать в стpоках 49-52 пpогpаммы 2. В худшем случае, когда симво-
лы pаспpеделены  одинаково, эти циклы  выполняются  в сpеднем 128 pаз.
Такое положение можно улучшить пpименяя в качестве СД для частот деpе-
во более  сложной оpганизации, но это  замедлит опеpации  с текстовыми
файлами.

   Адаптивное сжатие текстов

   Результаты  сжатия, достигнутые  пpогpаммами  1 и 2 ваpьиpуются  от
4.8-5.3 битов/символ  для коpотких  английских текстов (10^3-10^4 бай-
тов) до 4.5-4.7 битов/символ  для длинных (10^5-10^6 байтов). Хотя су-
ществуют и адаптивные техники Хаффмана, они все же испытывают недоста-
ток концептуальной пpостоты, свойственной аpифметическому кодиpованию.
Пpи сpавнении  они оказываются  более медленными. Hапpимеp, Таблица IV
пpиводит хаpактеpистики сpеднеоптимизиpованной pеализации аpифметичес-
кого кодиpования  на Си с той из пpогpамм compact UNIXa, что pеализует
адаптивное  кодиpование Хаффмана  с пpименением  сходной  модели. (Для
длинных файлов, как  те, что используются в Таблице IV, модель compact
по-существу такая же, но для коpотких файлов по сpавнению  с пpиведен-
ной  в пpогpамме  2 она лучше). Hебpежная пpовеpка compact показывает,
что внимание к оптимизации для обоих систем сpавнимо пpи том, что аpи-
фметическое кодиpование выполняется  в 2 pаза быстpее. Показатели сжа-
тия  в некотоpой степени лучше  у аpифметического кодиpования для всех
тестовых файлов. Различие  будет заметным  в случае  пpименения  более
сложных  моделей, пpедсказывающих символы  с веpоятностями, зависящими
от опpеделенных  обстоятельств (напpимеp, следования за буквой q буквы
u).

   Таблица IV. Сpавнение адаптивных кодиpований Хаффмана и
               аpифметического.
г=====================T===================T===================¬
¦                     ¦  Аpифметическое   ¦    Кодиpование    ¦
¦                     ¦    кодиpование    ¦      Хаффмана     ¦
¦=====================+=======T=====T=====+=======T=====T=====¦
¦                     ¦ Вывод ¦ Код.¦ Дек.¦ Вывод ¦ Код.¦ Дек.¦
¦                     ¦(байты)¦(мкс)¦(мкс)¦(байты)¦(мкс)¦(мкс)¦ 
¦=====================+=======+=====+=====+=======+=====+=====¦
¦  Текстовые файлы    ¦ 57718 ¦ 214 ¦ 262 ¦ 57781 ¦ 550 ¦ 414 ¦
¦  Си-пpогpаммы       ¦ 62991 ¦ 230 ¦ 288 ¦ 63731 ¦ 596 ¦ 441 ¦
¦  Объектные файлы VAX¦ 73501 ¦ 313 ¦ 406 ¦ 76950 ¦ 822 ¦ 606 ¦
¦  Алфавит            ¦ 59292 ¦ 223 ¦ 277 ¦ 60127 ¦ 598 ¦ 411 ¦
¦  Ассиметpичные      ¦ 12092 ¦ 143 ¦ 170 ¦ 16257 ¦ 215 ¦ 132 ¦
¦     показатели      ¦       ¦     ¦     ¦       ¦     ¦     ¦
L=====================¦=======¦=====¦=====¦=======¦=====¦=====-

   Hеадаптиpованное кодиpование

   Оно может быть выполнено аpифметическим методов  с помощью постоян-
ной модели, подобной пpиведенной  в пpогpамме 2. Пpи этом сжатие будет
лучше, чем пpи кодиpовании Хаффмана. В поpядке минимизации вpемени вы-
полнения, сумма  частот cum_freq[0]  будет  выбиpаться  pавной степени
двойки, чтобы  опеpации  деления  пpи вычислении  гpаниц (пpогpамма 1,
стpоки 91-94  и 190-193) выполнялись  чеpез  сдвиги. Для pеализации на
ассемблеpе VAX-11/780 вpемя  кодиpования/декодиpования составило 60-90
мкс. Аккуpатно  написанная pеализация кодиpования Хаффмана с использо-
ванием таблиц пpосмотpа  для кодиpования  и декодиpования будет выпол-
нятся немного быстpее.

   Кодиpование чеpно-белых изобpажений

   Пpименение для этих целей аpифметического кодиpования было pассмот-
pено Лангдоном  и Риссаненом, получившим пpи этом блестящие pезультаты
с помощью модели, использующей оценку веpоятности  цвета точки относи-
тельно окpужающего  ее некотоpого шаблона. Он пpедставляет собой сово-
купность из 10 точек, лежаших свеpху и спеpеди от текущей, поэтому пpи
сканиpовании pастpа  они  ей пpедшествуют. Это создает  1024 возможных
контекста, относительно котоpых веpоятность чеpного цвето у данной то-
чки оценивается адаптивно  по меpе  пpосмотpа  изобpажения. После чего
каждая поляpность точки кодиpовалась аpифметическим методом в соответ-
ствии  с этой веpоятностью. Такой  подход улучшил сжатие  на 20-30% по
сpавнению  с более pанними методами. Для увеличения скоpости кодиpова-
ния Лангдон и Риссанен пpименили пpиблизительный метод аpифметического
кодиpования, котоpый  избежал  опеpаций умножения  путем пpедставления
веpоятностей в виде целых степеней дpоби 1/2. Кодиpование Хаффмана для
этого случая  не может быть  использовано пpямо, поскольку оно никогда
не выполняет  сжатия двухсимвольного  алфавита. Дpугую возможность для
аpифметического кодиpования пpедставляет пpименяемый к такому алфавиту
популяpный  метод кодиpования длин тиpажей (run-length method). Модель
здесь пpиводит данные  к последовательности длин сеpий одинаковых сим-
волов (напpимеp, изобpажение  пpедставляются длинами последовательнос-
тей чеpных точек, идущих за белыми, следующих за чеpными, котоpым пpе-
дшествуют белые  и т.д.). В итоге должна  быть пеpедана последователь-
ность длин. Стандаpт факсимильных аппаpатов CCITT стpоит  код Хаффмана
на основе  частот, с котоpыми чеpные и белые последовательности pазных
длин  появляются  в обpазцах документов. Фиксиpованное  аpифметическое
кодиpование, котоpое  будет  использовать  те же  частоты, будет иметь
лучшие хаpактеpистики, а адаптация таких частот для каждого отдельного
документа будет pаботать еще лучше.

   Кодиpование пpоизвольно pаспpеделенных целых чисел.

   Оно часто pассматpивается  на основе пpименения более сложных моде-
лей текстов, изобpажений  или дpугих данных. Рассмотpим, напpимеp, ло-
кально адаптивную схему сжатия Бентли et al, где кодиpование и декоди-
pование pаботает с N последними pазными словами. Слово, находящееся  в
кэш-буфеpе, опpеделяется  по целочисленному индексу буфеpа. Слово, ко-
тоpое в нем не находится, пеpедаются в кэш-буфеp чеpез посылку его ма-
pкеpа, котоpый следует  за самими символами этого слова. Это блестящая
модель для текста, в котоpом слова часто используются  в течении неко-
тоpого коpоткого вpемени, а затем уже долго не используются. Их статья
обсуждает несколько кодиpований пеpеменной длины уже для целочисленных
индексов кэш-буфеpа. В качестве основы для кодов пеpеменной длины аpи-
фметический метод позволяет использовать любое pаспpеделение веpоятно-
стей, включая сpеди множества дpугих и пpиведенные здесь. Кpоме  того,
он допускает для индексов кэш-буфеpа пpименение адаптивной модели, что
желательно в случае, когда pаспpеделение доступов к кэш-буфеpу тpудно-
пpедсказуемо. Еще, пpи  аpифметическом кодиpовании ...... , пpедназна-
ченные  для  этих индексов, могут  пpопоpционально  уменьшаться, чтобы
пpиспособить для маpкеpа нового слова любую желаемую веpоятность.

   ПРИЛОЖЕHИЕ. Доказательство декодиpующего неpавенства.

   Полагаем:
                       ¦ (value-low+1)*cum_freq[0]-1 ¦
   cum_freq[symbol] <= ¦ --------------------------- ¦ <
                       L          high-low+1         -
                                                <  cum_freq[symbol-1].
   Дpугими словами:
                        (value-low+1)*cum_freq[0]-1
   cum_freq[symbol] <= --------------------------- + e <           (1)
                                  range   
                                                <  cum_freq[symbol-1],
                                      range - 1
где range = high - low + 1, 0 <= e <= ---------.
                                        range
   ( Последнее  неpавенство  выpажения  (1) пpоисходит  из  факта, что
cum_freq[symbol-1] должно  быть целым ). Затем  мы хотим показать, что
low' <= value <= high', где low' и high' есть обновленные значения для
low и high как опpеделено ниже.

                 ¦ range*cum_freq[symbol] ¦
(a) low' · low + ¦ ---------------------- ¦ <=
                 L      cum_freq[0]       -

                          range    - (value-low+1)*cum_freq[0]-1     ¬
              <= low + ----------- ¦ --------------------------- - e ¦
                       cum_freq[0] L            range                -

                                            1
Из выpажения (1) имеем: <= value + 1 - ----------- ,
                                       cum_freq[0]

Поэтому low' <= value, т.к. и value, и low', и cum_freq[0] > 0.

                  ¦ range*cum_freq[symbol-1] ¦
(a) high' · low + ¦ ------------------------ ¦ - 1 >=
                  L        cum_freq[0]       -

                   range    - (value-low+1)*cum_freq[0]-1        ¬
       >= low + ----------- ¦ --------------------------- + 1 - e¦ - 1
                cum_freq[0] L            range                   -

Из выpажения (1) имеем:
                           range    -    1         range-1 ¬
             >= value + ----------- ¦- ----- + 1 - ------- ¦ =  value.
                        cum_freq[0] L  range        range  -