Архитектуры высокопроизводительных графических систем

Для таких современных приложений как виртуальная реальность, научная визуализация, синтез фотореалистичных изображений потребуется графическая производительность, превосходящая возможности сегодняшних машин, В этой статье будут рассмотрены новые требования и обсуждены различные возможные решения с точки зрения архитектуры высокопроизводительных графических систем. Начнем с анализа существующих растровых графических систем и покажем, что ни одна из этих архитектур не позволяет линейно масштабировать производительность. Затем обсудим композитные, линейно наращиваемые архитектуры, которые аппаратным образом реализуют алгоритм ЕХАСТА-буфер. Будет проведено также сравнение трех различных подходов к обеспечению аппаратной поддержки визуализации объемов с точки зрения их реализации в рабочей станции. Вторая часть статьи посвящена более производительным решениям, которые стали доступны благодаря памяти со встроенной логикой, объединяющей логику и арифметику на микросхемах динамической памяти высокой плотности. Результатом этой многообещающей разработки является растровая графическая система на одной микросхеме, являющейся компонентом композитных архитектур, обладающих возможностью наращивания производительности до "бесконечности".

Введение

В машинной графике огромная вычислительная сложность алгоритмов и потенциально бесконечная сложность изображаемых моделей требуют специализированной аппаратной поддержки. Большая вычислительная стоимость синтеза фотореалистичных изображений проистекает из сложных геометрических преобразований, использования сложных моделей освещения, отображения текстуры и окружающей среды, а также методов устранения искажений, возникающих из-за дискретной природы устройств вывода изображений (устранение лестничного эффекта). Описание реалистичной сцены (такой как жилая комната) легко может занимать 1 миллион геометрических примитивов (например, треугольников). Для анимации в реальном времени необходимо, как минимум, 10 кадров в секунду, что еще больше увеличивает вычислительные затраты. Приведем пример: для анимации с частотой 10 Гц сцены, содержащей 200 тыс. треугольников по 100 пикселов каждый, с текстурой на каждом объекте потребуется производительность приблизительно от 500 MFLOPS до 1 GFLOPS. Если устранение ступенчатости обеспечивается повышением дискретизации в 16 раз, то необходимое для растеризации быстродействие увеличивается до 16 GFLOPS.

В научной визуализации причинами больших вычислительных затрат являются огромный размер визуализируемых моделей и алгоритмическая сложность выделения значимой информации из возможно многомерных данных (например, векторных полей). Типичная операция отслеживания луча (ray-casting) для скалярного поля включает в себя восстановление значения функции (например, с помощью три-линейной интерполяции), вычисление градиента и его модуля, выделение характеристик среды (например, функции прозрачности), раскраски и композиции для каждой точки луча. Для этого требуются исключительно большие объемы, высокая пропускная способность памяти, и огромное быстродействие.

Очевидно, что современные рабочие станции не могут удовлетворить всем этим требованиям. Сети станций или даже отдельные суперкомпьютеры также оказываются неспособны работать с необходимой производительностью. Поэтому существует ряд готовых специализированных аппаратных акселераторов различных поставщиков или разрабатываемых в исследовательских организациях. Как для графики, ориентированной на работу с поверхностями, так и с объемами, для простоты аппаратной реализации может быть использована конвейерная природа алгоритмов: данные из базы трансформируются шаг за шагом в пиксельную информацию, которая изображается и после этого отбрасывается.

Проблемы возникают всякий раз, когда запросы достигают предела производительности одного графического конвейера, в большинстве случаев из-за ограниченной пропускной способности памяти. Тогда для получения желаемого ускорения необходимо поставить параллельно несколько конвейеров и подобрать подходящий метод распределения данных. В идеальном случае производительность системы растет линейно с числом параллельных конвейеров. Однако на практике графики производительности асимптотически приближаются к некоторой величине, а увеличение производительности вообще основывается на определенных предположениях, которые могут и не выполняться для всех приложений.

В следующих разделах будут рассмотрены несколько аппаратных архитектур для графики, ориентированной на работу с поверхностями. Мы проанализируем их ограничения производительности и покажем, как они могут быть преодолены. Далее будут рассмотрены параллельные архитектуры для объемной графики. Из-за отсутствия коммерческих систем для объемной графики мы обсудим три академические разработки, раскроем их слабые места и предложим возможные решения. В заключении будут показаны примеры приложений только что появившейся технологии, имеющей потенциал для обеспечения скачка производительности графических систем, а именно: память со встроенной логикой.

Архитектуры графических подсистем, ориентированных на поверхности

Этапы, входящие в визуализацию поверхностей, могут быть выполнены простым конвейером. На рис. 1 представлена каноническая графическая система. В качестве примера мы также приводим вычислительные затраты, необходимые для визуализации 2 млн. треугольников в секунду. На первом этапе, помеченном символом "С", примитивы (обычно это треугольники) подвергаются геометрическим преобразованиям. Дополнительно для вершин вычисляются параметры раскраски. В устройстве, помеченном как "R", примитивы растеризуются в пакеты пиксельных данных, называемых фрагментами.

Удаление невидимых поверхностей (УНП) обычно выполняется с помощью алгоритма Z-буфера. Видимые пикселы записываются в буфер кадра (БК), из которого с частотой регенерации обновляется экран.

Логическая последовательность вычислений в конвейере подсказывает первый метод распараллеливания задачи визуализации в аппаратном конвейере. Такое разбиение задачи на стадии можно найти почти во всех выпускаемых сегодня графических системах.

Как ясно следует из приведенных на рис. 1 чисел, данный метод распараллеливания недостаточен. На рис. 2 показано, как можно распараллелить каноническую систему с помощью повторения всех компонентов. К несчастью, размноженные "столбцы" не могут работать независимо друг от друга. В некоторой точке должен происходить обмен данными между столбцами. Два возможных соединения показаны на рисунке. Соединение А используется для маршрутизации примитивов в соответствующие растеризаторы. Другим возможным способом является маршрутизация фрагментов после растеризации в соответствующие устройства.

Для каждого из вариантов будет представлен пример коммерческой реализации. Маршрутизация прими тивов между геометрическим устройством и растеризаторами используется в системе Reality Engine фирмы Silicon Graphics, а система Freedom фирмы Evans and Sutherland является примером маршрутизации фрагментов.

Маршрутизация объектов: система Reality Engine

Reality Engine фирмы Silicon Graphics [1] на сегодняшний день является одной из наиболее мощных графических систем. Геометрические Машины (6-12 устройств) выполняют геометрические преобразования и вычисление освещенности, передавая данные растеризаторам, называемым Генераторами Фрагментов. В качестве маршрутизирующей сети выступает Шина Треугольников (ШТ). Каждый Генератор Фрагментов имеет 16 подчиненных Процессоров Изображения, выполняющих УНП и наложение текстуры. Буфер кадра разделен на маленькие части, каждая из которых управляется Процессором Изображений (максимальное их число - 320). Большие аппаратные затраты данной архитектуры соответствуют ее высокой производительности Reality Engine.

Если необходимо увеличить производительность еще больше, то теоретически число Геометрических Машин и Растеризаторов может быть увеличено. Однако маршрутизация примитивов по ШТ может быть охарактеризована как потенциально узкое место такой архитектуры. С помощью грубой силы высокая пропускная способность шины может быть, конечно, увеличена еще больше. Однако каждый растеризатор должен принимать и обрабатывать каждый примитив. Распараллеливание в этом месте при данном подходе невозможно, что и устанавливает фундаментальное ограничение масштабируемости систем, использующих маршрутизацию примитивов.

Маршрутизации Фрагментов Freedom Graphics

На рис. 4 представлена концептуальная схема графической системы Freedom фирмы Evans & Sutherland [2]. Здесь вместе объединены геометрические преобразования примитива и его растеризация. Несколько модулей работают над несколькими примитивами параллельно. Получившиеся фрагменты маршрутизируются в модули буфера кадра посредством так называемого соединителя буферов, реализованного в виде коммутатора.

Если необходимо увеличить производительность с помощью дальнейшего распараллеливания, то очевидными узкими местами станут параллельный доступ к модулям буфера кадра и маршрутизация. Часто будет происходить так, что два или больше растеризатора захотят послать данные в один и тот же модуль буфера кадра. Чтобы избежать замедления системы в подобных случаях, коммутирующая сеть должна обеспечивать некоторые средства буферизации данных. Затраты, необходимые для такой коммутирующей сети, растут более чем линейно, что и устанавливает практические ограничения на масштабируемость таких систем.

EXACT

Альтернативная стратегия распараллеливания показана на рис. 5 и может рассматриваться как комбинация независимых графических систем ("столбцы" на рисунке). Выходные данные этих независимых систем, каждая из которых визуализирует часть сцены, объединяются в смешивающем конвейере или дереве, где видимость пикселов определяется с частотой их поступления. Преимуществом такой архитектуры является то, что расширение системы возможно без возникновения "узкого места". По сути, мы имеем здесь идеальный случай, когда производительность увеличивается линейно с числом используемых столбцов.

На рис. 6 представлена архитектура системы ЕХАСТ. Традиционные или специальные накрывающие субпиксельные маски дополняются так называемыми масками приоритета для точного удаления невидимых поверхностей на субпиксельном уровне. Отличие от простой композиционной архитектуры состоит в том, что вклад в цвет пиксела дает не один объект. Для каждого пиксела список всех фрагментов обрабатывается и сортируется в конвейере обработки списков, отсюда и произошло название ЕХАСТ. Таким способом может быть реализована на аппаратном уровне усовершенствованная версия алгоритма А-буфера [3], что представляет собой новое поколение высокопроизводительных графических систем.

Архитектуры для объемной графики

Для объемной графики реальные 3D объекты оцифровываются (например, медицинские изображения), а сгенерированные компьютером объекты преобразуются в воксельное представление. Визуализация обычно состоит из двух операций: сегментации или классификации представляющих интерес структур (иногда выполняемой в виде шага предобработки), и их информативном изображении на экране [4]. Большинство предназначенных для этого аппаратных архитектур, в качестве базового алгоритма используют метод испускания или трассировки лучей. Различие можно найти в поддерживаемой функциональности (только вывод или его объединение вместе с интерактивной классификацией), в степени параллелизма и в пределах их масштабируемости. В данном контексте важным аспектом масштабируемости является то, насколько сильно можно уменьшить системы, так как большинство акселераторов являются большими мощными машинами, неподходящими для настольных приложений.

Cube-3

Система Cube-3 была разработана для изображения в реальном времени очень больших моделей данных (5123) и демонстрирует наибольшую степень параллелизма среди аналогичных архитектур [5]. Ее подсистема памяти разбита на 512 параллельных модулей, предоставляющих одновременный доступ ко всем вокселам, лежащим на прямой, параллельной одной из главных осей. Все лучи взгляда, принадлежащие конкретной строке сканирования, образуют плоскость в объемной модели данных. Эта плоскость считывается последовательным чтением 512 прямых. Реконструкция, оценка градиента, классификация, раскраска и объединение применяются одновременно затем ко всем точкам на луче. Соответственно все ступени конвейера имеют 512 идентичных устройств.

Алгоритмические и реализационные проблемы возникают на стадии преобразования отрезков, расположенных на прямых в отрезки на лучах. Для перспективных проекций это преобразование не является взаимно однозначным, отрезки могут дублироваться и распределяться для каждого луча по-своему. Это распределение осуществляется с помощью быстрой шины, передающей отрезки на прямых из памяти вокселов в систему промежуточного хранения, из которой они доступны в виде лучей. Для работы в реальном времени эта шина должна работать на скорости, недоступной пока современной технологии.

Другой характеристикой Cube-3 является то, что это очень большая и дорогая система, уже увеличенная до максимально возможной степени, но которая не может быть уменьшена. А это препятствует ее использованию основной массой потенциальных потребителей.

VIRIM

В этой системе геометрические вычисления фиксированы и выполняются специализированными аппаратными устройствами, а сегментация и раскраска выполняются набором программируемых DSP (цифровых сигнальных процессоров) [6]. Геометрические устройства реконструируют из модели данных слои, соответствующие строкам сканирования экрана. Слой состоит из квадратной решетки отрезков, три-линейно интерполированных по 8 соседям исходной пространственной решетки. Также для каждого отсчета в слое вычисляется 2D градиент.

Слои посылаются набору DSP и распределяются таким образом, что любой DSP отвечает за визуализацию одной или более полных строк сканирования. Раскраска, классификация и композиция выполняются локально, с использованием данных только из одного слоя. Результат посылается головному компьютеру для вывода.

Преимущество такой конфигурации состоит в максимальной гибкости выбора алгоритмов визуализации, но в то же время это и самый большой недостаток данного подхода: для обеспечения максимальной скорости одного геометрического устройства (уже занимающего две большие платы) необходимо 16 DSP. Таким образом, минимальная конфигурация состоит из четырех больших плат, соединенных специальной панелью. Поскольку память вокселов геометрического устройства полностью дублируется в каждом устройстве, то параллельно может работать потенциально неограниченное количество устройств. Четыре устройства заполняют одну стойку и позволяют выводить с частотой 10 Гц модели размером 2562х128.

VOGUE

Система VOGUE представляет из себя компактное и расширяемое устройство, базирующееся на алгоритме трассировки луча и обеспечивающее интерактивную скорость закраски при невысокой аппаратной стоимости. Производительности реального времени можно достичь при параллельной работе нескольких устройств. Базовое устройство состоит из памяти и только четырех СБИС. Тем не менее оно обеспечивает произвольное перспективное проецирование (например, для имитации прогулки по модели), закраску по Фонгу, перемещаемый точечный источник света, отсечение по глубине и интерактивную, небинарную классификацию с использованием функций передачи прозрачности и цвета.

Вся обработка выполняется над исходными вокселами. Для каждой точки на луче считывается определенный набор соседних вокселов на лету, используемых для вычисления значения функции, локального градиента и его модуля. Затем значение функции и модуль градиента используются в качестве указателей в нескольких таблицах, содержащих функцию классификации (непрозрачность, коэффициент а), цветовые координаты (RGB) и характеристики материала (такие как коэффициент зеркального отражения k) для закраски. Каждая точка закрашивается по Фонгу, а интенсивности всех точек вдоль луча объединяются в порядке "спереди-назад" в соответствии с их непрозрачностью.

Как показано на рис. 7, шаги этого алгоритма довольно просто отображаются на конвейерную архитектуру. После получения из головного компьютера всех параметров луча, генератор адресов ASQ (одна СБИС) последовательно вычисляет все точки луча. Память объемной модели VnluMem емкостью 256 Мбайт для 5123 16-битных вокселов состоит из восьми независимых банков памяти и выдает одновременно восемь вокселов. Реконструктор и выделитель REX (одна СБИС) выполняет для каждой точки луча три-линейную реконструкцию, вычисление градиента и его модуля. Затем значение функции и модуль градиента индексируют несколько таблиц для получения цвета (RGB) и свойств материала (непрозрачность alpha, к/s). Каскадированное устройство закраски COLOSSUS реализует полную модель освещенности Фонга (непараллельный свет, перспективная проекция) для одноточечного источника света и выполняет отсечение по глубине. Компонующее устройство СОМЕТ окончательно суммирует интенсивности всех точек на луче и передает цвет пиксела в буфер кадра. Одно устройство VOGUE позволяет достичь кадровой скорости 2.5 Гц для моделей 2563 и занимает место не более чем лист бумаги формата "письмо".

Параллельная работа нескольких устройств

Исходный набор данных делится на подобъемы, распределяемые по различным устройствам. Каждое устройство обрабатывает луч до тех пор, пока он находится внутри его собственного объема. На выходе из объема параметры, определяющие луч в этой точке посылаются соседнему устройству. В идеале число одновременно обрабатываемых лучей равно числу устройств. Была разработана специальная схема распределения данных, устраняющая зазоры между подобъемами за счет дублирования определенного набора граничных вокселов. Для объединения до восьми плат можно использовать многопроцессорную шину (шина с несколькими ведущими), с требуемой для 8-кратного ускорения пропускной способностью 640 Мбайт/с. Для большего числа плат мы предлагаем закольцованную кубическую сеть, как это показано на рис. 8 для устройств 4х4х4. Моделирование показывает, что для каждого канала необходима скорость всего лишь 27 Мбайт/с. Таким образом, данная система расширяема от ориентированных на ПК акселераторов до мощных серверов визуализации. Анализ производительности представлен в Таблице 1.

Таблица 1.
Производительность системы VOGUE.

Число устройств	Размер модели	Кадровая скорость
1	256³	2.5 Гц
8	256³	20 Гц
8	512³	2.5 Гц
64	512³	20 Гц

Архитектура, основанная на Памяти со Встроенной Логикой

Как указывалось ранее, производительность одного графического конвейера в большинстве случаев ограничена доступной пропускной способностью памяти. Для графических систем, ориентированных на поверхности, мы можем указать три места, где возникает "узкое место" обращения к памяти:

- Z-буфер, который должен выполнить операцию чтение-сравнение-запись для каждого пиксела, видимого в данный момент времени,

- подсистема отображения текстуры, которая должна обеспечить по крайней мере мипмаппинг (техника отображения текстуры, учитывающая перспективные искажения объекта), где для каждого пиксела необходимо 8 текселов,

- буфер кадра, который должен быть в состоянии получать пикселы на очень высокой частоте.

Для анимации в реальном времени сцены средней сложности легко может потребоваться скорость генерации пикселов 100 млн. пикселов/с. Таким образом, пиксел генерируется и посылается в Z-буфер каждые 10 нс. За такой короткий промежуток времени Z-буфер должен выполнить операции чтения, сравнения и, в некоторых случаях, записи. Если для сглаживания ступенчатости используется увеличение разрешения, то скорость генерации пикселов соответственно умножается, например, 16-краткая выборка дает впечатляющую скорость 1.6 Гпиксел/с.

Большие требования к пропускной способности памяти для отображения текстуры связаны с желанием получить изображение приемлемого качества, при котором необходимо выполнить операцию фильтрации на множестве текселов, попавших в проекцию пиксела на текстуру. Для уменьшения вычислительных затрат был предложен ряд методов, наиболее подходящим кандидатом из которых является мипмаппинг. Тем не менее этот метод все еще требует доступа к восьми элементам текстуры на каждый пиксел. В предположении 50-процентного попадания в Z-буфер и использования RGB-текстур, память для хранения текстур должна обеспечить скорость передачи 1.2 Гбайт/с, в случае если на каждый объект надо наложить текстуру.

Поток пикселов в конце концов достигает буфера кадра, где он должен быть временно сохранен, а после завершения сцены - считан для вывода изображения. В случае увеличения разрешения как входная, так и выходная скорости умножаются на число субпикселов, снова давая пропускную способность свыше 1 Гпиксел/с.

Очевидно, что не существует коммерчески доступного устройства памяти, удовлетворяющего подобным запросам. Использование чередования большого количества банков памяти приведет к созданию больших и дорогих машин, неприемлемых для рынка.

В качестве решения мы предлагаем интегрировать арифметические и логические устройства непосредственно с микросхемой памяти и использовать таким образом огромную внутреннюю пропускную способность, на несколько порядков превышающую внешнюю, а также новые чипы памяти, емкость которых постоянно увеличивается (уже представлены образцы микросхем 1Гбит).

В следующем разделе мы представим нашу новую концепцию GRAMMY (graphics memory - графическая память) [6), включающую три высокопроизводительных устройства памяти со встроенной логикой.

GRAMMY

Система GRAMMY схематично представлена на рис. 9. Хост-система взаимодействует с растеризатором на уровне вершин. Сначала растеризатор генерирует х-, у-координаты пикселов, а также их Z-значения. Далее для каждого пиксела вычисляется маска наложения (субпиксельная маска).

ZRAM (память Z-буфера)

Вместо чтения текущего значения из Z-буфера для каждого субпиксела и вероятной записи нового значения, растеризатор передает в микросхему ZBAM для каждого треугольника - значения Z/x и Z/y, а для каждого пиксела - центральное Z-значение и субпиксельную маску. ZBAM сама интерполирует Е-значения для всех субпикселов, выполняет параллельно все операции сравнения и возвращает растеризатору модифицированную субпиксельную маску. Таким образом, с внешней точки зрения операция Z-буфера "чтение-сравнение-запись" превращается в операцию записи, частота передачи уменьшается с субпиксельного до пиксельного уровня, а все критические к пропускной способности операции выполняются локально в микросхеме.

TEXRAM (память текстуры)

Наложение текстуры выполняется на пиксельном уровне с помощью три-линейной интерполяции мипмаппированной текстуры. В систему текстурирования передаются только те пикселы, которые видны в данный момент времени, сокращая вследствие этого вычислительные затраты на перспективную коррекцию координат текстуры. Вместо генерации восьми адресов памяти требуемых текселов и выполнения восьми операций чтения из памяти текстуры, растеризатор передает координаты текстур u, v и уровень мипмаппирования в TEXRAM. Это специализированное устройство разделено на восемь независимых блоков памяти и допускает одновременный доступ к любым восьми текселам, необходимым для три-линейной интерполяции. Генерация адресов и интерполяция выполняются микросхемой. Вместо восьми текселов.возвращается результирующий цвет пиксела, что в восемь раз сокращает необходимую пропускную способность. Микросхема может работать в четырех различных режимах:

- отображение освещенности: в системе присутствует единственная микросхема TEXRAM, текстура содержит только градации серого.

- индексное отображение: текселы рассматриваются как индексы в палитре цветов и цвет пиксела получают последующим интерполированием.

- цветные текстуры: ячейке 2х2 текселов соответствует четверка RGB.

- одноцветные отображения: текстура трактуется как один из цветовых компонентов, что заставляет иметь в системе три (RGB) или четыре (RGB) устройства.

Этот режим является самым мощным, так как обеспечивает максимальный размер текстуры без уменьшения скорости.

Для хранения мипмаппированной текстуры 1k х 1k микросхема должна иметь емкость около 12 Мбит. Конфигурация из трех микросхем обеспечивает реалистичную цветовую текстуру и достигает производительности 50 млн. пикселов текстуры в сек. Также имеется специальный режим, позволяющий генерировать мипмаппированные текстуры для непрерывно поступающего потока пикселов. Таким образом, в качестве источника текстуры может выступать видеосигнал в реальном времени.

CRAM (память цвета пикселов)

Цветовые компоненты центра пиксела вместе с субпиксельной маской поступают в порт записи цветового RAM (ColorRAM). Как подразумевается в названии, порт записи оптимизирован для обращений записи посредством сведения к нулю времени предустановки сигнала RAS обычных микросхем DRAM, что позволяет получить скорость произвольного доступа более 100 млн. пикселов/с. Аналогично ZRAM, в CRAM для каждого треугольника поступают приращения цветов в х - и у-направлениях. Цветовые значения в центрах субпикселов вычисляются самой микросхемой и записываются в память в соответствии с субпиксельной маской. И снова частота сокращается от субпиксельного до пиксельного уровня.

При выводе изображения на экран цвета субпикселов должны быть смешаны для получения окончательного цвета. Эта операция снова выполняется быстрыми сумматорами, расположенными на микросхеме. Затем цвет пиксела выводится на дисплей.

При размере экрана 1 млн. пикселов, 8-кратном увеличении разрешения для сглаживания ступенчатости и 8 бит на цветовую компоненту, получаем емкость устройства CRAM в 128 Мбит (включая двойную буферизацию). Для реалистичной цветовой системы необходимы три таких микросхемы.

Заключение

Мы обсудили настоящие и будущие аппаратные архитектуры для графики и визуализации, а также сформулировали набор требований, которых должна придерживаться любая компьютерная графическая система. Для различных графических аппаратных систем мы рассмотрели, как они удовлетворяют изложенным требованиям и в чем их недостатки. Для ряда фундаментальных задач машинной графики, таких как сглаживание ступенчатости в реальном времени, отображение текстуры и визуализация объемов мы предложили решения, основанные на оптимизации алгоритмов,нововведениях в архитектуре,.а также на технологических улучшениях. В частности, мы описали оптимизированные стратегии распараллеливания и представили ряд новых высокоскоростных устройств памяти со встроенной логикой. Дорога в будущее будет открыта расширяющимися возможностями технологии, которые позволят в ближайшем будущем интегрировать на одной микросхеме полную графическую подсистему, позволяющую строить изображения, аналогичные представленным на рис. 9.

Литература

[1] K.Akeley, "RealityEngine Graphics", SIGGRAPH'93 Conference Proceedings, Computer Graphics, Vol. 27, August 1993, рр. 109-116

[2] Evans & Sutherland, Technical Report 517902-904 АА, EckS Computer Согр. USA, September 1992

[3] L.Carpetner, "The А-buffer, an Antialiased Hidden Surface Method", Computer Graphics, Vol. 18, No. 3, July 1984, рр. 103-108.

[4] R.A.Drebin, L.Carpetner, Р.Hanrahan, "Volume Rendering", SIGGRAPH'88 Conference Proceedings, Computer Graphics, Vol. 22, No. 4, August 1988, рр. 65-74.

[5] H.Pifter, A.Kaufman, T.Chiueh, "Cube-3 А Real-Time Architecture for High-Resolution Volume Visualization", Proceedings of the АСМ/IEEE'94 Symposium on Volume Visualization, Washington, DC, October 17-18, 1994, рр.75-83.

[6] T.Gunther, etc. "VIRlM. А massively Parallel Processor for Real-Time Volume Visnalization in Medicine", Proceedings of the 9th Kurographics hardware tuorkshop, Oslo, Sep. 12-13 1994, рр 103-108.

[7] G.Knittel, A.Schilling, W.Straber, "Architectures for High Performance Graphics", Proceedings of the International Workshop on НРС for Computer Graphics and Visualization, Swansen, July 3-4, 1995.

Приносим свои извинения за отсутствие рисунков.