Рассматриваются три типичных метода хищения данных: добронамеренные сотрудники, нацеленные атаки извне и мстительные сотрудники. Наряду с обзором способов противодействия даны конкретные советы по предотвращению взлома.
Открытые системы :: Современные архитектуры
Многоядерные процессоры AMD
Переход к многоядерным процессорам становится основным направлением повышения производительности.
Михаил Кузьминский
Если масштабирование при переходе от одного к двум ядрам оказалось различным для разных компиляторов, то при переходе к четырем ядрам все три компилятора «сошлись во мнении»: пропускная способность на четырех нитях оказалась меньше, чем на двух.
Результаты измерений на тестах STREAM практически подтверждают наличие проблемы пропускной способности оперативной памяти в многоядерных процессоров Opteron и позволяют объяснить плохое масштабирование с числом ядер некоторых приложений. Далее мы рассмотрим, насколько этот недостаток может сказаться на других задачах вычислительного характера.
Результаты тестов Linpack
Напомним, что тесты Linpack состоят в решении системы линейных уравнений размерности n x n методом Гаусса [3]. Остановимся сначала на результатах тестов Linpack для n=100, которые, среди прочего, позволяют сопоставить качество оптимизации компиляторов на типичных несложных циклах типа DAXPY (матрицу умножить на вектор плюс вектор).
Оказалось, что компилятор pathf90, который считается лучшим, сгенерировал коды, которые существенно уступают ifort даже без максимального уровня оптимизации -xP, требующего коррекции выполняемого кода для обеспечения работоспособности на Opteron (см. табл. 4). Компилятор pgf77 также дает более высокий результат, чем pathf90.
Таблица 4. Производительность на тестах Linpack (n=100), MFLOPS
Таким образом, на Linpack (n=100) лучшие показатели обеспечивает Фортран-компилятор от Intel, а pathf90 проигрывает конкурентам. Кроме того, из табл. 4 видно, что увеличение частоты Opteron на 37,5% (от Opteron 242 к Opteron 275) сопровождается почти линейным ростом производительности.
Из табл. 5 видно, что наилучших результатов как по абсолютной производительности, так и по масштабируемости с числом процессоров позволяет добиться библиотека acml от AMD. Kazushiga Goto на одном процессоре чуть хуже; Atlas уступает им обоим, обгоняя лишь MKL. Однако с ростом числа процессоров/ядер масштабирование MKL лучше, чем у Atlas.
Достигаемое масштабирование производительности для MKL и acml на двух процессорах Opteron 242 близко к 1,9. Однако при использовании Opteron 275 на двух ядрах ускорение меньше — всего в 1,3 раза; при переходе от двух к четырем ядрам производительность возрастает всего лишь на 20% для Atlas и на треть — для MKL. Можно предположить, что это обусловлено проблемой пропускной способности памяти, поскольку на одноядерных микропроцессорах переход от двух к четырем процессорам способен давать ускорение в 1,8-1,9 раза.
Интересно сопоставить полученные результаты с данными для процессоров Pentium 4/Xeon, поскольку на тестах Linpack процессоры Intel показывают более высокие результаты.
Для новых 64-разрядных процессоров Xeon Nocona/3,2 ГГц с использованием ifort была зафиксирована производительность 1584 MFLOPS. Это наивысший результат в таблице, даже выше, чем у процессоров векторных суперкомпьютеров.
Однако Opteron 275 медленнее всего на 14%, в то время как пиковая производительность Nocona, как и тактовая частота, в полтора раза выше. Таким образом, на Opteron достигается существенно более высокий процент от пиковой производительности.
Тесты задач вычислительной химии
В табл. 6 приведены результаты для Opteron 275, полученные для комплекса программ Gaussian, а в табл.7 — для Gamess-US. В качестве «базовой» использовалась молекула тринитротриаминобензола из стандартного теста test178 к Gaussian-03 (размерность базиса равна 300), за исключением стандартного test397 (808 базисных функций).
Таблица 7. Тесты Opteron 275 c Gamess-US
Самый простой метод RHF (test178) практически не ускоряется при переходе к двум ядрам Opteron 275 даже в наиболее эффективном в данном случае распараллеливании в модели общего поля памяти (OpenMP). Это вызвано малым средним временем расчетов между взаимодействиями нитей, для увеличения которого во всех тестах, кроме test397, был отключен учет симметрии. В этом случае test178 распараллеливается удовлетворительно.
Однако при работе с Linda, где обмены данными между параллельными процессами больше, уже на двух ядрах наблюдается не ускорение, а замедление расчета. Очевидно, при этом возникла проблема пропускной способности памяти. На четырех ядрах была использована гибридная схема распараллеливания — две нити в OpenMP при двух Linda-процессах.
Идеальным должен был бы стать вариант, когда два Linda-процесса считаются на разных процессорах и каждый Linda-процесс, в свою очередь, распараллелен в OpenMP (две нити, по одной на каждое ядро процессора). Тогда проблема пропускной способности при обменах между ядрами одного процессора устраняется за счет использования общей памяти, а обмены данными между Linda-процессами относились бы к передачам между разными процессорными микросхемами, имеющими собственные каналы в памяти.
При работе Linda-процессов на парах ядер каждой процессорной микросхемы в тестах наблюдалось замедление относительно одного процессора — более сильное, чем при Linda-распараллеливании на два ядра.
Когда времена расчета более чем на порядок выше, чем в test178 (другие методы из табл. 6), частота обменов данными в Linda, очевидно, уменьшается, и ускорение становится приемлемым. Однако результаты в модели OpenMP по понятным соображениям оказываются обычно более хорошими, чем в Linda.
Можно сказать, что ускорение, достигаемое при распараллеливании задач квантовой химии в модели общего поля памяти на двухъядерных процессорах Opteron, выглядит вполне удовлетворительным, хотя оно зависит и от размера молекулы/базиса, и от метода расчета (так, ускорение для MP2 получилось несколько ниже, чем в Linda).
При использовании Linda на двух ядрах ускорение может быть удовлетворительным, но на четырех ядрах оно оказалось близко к 3. Данные test397 ясно указывают при этом на проблему пропускной способности памяти: в кластерах удвоение числа процессоров обычно приводит к ускорению в 1,8-1,9 раза, а на четырех ядрах Opteron 275 ускорение значительно хуже.
Остановимся на сравнении с двухузловым кластером на Giagbit Ethernet на базе двухпроцессорных узлов с Opteron 242. На одном ядре Opteron 275 задача считается на 30% быстрее, чем на Opteron 242. На двух процессорах Opteron 242 в узле ускорение равно 1,89, на четырех процессорах кластера — 3,53, что существенно выше, чем в Opteron 275 при работе с Linda (табл. 6).
Первые данные по оценкам эффективности Opteron 275 на Gaussian-03 были получены в Стэнфордском университете (www.sg-chem.net/cluster). Однако они ограничены только test397 и только распараллеливанием в OpenMP, в котором проблемы пропускной способности могут не проявляться. Нами же были рассмотрены все режимы распараллеливания Gaussian на более широком классе методов квантовой химии.
В наших тестах для Gamess-US (табл. 7) использовались те же молекулы, базисы и методы расчета (включая прямые расчеты с пересчетом интегралов), что и в Gaussian-03. Однако из-за различных критериев сходимости и других параметров прямое сопоставление времен расчетов по различным программам является некорректным, и можно пробовать сопоставлять лишь ускорение. Можно сказать, что применение DDI (с настройкой на работу через сокеты) в Gamess-US для RHF и MP2 дает вполне удовлетворительные результаты, близкие к полученным в OpenMP для Gaussian.
При этом необходимо учитывать возможную по?правку на резкое отличие времен выполнения по Gaussian и Gamess-US, что приводит, вероятно, к разной доле времени обмена данными в общем времени выполнения. Для метода MP2 время расчета в Gamess-US оказалось ниже, а ускорение — выше, чем в Gaussian, поэтому можно говорить о лучшей масштабируемости Gamess-US в этом методе.
Метод CIS (test178cis) в Gamess не поддерживается. Что касается test397, то время расчета по Gamess оказалось неприемлемо большим (задача была снята более чем через сутки после начала выполнения).
Для исследования возможностей распараллеливания задач квантовой химии, в которых ограничивающим фактором является пропускная способность межсоединения, в модели обмена сообщениями MPI, «не знающей» о наличии общего поля оперативной памяти, в ЦКОХИ был проведен тестовый расчет молекулы с размерностью базиса, равной 6500 (2600 атомов). Применялась разрабатываемая [6] полуэмпирическая программа прямого построения матрицы плотности путем ее «очистки». При использовании Opteron 275 на 3 ядрах было получено достаточно неплохое ускорение — 2,75.
В то же время, как уже отмечалось, при использовании двухпроцессорных узлов в кластере на базе Xeon проявили себя проблемы с пропускной способностью памяти. Вероятно, хорошее ускорение в данном случае определяется соотношением производительности процессора (в задаче лимитируют вызовы dgemm, производительность на которых близка к пиковой), пропускной способностью оперативной памяти и размерностью задачи. Пиковая производительность Opteron ниже, чем Xeon, поэтому обмены данными между MPI-процессами реже, а ускорение выше.
Выводы
Анализ микроархитектуры двухъядерных процессоров AMD Opteron/Athlon64 показывает их преимущества в организации иерархии памяти по сравнению с двухъядерными х86-процессорами Intel.
Проведенные измерения производительности на тестах STREAM экспериментально подтверждают наличие проблемы разделения пропускной способности оперативной памяти в двухъядерных процессорах Opteron 275. Однако это характерно для всех современных двухъядерных микропроцессоров, а достигаемая пропускная способность может улучшиться при переходе от использованного ядра Linux 2.4 к 2.6.
Впервые получены оценки производительности на тестах Linpack (n=100, 1000) для ряда процессоров (в том числе для двухъядерных процессоров Opteron), которые войдут в очередную версию официальной таблицы тестов. Получен, в частности, наивысший среди всех процессоров (в текущей версии таблицы) результат при n=100 для процессоров Xeon Nocona/3,2 ГГц.
Измерения ускорения, достигаемого при распараллеливании приложений вычислительной химии на двухпроцессорном сервере с двухъядерными процессорами Opteron 275, и проведенный анализ литературных данных показывают, что применение таких процессоров на многих задачах оказывается эффективным.
Процессы управления ИТ-сервисами в пивоваренной компании «Балтика» специалисты «Паладин Инвент» реализовали на базе программного обеспечения HP Service Desk.
Комментарии:
Для того, чтобы оставить комментарий авторизуйтесь или зарегистрируйтесь.