Маркетинг

Больше данных – меньше проблем!


Новые системы хранения данных для компаний малого и среднего бизнеса. Узнайте подробности и задайте вопросы на on-line-семинаре IBM




White Papers

45% руководителей компаний считают информацию ключевым стратегическим ресурсом, но лишь 7% уверены, что смогут успешно использовать ее для роста.

Рассматриваются три типичных метода хищения данных: добронамеренные сотрудники, нацеленные атаки извне и мстительные сотрудники. Наряду с обзором способов противодействия даны конкретные советы по предотвращению взлома.

Открытые системы :: Современные архитектуры

Многоядерные процессоры AMD

в buzz в мой мир в twitter версия для печатисохранить в pdf

Переход к многоядерным процессорам становится основным направлением повышения производительности.

Михаил Кузьминский

Если масштабирование при переходе от одного к двум ядрам оказалось различным для разных компиляторов, то при переходе к четырем ядрам все три компилятора «сошлись во мнении»: пропускная способность на четырех нитях оказалась меньше, чем на двух.

Результаты измерений на тестах STREAM практически подтверждают наличие проблемы пропускной способности оперативной памяти в многоядерных процессоров Opteron и позволяют объяснить плохое масштабирование с числом ядер некоторых приложений. Далее мы рассмотрим, насколько этот недостаток может сказаться на других задачах вычислительного характера.

Результаты тестов Linpack

Напомним, что тесты Linpack состоят в решении системы линейных уравнений размерности n x n методом Гаусса [3]. Остановимся сначала на результатах тестов Linpack для n=100, которые, среди прочего, позволяют сопоставить качество оптимизации компиляторов на типичных несложных циклах типа DAXPY (матрицу умножить на вектор плюс вектор).

Оказалось, что компилятор pathf90, который считается лучшим, сгенерировал коды, которые существенно уступают ifort даже без максимального уровня оптимизации -xP, требующего коррекции выполняемого кода для обеспечения работоспособности на Opteron (см. табл. 4). Компилятор pgf77 также дает более высокий результат, чем pathf90.

Таблица 4. Производительность на тестах Linpack (n=100), MFLOPS

Таким образом, на Linpack (n=100) лучшие показатели обеспечивает Фортран-компилятор от Intel, а pathf90 проигрывает конкурентам. Кроме того, из табл. 4 видно, что увеличение частоты Opteron на 37,5% (от Opteron 242 к Opteron 275) сопровождается почти линейным ростом производительности.

Из табл. 5 видно, что наилучших результатов как по абсолютной производительности, так и по масштабируемости с числом процессоров позволяет добиться библиотека acml от AMD. Kazushiga Goto на одном процессоре чуть хуже; Atlas уступает им обоим, обгоняя лишь MKL. Однако с ростом числа процессоров/ядер масштабирование MKL лучше, чем у Atlas.

Достигаемое масштабирование производительности для MKL и acml на двух процессорах Opteron 242 близко к 1,9. Однако при использовании Opteron 275 на двух ядрах ускорение меньше — всего в 1,3 раза; при переходе от двух к четырем ядрам производительность возрастает всего лишь на 20% для Atlas и на треть — для MKL. Можно предположить, что это обусловлено проблемой пропускной способности памяти, поскольку на одноядерных микропроцессорах переход от двух к четырем процессорам способен давать ускорение в 1,8-1,9 раза.

Интересно сопоставить полученные результаты с данными для процессоров Pentium 4/Xeon, поскольку на тестах Linpack процессоры Intel показывают более высокие результаты.

Для новых 64-разрядных процессоров Xeon Nocona/3,2 ГГц с использованием ifort была зафиксирована производительность 1584 MFLOPS. Это наивысший результат в таблице, даже выше, чем у процессоров векторных суперкомпьютеров.

Однако Opteron 275 медленнее всего на 14%, в то время как пиковая производительность Nocona, как и тактовая частота, в полтора раза выше. Таким образом, на Opteron достигается существенно более высокий процент от пиковой производительности.

Тесты задач вычислительной химии

В табл. 6 приведены результаты для Opteron 275, полученные для комплекса программ Gaussian, а в табл.7 — для Gamess-US. В качестве «базовой» использовалась молекула тринитротриаминобензола из стандартного теста test178 к Gaussian-03 (размерность базиса равна 300), за исключением стандартного test397 (808 базисных функций).

Таблица 7. Тесты Opteron 275 c Gamess-US

Самый простой метод RHF (test178) практически не ускоряется при переходе к двум ядрам Opteron 275 даже в наиболее эффективном в данном случае распараллеливании в модели общего поля памяти (OpenMP). Это вызвано малым средним временем расчетов между взаимодействиями нитей, для увеличения которого во всех тестах, кроме test397, был отключен учет симметрии. В этом случае test178 распараллеливается удовлетворительно.

Однако при работе с Linda, где обмены данными между параллельными процессами больше, уже на двух ядрах наблюдается не ускорение, а замедление расчета. Очевидно, при этом возникла проблема пропускной способности памяти. На четырех ядрах была использована гибридная схема распараллеливания — две нити в OpenMP при двух Linda-процессах.

Идеальным должен был бы стать вариант, когда два Linda-процесса считаются на разных процессорах и каждый Linda-процесс, в свою очередь, распараллелен в OpenMP (две нити, по одной на каждое ядро процессора). Тогда проблема пропускной способности при обменах между ядрами одного процессора устраняется за счет использования общей памяти, а обмены данными между Linda-процессами относились бы к передачам между разными процессорными микросхемами, имеющими собственные каналы в памяти.

При работе Linda-процессов на парах ядер каждой процессорной микросхемы в тестах наблюдалось замедление относительно одного процессора — более сильное, чем при Linda-распараллеливании на два ядра.

Когда времена расчета более чем на порядок выше, чем в test178 (другие методы из табл. 6), частота обменов данными в Linda, очевидно, уменьшается, и ускорение становится приемлемым. Однако результаты в модели OpenMP по понятным соображениям оказываются обычно более хорошими, чем в Linda.

Можно сказать, что ускорение, достигаемое при распараллеливании задач квантовой химии в модели общего поля памяти на двухъядерных процессорах Opteron, выглядит вполне удовлетворительным, хотя оно зависит и от размера молекулы/базиса, и от метода расчета (так, ускорение для MP2 получилось несколько ниже, чем в Linda).

При использовании Linda на двух ядрах ускорение может быть удовлетворительным, но на четырех ядрах оно оказалось близко к 3. Данные test397 ясно указывают при этом на проблему пропускной способности памяти: в кластерах удвоение числа процессоров обычно приводит к ускорению в 1,8-1,9 раза, а на четырех ядрах Opteron 275 ускорение значительно хуже.

Остановимся на сравнении с двухузловым кластером на Giagbit Ethernet на базе двухпроцессорных узлов с Opteron 242. На одном ядре Opteron 275 задача считается на 30% быстрее, чем на Opteron 242. На двух процессорах Opteron 242 в узле ускорение равно 1,89, на четырех процессорах кластера — 3,53, что существенно выше, чем в Opteron 275 при работе с Linda (табл. 6).

Первые данные по оценкам эффективности Opteron 275 на Gaussian-03 были получены в Стэнфордском университете (www.sg-chem.net/cluster). Однако они ограничены только test397 и только распараллеливанием в OpenMP, в котором проблемы пропускной способности могут не проявляться. Нами же были рассмотрены все режимы распараллеливания Gaussian на более широком классе методов квантовой химии.

В наших тестах для Gamess-US (табл. 7) использовались те же молекулы, базисы и методы расчета (включая прямые расчеты с пересчетом интегралов), что и в Gaussian-03. Однако из-за различных критериев сходимости и других параметров прямое сопоставление времен расчетов по различным программам является некорректным, и можно пробовать сопоставлять лишь ускорение. Можно сказать, что применение DDI (с настройкой на работу через сокеты) в Gamess-US для RHF и MP2 дает вполне удовлетворительные результаты, близкие к полученным в OpenMP для Gaussian.

При этом необходимо учитывать возможную по?правку на резкое отличие времен выполнения по Gaussian и Gamess-US, что приводит, вероятно, к разной доле времени обмена данными в общем времени выполнения. Для метода MP2 время расчета в Gamess-US оказалось ниже, а ускорение — выше, чем в Gaussian, поэтому можно говорить о лучшей масштабируемости Gamess-US в этом методе.

Метод CIS (test178cis) в Gamess не поддерживается. Что касается test397, то время расчета по Gamess оказалось неприемлемо большим (задача была снята более чем через сутки после начала выполнения).

Для исследования возможностей распараллеливания задач квантовой химии, в которых ограничивающим фактором является пропускная способность межсоединения, в модели обмена сообщениями MPI, «не знающей» о наличии общего поля оперативной памяти, в ЦКОХИ был проведен тестовый расчет молекулы с размерностью базиса, равной 6500 (2600 атомов). Применялась разрабатываемая [6] полуэмпирическая программа прямого построения матрицы плотности путем ее «очистки». При использовании Opteron 275 на 3 ядрах было получено достаточно неплохое ускорение — 2,75.

В то же время, как уже отмечалось, при использовании двухпроцессорных узлов в кластере на базе Xeon проявили себя проблемы с пропускной способностью памяти. Вероятно, хорошее ускорение в данном случае определяется соотношением производительности процессора (в задаче лимитируют вызовы dgemm, производительность на которых близка к пиковой), пропускной способностью оперативной памяти и размерностью задачи. Пиковая производительность Opteron ниже, чем Xeon, поэтому обмены данными между MPI-процессами реже, а ускорение выше.

Выводы

  • Анализ микроархитектуры двухъядерных процессоров AMD Opteron/Athlon64 показывает их преимущества в организации иерархии памяти по сравнению с двухъядерными х86-процессорами Intel.
  • Проведенные измерения производительности на тестах STREAM экспериментально подтверждают наличие проблемы разделения пропускной способности оперативной памяти в двухъядерных процессорах Opteron 275. Однако это характерно для всех современных двухъядерных микропроцессоров, а достигаемая пропускная способность может улучшиться при переходе от использованного ядра Linux 2.4 к 2.6.
  • Впервые получены оценки производительности на тестах Linpack (n=100, 1000) для ряда процессоров (в том числе для двухъядерных процессоров Opteron), которые войдут в очередную версию официальной таблицы тестов. Получен, в частности, наивысший среди всех процессоров (в текущей версии таблицы) результат при n=100 для процессоров Xeon Nocona/3,2 ГГц.
  • Измерения ускорения, достигаемого при распараллеливании приложений вычислительной химии на двухпроцессорном сервере с двухъядерными процессорами Opteron 275, и проведенный анализ литературных данных показывают, что применение таких процессоров на многих задачах оказывается эффективным.

20.10.2005г


Комментарии:


Для того, чтобы оставить комментарий авторизуйтесь или зарегистрируйтесь.

Новости ОСП-ТВ - 03.09.10


30/05/2007 №04

Миражи интеграции
Герман Хохлов
ИТ-рынок наконец-то осознал необходимость интеграции приложений — интеграционные платформы сегодня на пике популярности, а еще пару лет назад приходилось убеждать, что интегрировать лучше «на шине», чем с помощью прямых интерфейсов. Однако сегодня ожидания от внедрения интеграционных платформ часто значительно превосходят их реальные возможности. Мало того, встречаются даже случаи, когда шины рассматриваются как волшебные палочки, решающие все проблемы автоматизации и бизнеса. Интеграция приложений и интеграционные платформы постепенно становятся существенной статьей ИТ-бюджета.
Виртуализация: за и против
Александр Замятин
Сегодня технологии виртуализации вызывают большой интерес со стороны всех участников ИТ-рынка — все больше заказчиков видят в ИТ реальный инструмент бизнеса и все меньше внимания потребители информационных услуг уделяют оборудованию и программным средствам, на которых будет выполняться интересующая их задача. ИТ-инфраструктура все чаще оценивается как единое информационное поле, позволяющее получать, структурировать, обрабатывать и хранить необходимую компании информацию. Концепции виртуализации, начавшие развиваться около 40 лет назад, стали ответом на эти требования, однако виртуализация таит в себе не только преимущества.
Scrum: гибкое управление разработкой
Михаил Борисов
В большинстве случаев программирование — сложный, слабо определенный процесс, требующий от разработчиков творческого подхода. Различные agile-технологии позволяют организовать процесс постепенного приближения к цели проекта путем проведения циклов испытаний с корректировкой последующих, основанных на анализе результатов предыдущих. Scrum — одна из первых методологий циклического наращивания функциональности и корректировки хода проекта на основе анализа обратной связи от пользователей. Методология Scrum устанавливает правила управления процессом разработки и позволяет использовать уже существующие практики кодирования, корректируя требования или внося тактические изменения. Использование этой методологии дает возможность выявлять и устранять отклонения от желаемого результата на более ранних этапах разработки программного продукта.
Метрики управления качеством защиты приложений
Гуннар Петерсон, Элизабет Николс
Функциональность Web-приложений и их пользовательская база развиваются одновременно с ростом угроз, и хотя специальное оборудование (например, сетевые экраны) играет важную роль в деле защиты приложений, для обеспечения их полной безопасности одного оборудования недостаточно. Все эти устройства обеспечивают защиту хостов и средств связи, но почти бессильны перед атаками на сами программные модули или дизайн (интерфейсные экраны) приложения, поэтому предприятия должны сосредоточиться на усилении защиты Web-приложений. Однако здесь сразу появляется ряд вопросов. Какие проблемы могут возникнуть у моих программ? Насколько установленные приложения уязвимы перед лицом наиболее общих угроз? Какие изменения в цикле разработки программного обеспечения могут повлиять на защиту этих уязвимых мест?
Комбайн автоматизации
Александр Александров
Корпоративные платформы управления бизнес-процессами претендуют на то, чтобы, отделив логику выполнения процессов от их программной реализации, включить в единый цикл взаимодействие людей, потоки документов, распределенные информационные системы и базы данных. Когда появился такой «комбайн» с возможностью объединения анализа и моделирования процессов, управления действиями людей и работой информационных систем при обеспечении мониторинга и оптимизации производительности на протяжении жизненного цикла процессов, потребовалось переосмысление организации системы управления бизнес-процессами.
BPM со всех сторон
Наталья Дубова
Ежегодная конференция «Управление бизнес-процессами на предприятии: интеграция в корпоративные системы» вновь собрала полную аудиторию. С чем связан повышенный интерес к BPM и какие решения в данной области предлагаются сегодня отечественному бизнесу? Дисциплина управления бизнес-процессами сложилась в последнее десятилетие в ответ на неэффективную организацию бизнеса по функциональным подразделениям и избыточную сложность предлагаемых подходов к реинжинирингу бизнес-процессов, обычно предписывающих полную и одномоментную перестройку процессов из состояния «как есть» в состояние «как должно быть».
Транзакционная память — первые шаги
Леонид Черняк
Память современных компьютеров в принципе отличается от легендарных ферритовых колечек только своей емкостью и быстродействием: она последовательна по своей природе. С появлением многоядерных процессоров возникает необходимость в альтернативных решениях. Возможно, таким решением станет транзакционная память.

Содержание

Современные архитектуры

Советы и мнения

Книги

Руководителю проекта

Книжная полка ОС

Академия ОС

Приложения

Разное

Менеджмент ИТ

Платформы

Новости

От редакции



Эта рубрика в архиве
Список номеров за



Инфозоны

В зоне партнерства Паладин Инвент и HP

Основные направления деятельности

«Паладин Инвент» предлагает своим клиентам решения на базе современных методов управления производством и бизнес-процессами.

HP Care Pack

HP Care Pack – это сервисный продукт HP, расширяющий условия стандартной гарантии в зависимости от требований бизнеса.

«Паладин Инвент» развивает экспертизу в области виртуализациии.

В портфеле компании есть решения разных производителей, но в качестве аппаратной базы неизменно используется продукция HP.

Система поддержки пользователей «Балтики»

Процессы управления ИТ-сервисами в пивоваренной компании «Балтика» специалисты «Паладин Инвент» реализовали на базе программного обеспечения HP Service Desk.
OSP.RU :: Написать письмо.