Функции методо-ориентированного СПП
Структура СПП
Методика оценки качества статистических пакетов
Некоторые вопросы ценообразования на рынке СПП
Заключение
Литература

Как выбрать подходящий статистический программный продукт (СПП)? Какими критериями следует руководствоваться при сравнении различных СПП? Можно ли оценить степень соответствия цены СПП его потребительским свойствам? В статье излагается методика сравнительного анализа однотипных пакетов, позволяющая такой продукт правильно выбрать и в дальнейшем эффективно использовать.

Компьютерные системы для анализа данных - пакеты статистических программ - считаются наукоемкими программными продуктами, но, пожалуй, наиболее широко применяются в практической и исследовательской работе в самых разнообразных областях.

При впечатляющем разнообразии статистических программных продуктов, которым характеризуется современный мировой и отечественный рынок (по официальным данным Международного статистического института, число наименований СПП приближается к тысяче), крайне важно - как для производителя, так и для потребителя этой продукции - правильно ориентироваться в этом многообразии.

Picure 1

Рисунок 1.
Статистические пакеты.

Существующая классификация статистических пакетов [1] и [2] предлагает делить их на четыре группы:

  • интегрированные методо-ориентированные пакеты общего назначения;
  • специализированные методо-ориентированные пакеты;
  • предметно- (или проблемно-) ориентированные пакеты;
  • обучающие программы.

Рассмотрим пакеты первых двух групп (во второй группе наибольшее внимание уделено пакетам по классификации данных [3]), поскольку именно они "обслуживают" весьма широкий спектр прикладных задач.

Отметим, что если описываемую здесь методику сравнительного анализа СПП, а также связанный с нею подход к ценообразованию СПП можно считать универсальными, то конкретный обзор рынка этих продуктов носит, конечно, выборочный характер.

Список пакетов, составивших выборку для анализа, представлен в табл. 1. Для перехода к методике сравнения необходимо описать СПП как систему, т. е. представить себе его элементарную структуру, связи между элементами, назначение и т. п.

Таблица 1.
Общие сведения об СПП.

Статистическая система
Версия
Цена
Минимальные системные требования
Продавец
Категория пользователя
ОС
Процессор
Емкость НЖМД
Объем ОЗУ
1
2
3
4
5
6
7
8
9
SAS
6.11
н/д
W
386
65*
8**
SAS Institute
В
SAS
6.07
850
D
386
45
4
SAS Institute
В
Statgraphics+
1.0
1048
W
386
14.5
4
Manugistics
Ср-Н
Statgraphics
1.0
995
D
386
8,5
4
Manugistics
Ср
Statgraphics
7.0
995
D
286
6.1
1
Manugistics
Ср
Minitab
10.0
695
W
386
12
4
Minitab
Ср-Н
Minitab
7.0
[ 4]
D
286
4
1
Minitab
Ср-Н
Systat
6.0
995
W
386
8
4
SPSS
В
Systat
6.0
995
D
386
8
4
SPSS
В
SPSS
7.0, 7.5
980
W
486
65***
8
SPSS
В
BMDP
Dynamic
695
D
386
8
1
SPSS
В
Statistica
5.1
995
W
386
13
4
StatSoft
В-Ср
Statistica
5.1
795
D
386
8
1
StatSoft
В-Ср
IMSL-C (Num)
2.0
700
W
386
8
4
Visual Numerics
В
Object Suite
1.0
700
W
н/д
н/д
н/д
н/д
В
S-Plus
н/д
1450
W
н/д
н/д
н/д
StatSci
В
S-Plus
н/д
1195
D
н/д
н/д
н/д
StatSci
В
Класс-Мастер
2.0
320
W
386
4
4
Изд-во "ТВП"
Ср
Класс-Мастер
1.0
300
D
286
2
1
Изд-во "ТВП"
Ср
Мезозавр
2.0
520
W
386
4
4
Изд-во "ТВП"
Ср
САНИ
1.0
300
D
286
1
1
Изд-во "ТВП"
В
Stadia
6.0
500
W
386
5
4
Информатика& Компьютеры
В-Ср
Stadia
5.0
250
D
386
0,4
1
Информатика&Компьютеры
В-Ср
Stat-Media
1.1
250
D
286
1
1
Полихимэкс
Ср-Н
Starc
4.0
н/д
D
н/д
н/д
н/д
ТОО Data-Center
В-Ср
Квазар
1.0
н/д
D
н/д
н/д
н/д
ИММ УрО РАН
В
Palmoda
1.0
300
D
286
2
1
ВЦ РАН
В
Лорег
1.0
350
W
386
10
4
н/д
В
PolyAnalyst
2.0
1850
OS/2
486
н/д
8
ЗАО Megaputer
Н
Олимп
1.21
500
W
386
н/д
4
ЗАО CPS
Ср-Н
Олимп
н/д
350
D
286
н/д
1
ЗАО CPS
Ср-Н
Статистик-Консультант
3.0
н/д
W
386
3
4
ТОО "Тандем"
Ср-Н
Ростан
1.0
н/д
D
286
2
1
БГУ
В
Cтатэкс
1.0
н/д
D
286
н/д
1
РМ и ПК Казахстан
Н
Unistat
4.0
795
W
386
н/д
4
Unistat
В-Ср
SOLO
[4]
695
W
н/д
н/д
н/д
[4]
В-Ср
Multivariance 7
[4]
200
D
н/д
н/д
н/д
[4]
В
ODA
[4]
499
D
н/д
н/д
н/д
[4]
В
MVSP
[4]
100
D
н/д
н/д
н/д
[4]
В
CART
[4]
795
W
н/д
н/д
н/д
[4]
Ср-Н
BMDP New System
1.0
795
W
н/д
н/д
н/д
SPSS
В-Ср
BM-STAT
н/д
220
D
н/д
н/д
н/д
International Software
В
Data Desk
н/д
450
н/д
н/д
н/д
-
Computing Capability
В
SAM-86
н/д
350
н/д
н/д
н/д
-
Open Training
В
Statmost
н/д
395
W
н/д
н/д
н/д
DataMost Europe
В-Ср
Powerstat
н/д
395
н/д
н/д
н/д
н/д
Multi-Health System
В
NCSS (вместе с Adv. Stat)
[4]
224
D
н/д
н/д
н/д
[4]
В
NCSS (вместе с Adv. Stat и Graphs)
[4]
323
D
н/д
н/д
н/д
[4]
н/д
SigmaStat
2.0
495
W
486
8
8**
Jandel Scientific
Ср-Н
SigmaStat (вместе с SigmaPlot)
3.0
795
W
н/д
н/д
н/д
Jandel Scientific
н/д
StatXact
3.0
495
W
н/д
н/д
н/д
н/д
H
JMP
3.16
695
W
н/д
н/д
н/д
SAS Institute
Ср-Н
Statistix
[4]
495
D
н/д
н/д
н/д
[4]
н/д
Statit
[ 4]
359
W
н/д
н/д
н/д
[4]
В
STATlab
1.1
895
W
386
2
4
SciTech International
В-Ср
WinSTAT
[4]
195
W
н/д
н/д
н/д
[4]
В
TURBO Spring
[4]
469
W
н/д
н/д
н/д
[4]
В-Ср
Stat Navigator
[4]
149
D
н/д
4
2
[4]
Н
Starex
н/д
90
н/д
н/д
н/д
н/д
Far Communications
Н

Примечания. Цены приведены на момент публикации источников. Стоимость лицензионной копии СПП взята из каталогов [4], цены на SPSS и SAS указаны для базовых модулей на российском рынке. Кроме того, SAS требует ежегодной оплаты лицензии. Достаточно полная конфигурация SPSS (модуль Base + комплект из семи модулей) стоит 4290 долл. Каждый из дополнительных модулей SAS и SPSS стоит от 350 до 750 долл.

Категории пользователей пакета: В - статистик-профессионал, Ср - "есть базовые статистические знания", Н - "отсутствие базового уровня", В-Ср - промежуточный уровень.

Операционные системы: W - Windows, D - DOS.

Для всех универсальных пакетов разработчики настоятельно рекомендуют использование сопроцессоров или соответствующих микропроцессоров.

Для тех же пакетов рекомендуется использование 16-Мбайт оперативной памяти.

* Для модулей BASE, STAT, GRAPH .
** Включая файл "подкачки" на диске.
*** Дополнительно рекомендуется файл "подкачки" на диске объемом 15 Мбайт.


Функции методо-ориентированного СПП

Поскольку интегрированные и специализированные методо-ориентированные пакеты можно представить однотипными системами, то рассмотрим их совместно.

Весь математико-статистический инструментарий пакетов организован в виде отдельных библиотек модулей. Каждая из описанных ниже библиотек содержит обрабатывающие модули или их группы, реализующие функции СПП, перечисленные на рис. 2 (блок "Разнообразие").

ОБЩАЯ ОЦЕНКА СПП
(8) МОЩНОСТЬ ПРЕДСТАВЛЕННЫХ
В СПП СРЕДСТВ
(6) УДОБСТВО
ВЗАИМОДЕЙСТВИЯ
(5) СТЕПЕНЬ ИНТЕЛЛЕКТУАЛИЗАЦИИ
(2) СКОРОСТЬ
(3)     регрессионные вычисления
(3)     непараметрические вычисления
(3)     таблицы
(1)     вывод диаграмм рассеяния
        на экран
(1)     вывод диаграмм на принтер
(1)     вывод диаграммы 
        "ящик и усы" на экран
(1)     вывод диаграммы
        "ящик и усы" на принтер
(1)     вывод гистограмм на экран
(1)     вывод гистограмм на принтер
(2) ЛЕГКОСТЬ  ОБУЧЕНИЯ
(2)     наличие справочно-
информационной подсистемы
(3)     наличие подсистемы
 экспертной поддержки
(4)     углубленные 
консультации по методам 
на основе базы значений
(6) РАЗНООБРАЗИЕ
(3)     описательная статистика
(2)     предварительный анализ данных
(3)     непараметрическая статистика
(3)     t-тесты
(5)     регрессия
(4)     диагностика
(3)     специализированная регрессия
(4)     дисперсионный анализ
(3)     планирование эксперимента
        и многомерный анализ
(4)     вероятность
(4)     временные ряды
(2)     факторный анализ
(2)     кластер-анализ
(1)     многомерное шкалирование
(1)     дискриминантный анализ
(5)     таблицы
(2)     логлинейные модели
(4)     анализ выживания
(3)     контроль качества
(2)     передача данных
(3)     ввод данных
(3)     слияние/реструктуризация файлов
(3)     пропущенные значения
(1)     общие преобразования
(3)     математические преобразования
(3)     логические преобразования
(2)     статистические преобразования
(2)     временные преобразования
(1)     строчные преобразования
(3)     вывод
(2)     столбиковые и круговые диаграммы
(3)     другие типы диаграмм
(1)     специальные графические возможности
(1)     устройство вывода
(1)     разное
(1) ТЕХНОЛОГИЧНОСТЬ
(1) КАЧЕСТВО ВЫХОДНЫХ ФОРМ
(1)     качество диаграмм "ящик и усы"
(2)     качество гистограмм
(2)     качество диаграмм рассеяния
(2)     дополнительные возможности
(5) ЛЕГКОСТЬ ИСПОЛЬЗОВАНИЯ
(1)     руководства пользователя
        и учебные пособия
(1)     интерфейс с пользователем
(1)     управление данными
(1)     базовая статистика
(1)     графики
(1)     таблицы и t-тесты
(1)     регрессия и 
        дисперсионный анализ

Рисунок 2.
Схема формирования общей оценки качества СПП (в скобках указаны весовые коэффициенты показателей по 10-балльной шкале).

Библиотека 1: вспомогательные программы. Она состоит из трех разделов:

  • методы матричной алгебры. Включает в себя модули, реализующие методы решения систем линейных уравнений, вычисления собственных чисел и собственных векторов в обобщенной постановке задачи;
  • оптимизационные алгоритмы. Обеспечивает статистические модули необходимыми методами и алгоритмами поиска экстремумов различных функционалов, определяющих критерии качества статистического метода (например, метод наименьших квадратов и т.п.);
  • статистическое моделирование на ПК. Включает в себя модули, реализующие процесс машинного генерирования последовательностей одномерных и многомерных наблюдений, извлекаемых из генеральных совокупностей соответствующего типа.
  • Библиотека 2: описательная статистика и разведочный анализ исходных данных.

    Содержание библиотеки определяется основными задачами первичной статистической обработки данных.

    Библиотека 3: статистическое исследование зависимостей. Это, пожалуй, самая объемная часть пакета, тематически распадающаяся на шесть разделов:

  • корреляционно-регрессионный анализ;
  • дисперсионный и ковариационный анализ;
  • системы одновременных структурных эконометрических уравнений;
  • планирование регрессионных экспериментов и выборочных обследований;
  • анализ временных рядов;
  • анализ зависимостей марковского типа.
  • Библиотека 4: классификация и снижение размерности. Она тематически разделяется на 5 разделов:

  • дискриминантный анализ;
  • статистический анализ смесей распределений;
  • кластер-анализ (таксономия);
  • снижение размерности в соответствии с критерием автоинформативности (без обучения);
  • снижение размерности в соответствии с критерием внешней информативности (при наличии обучения).
  • Библиотека 5: некоторые специальные методы статистического анализа нечисловой информации и экспертных оценок. Целесообразность подобной библиотеки объясняется спецификой и весьма интенсивным развитием математических моделей экспертного оценивания, которые подчас апеллируют к исходным данным нечисловой природы, а также к методам и понятиям, не укладывающимся в рамки традиционных схем (например, оперирующим с так называемыми нечеткими множествами). В составе используемого в ней математико-статистического инструментария: анализ таблиц сопряженности, логлинейные модели, субъективные вероятности, логит- и пробит-анализ, ранговые методы и т. п.

    Библиотека 6: планирование эксперимента и выборочных обследований. Содержит модули для планирования экспериментов и обработки результатов выборочных обследований.

    Помимо перечисленных шести библиотек, объединяющих так называемые обрабатывающие модули, в пакет входит ряд управляющих модулей и программ: организующая программа (программа-администратор), сервисная программа, библиотека паспортов модулей, таблица семантической модели.

    Структура СПП

    Статистический пакет в идеале должен удовлетворять определенным требованиям:

  • модульность;
  • ассистирование при выборе способа обработки данных;
  • использование простого проблемно-ориентированного языка для формулировки задания пользователя;
  • автоматическая организация процесса обработки данных и связей с модулями пакета;
  • ведение банка данных пользователя и составление отчета о результатах проделанного анализа;
  • диалоговый режим работы пользователя с пакетом;
  • совместимость с другим программным обеспечением.
  • Следует заметить, что развитие СПП обычно идет поэтапно, на каждом из них создается вариант пакета, все в большей степени удовлетворяющий перечисленным выше требованиям. При этом если создание есть результат разработки, то на каждом этапе пакет, с одной стороны, должен представлять собой готовую к использованию программную продукцию, а с другой - входить составной частью в более поздние стадии развития пакета.

    СПП в виде библиотеки модулей

    Первый уровень сложности системы - реализация пакета в виде библиотеки модулей. Под модулем СПП понимается внешняя процедура или программа на языке программирования высокого уровня, позволяющие кроме основных функций обрабатывать аварийные ситуации, имеющие стандартные интерфейсы связи по данным и передаче управления между модулями и использующие определенные операторы ввода-вывода.

    Независимо от дальнейшего развития СПП организация библиотек обрабатывающих модулей в пакете остается одинаковой. Так, все библиотеки модулей (например, классификации, сокращения размерности, регрессии и т. д.) физически организованы в виде двух наборов данных - библиотеки исходных модулей и библиотеки загрузочных модулей. Первая библиотека содержит тексты модулей на языке программирования, а вторая - загрузочные модули, полученные в результате компиляции и редактирования соответствующих исходных модулей. Наличие библиотеки исходных модулей позволяет проводить модификацию и коррекцию модулей в процессе эксплуатации пакета.

    При достаточной квалификации пользователя в области программирования работа с таким пакетом состоит в отборе подходящих модулей и в составлении самим пользователем головной программы на языке программирования, организующей вызов отобранных модулей в определенном порядке.

    Набор тематически-ориентированных программ

    Следующий уровень сложности СПП - организация пакета в виде набора тематически-ориентированных программ (TOП), осуществляющих автоматизацию вычислительного процесса с помощью набора обрабатывающих модулей, относящихся к данной теме.

    Такого типа пакеты представляют собой развитие принципов их организации, продемонстрированных в известном статистическом пакете BMDP. Существенное отличие заключается, однако, в том, что программы пакета BMDP предназначены для выполнения лишь одной какой-либо статистической процедуры (например, линейной регрессии, дискриминантного анализа). А каждый набор TOП является пакетом программ для решения некоторого подмножества задач прикладного статистического анализа.

    В пакетах данного типа каждый TOП должен взаимодействовать с другими подобными программами по данным. Рассмотрим информацию, доступную TOП в рамках одного задания. Эта информация делится на три части: управляющую, обрабатываемую и терминологическую.

    Управляющую информацию задает пользователь с помощью языка пакета, или ее получают в результате работы самой программы. Она содержит описание типа обрабатываемых данных, метода обработки, используемой модели, требования к настройке программы и др.

    Обрабатываемая информация состоит в первую очередь из исходных и получаемых на выходе TOП данных (например, параметров регрессионных уравнений, правил классификации, моделей снижения размерности).

    Терминологическая информация - это в простейшем случае словарь наименований переменных, групп, определений для качественных переменных, принятых в области исследований, для которой получена обрабатываемая информация. Использование этой информации позволяет провести настройку пакета, и в частности распечатку выходных данных в терминах области исследования. Терминологическая информация является одной из составных частей тезауруса содержательных понятий и общей для всех программ, участвующих в процессе обработки. Ее целесообразно хранить на внешних устройствах в виде отдельного набора, доступного для всех TOП.

    Для большинства задач статистической обработки данных достаточно между программами, работающими в составе пакета, допустить обмен информацией в виде векторов, матриц данных и матриц бинарных отношений, а также управляющей информацией.

    Для программ ввода-вывода и обрабатывающих модулей матрица данных всегда представляется в виде таблицы чисел. Если в матрице данных имелись неколичественные переменные и пропущенные значения, то они заменяются некоторыми числовыми кодами. Информация о видах переменных, о соответствии определений неколичественных переменных и пропущенных значениях хранится в специальных таблицах вместе с числовыми кодами.

    Матрица данных может состоять из нескольких подматриц, которые в ряде случаев используются самостоятельно для статистического анализа.

    Принадлежность объектов матрицы данных к самостоятельным частям (подматрицам) можно указать одним из следующих способов:

  • с помощью последовательности матриц данных, так что каждой части соответствует своя матрица, организованная в виде отдельного набора данных;
  • введением группирующей переменной, так что объекты с одинаковыми значениями группирующей переменной попадают в одну подматрицу; в качестве группирующей переменной можно использовать переменную, значения которой содержатся в матрице данных, либо некоторый вектор, образующий отдельный набор данных (подобно тому, как это делается в пакетах BMDP, SPSS);
  • если объекты, входящие в каждую из подматриц, расположены последовательно, то принадлежность объектов к ним можно определить, задавая соответствующий набор целых чисел, каждое из которых определяет размер интересующей пользователя подматрицы. Такую организацию матрицы данных в пакете SPSS называют субфайловой.
  • Для ввода данных пользователя в пакете как минимум должны быть средства уничтожения и дополнения системных файлов по объектам и переменным, объединение системных файлов, внесение исправлений в данные и описатели структурных данных. По требованию пользователя должна выдаваться информация об имеющихся у него наборах данных. Разумеется, пользователь должен иметь возможность организовать и собственные наборы данных, хотя в этом случае управление данными усложняется и возрастает вероятность ошибок при формулировании задания на обработку.

    Пакет с генерацией программ

    Более совершенной организацией обладают пакеты с генерацией программ. На этом уровне развития сложности пакета в качестве отдельной структурной единицы выделяется "собирающая" программа, основной функцией которой является генерация обрабатывающих программ. Собирающая программа может быть выполнена в виде нескольких программ - транслятора с входного языка, планировщика и т. д. Такая программа управляет работой пакета, осуществляя связь с операционной системой, содержит задание на обработку, в котором определена последовательность использования модулей, необходимых для выполнения задания, организует связь между модулями по информации и управлению. Результатом работы собирающей программы является план вычислений на внутреннем языке пакета.

    Входной язык пакета - проблемно-ориентированный неалгоритмический язык высокого уровня, позволяющий описывать манипуляции внешнего управления пакетом и данные пользователя, а также формулировать задания. Для обеспечения удобства изучения и применения в языке пакета выделяют две части: язык администратора и язык пользователя.

    Язык администратора в основном служит для модификации и расширения пакета программ (включение новых модулей, изменение правил умолчания и т. д.).

    К языку пользователя предъявляется ряд особых требований, связанных с тем, что он предназначен для пользователей, большей частью не являющихся профессиональными программистами. Основное из этих требований - удобство использования языка.

    Методика оценки качества статистических пакетов

    Предлагаемый авторами подход [5] является развитием методики американской Национальной лаборатории по тестированию программных продуктов (National Software Testing Laboratory, NSTL). Это независимая организация, выполняющая экспертную оценку программных продуктов.

    Рассмотрим предлагаемую нами общую схему определения качества (рейтинга) программного продукта (рис. 2).

    В приведенную схему дополнительно (по сравнению с методикой NSTL) включен блок, который оценивает удобство работы пользователя-прикладника с пакетом, зависящее от степени интеллектуальности данного пакета. Это качество продукта имеет существенное значение, поскольку количество распространяемого на рынке статистического программного обеспечения явно обогнало численность специалистов-статистиков, особенно на отечественном рынке.

    Ситуация заметно обострилась в связи с доступностью технологии записи компакт-дисков (CD-ROM) и это, как следствие, привело к распространению "пиратских" копий программных продуктов. В результате большое число пользователей - неспециалистов в математической статистике - часто совершенно формально работают с тем или иным СПП, неправильно интерпретируя при этом результаты проведенного статистического анализа, что не только наносит урон заказчику анализа, но и дискредитирует правомерность использования математического аппарата прикладной статистики.

    Работа над повышением степени интеллектуальности СПП как раз и преследует цель уменьшить подобного рода ошибки при эксплуатации программ, предоставив пользователю в автоматическом режиме необходимую консультацию по правильной постановке задачи, выбору подходящего статистического инструментария, по умению обойти встречающиеся на пути статистического анализа типичные "ловушки", по правильной интерпретации результатов анализа и т. п. (см., например, в [1]-[3], [6]).

    Сравнение пакетов по мощности, степени интеллектуальности и удобству взаимодействия с ними осуществляется на основании десяти базовых качеств СПП (см. схему на рис. 2).

    Интегральная оценка качества получается по следующей схеме. Детализированные характеристики, взятые с "весами", являются основой для построения оценок базовых качеств (от 1 до 10 баллов) того или иного СПП. В свою очередь взвешенная сумма дает оценку для каждого из трех обобщенных показателей по блокам. Наконец, взвешенная сумма последних определяет общую оценку СПП.

    С перечнями детализированных характеристик по каждому из базовых свойств пакета можно ознакомиться на схеме (рис. 2). Помимо введения важного обобщающего показателя "Степень интеллектуализации СПП", мы предлагаем принципиально иной (по сравнению с методикой NSTL) подход к определению весов для оценки того или иного свойства более высокого уровня иерархии. В методике NSTL эти веса определяются прямым экспертным опросом, т. е. эксперт, располагая суммой, скажем, в 100 баллов, распределяет ее между суммируемыми характеристиками пропорционально удельному весу их влияния на формирование оценки соответствующего более общего свойства. Однако опыт подобного рода экспертного оценивания многократно свидетельствовал о том, что "разложение по полочкам" удельных весов частных показателей приобретает в головах экспертов размытый характер. В результате мнения различных экспертов, привлеченных для решения данной задачи, слабо согласуются [5]. Мы же предлагаем использовать так называемый экспертно-статистический метод [3]. Это означает, что от экспертов следует получать балльные оценки одновременно и для отдельных характеристик и для соответствующего свойства в целом. После этого веса суммируемых характеристик рассчитываются в качестве коэффициентов регрессии.

    Остановимся кратко на сущности основных базовых свойств, характеризующих качество СПП.

    Разнообразие алгоритмов и средств управления данными

    Для простоты сравнения пакетов будем учитывать лишь встроенные функции. Это объясняется тем, что ряд пакетов позволяет добавлять оригинальные функции, написанные на собственном языке программирования.

    Поскольку при анализе данных пользователю приходится выполнять вычисления широкого спектра статистик (функций от наблюдений), передавать и преобразовывать данные в форму, необходимую для их анализа, а также представлять полученные результаты в наглядном виде, то акцентируем внимание на собственно вычислениях (статистических или "общематематических", управлении данными и графике.

    Статистическое разнообразие - это полнота и качество реализованных в пакете моделей и методов.

    Управление данными традиционно включает в себя экспорт/импорт данных, их преобразования (общематематические или статистические, логические, строчные), реструктуризацию, а также дополнительные возможности, предоставляемые встроенным языком программирования. Оценка пакета по каждому показателю формируется на основе оценки наличия (отсутствия) той или иной возможности.

    Подчеркнем, что в зависимости от реализованных в пакете возможностей управления данными, те или иные преобразования могут выполняться в одних случаях довольно быстро, а в других крайне медленно (а иногда некоторые преобразования просто невозможны).

    Графика является важным компонентом мощности СПП. Большое значение придается развитости графических средств, наличию графиков и карт аналитического характера, возможностям разметки карт и графиков. Важными представляются средства вывода графики на печатающие устройства.

    Скорость вычислений и представления результатов

    Некоторые пользователи, возможно, не придают этому показателю большого значения. Однако, на наш взгляд, скорость работы пакета важна для комфортной эксплуатации и косвенно отражает трудоемкость его разработки. Кроме того, пакет с высоким быстродействием заметно уменьшает число необходимых ПК, а это может вылиться в существенную экономию средств. Последнее особенно важно для российского пользователя, у которого, особенно в глубинке (да и в научных учреждениях Москвы), нередко встретишь машину класса 386DX или даже ниже.

    Так, один из авторов в ряде известных банков, в их планово-экономических или кредитных управлениях, в середине 1996 г. встречал дешевые ПК (класса 486SX) известных торговых марок (Vectra, IBM и др.). Однако в них отсутствует сопроцессор для операций с плавающей запятой, что критично для некоторых универсальных пакетов, например для SPSS или SAS (версии для Windows).

    Таблица 2.
    Результаты применения методики оценки СПП.

    По материалам Software Digest (Ratings Report) , 1991 г., vol. 8, # 5

    Название пакета
    Разнообразие
    Быстродействие
    Качество выходных форм
    Легкость использования
    Легкость обучения
    Общая оценка мощности
    Общая оценка удобства использования
    Интегральная оценка
    Systat
    7,8
    7,3
    6,1
    8,1
    7,1
    7,5
    7,9
    7,7
    SAS
    7,9
    6,2
    5,9
    7,3
    6,5
    7,3
    7,0
    7,2
    Statgraphics
    6,3
    3,3
    8,0
    8,6
    8,6
    5,8
    8,7
    7,2
    SPSS/PC+
    6,7
    6,4
    5,0
    6,8
    6,9
    6,4
    6,8
    6,6
    PC-90 (BMDP)
    7,0
    2,4
    5,0
    5,5
    4,5
    5,8
    5,1
    5,5
    Minitab
    4,7
    9,1
    4,8
    5,6
    4,6
    5,7
    5,2
    5,5

    Качество выходных форм

    Оценка качества отражает пригодность выходных форм для анализа, отчетов, статей и презентаций. Кроме того, здесь учитываются дополнительные графические возможности: наличие логарифмических шкал, показ отдельных точек графика, контроль пользователем местоположения условных обозначений, печать графиков на одной странице с данными, наложение графиков друг на друга и наличие встроенного графического редактора.

    Легкость использования пакета и его освоения

    Этот раздел методики построения рейтинга предлагает учитывать качество документации по наличию "Руководства пользователя" и учебных пособий по методам, реализованным в пакете. Кроме того, оценивается удобство интерфейса "человек - компьютер", качество встроенной подсистемы помощи, степень удобства управления данными и работы с графикой и таблицами.

    Степень интеллектуальности пакета в первую очередь предполагает организацию такого режима работы СПП, при котором пользователь имеет достаточно квалифицированное статистическое ассистирование в ходе всего процесса статистического анализа, т. е. при выяснении природы (генезиса) анализируемых данных, при выборе подходящих моделей и методов, их увязывании в технологическую цепочку, при интерпретации результатов и т. п. При этом основные показатели вовсе не обязательно связаны с наличием в пакете подходящей экспертной системы. Речь идет о развитой системе компьютерной консультационной поддержки (по статистике), охватывающей различные стадии решения задачи:

  • ориентирование пользователя в существующих литературных источниках по применямым статистическим методам, а также обеспечение его подсказками по используемой терминологии, понятиям, существующим решениям аналогичных задач;
  • помощь в постановке задачи, подробный предварительный анализ исходных данных c акцентированием внимания пользователя на их генезисе и особенностях;
  • подбор подходящего вида модели и технологической цепочки обрабатывающих модулей;
  • описание набора типичных статистических "ловушек" и способов, как их избежать;
  • помощь в интерпретации промежуточных и финальных результатов статистического анализа;
  • предложение направлений дальнейшего исследования.
  • Необходимым условием обеспечения достаточной степени интеллектуальности СПП мы считаем привлечение к разработке пакета (а при оценке готового - учет научного уровня) специалистов по теории и методам статистического анализа данных. Кроме того, представляется важным, как используются интерактивные и графические возможности современного ПК, а также средства, связанные с формализацией и предоставлением опыта и профессиональных знаний специалистов по прикладной статистике.

    Некоторые вопросы ценообразования на рынке СПП

    Специфическая черта СПП и других программ и в целом интеллектуальных продуктов, отличающая их от обычных продуктов материального производства, - ничтожно малые затраты на тиражирование готового продукта по сравнению с затратами на его разработку, рекламу и сбыт. Необычное распределение - сопоставимость первоначальных затрат (на предварительный анализ рынка, проектирование и разработку программы, тестирование и исправление ошибок) и затрат, связанных с продажей и сопровождением программы, - а также трудность прогнозирования тиражей (рынок СПП очень капризен) приводит к неэффективности реализации затратного принципа, долго лидировавшего в ценообразовании на внутреннем рынке России. Поиск альтернативного принципа ценообразования привел специалистов по интеллектуальной собственности к следующему, достаточно неопределенному выводу: "При массовой продаже копий цена должна назначаться продавцом из соображений, касающихся только его. Свое согласие с ценой покупатель выражает самим фактом покупки. Наиболее естественная форма продажи в этом случае - этикеточная лицензия" [8].

    Ниже предлагаются два подхода, открывающие возможность ориентировочного определения цен, согласующихся с текущим положением на рынке СПП аналогичного профиля. В связи с общей нестабильностью цен на рынке в РФ подходы иллюстрируются на данных западного рынка СПП. Ценообразование на базе эталонов

    В основе этого подхода лежит идея о ценовой однородности программных продуктов в рамках одного класса, т. е. продуктов, обладающих примерно одинаковыми характеристиками по их мощности, скорости вычислений, степени интеллектуальности и др. Для выделения однородных групп СПП могут использоваться различные процедуры кластер-анализа, проводимые в пространстве базовых качеств пакета и соответствующих детализированных характеристик. Для экспериментальной иллюстрации этого подхода необходимо достаточно большое число обследованных СПП, обеспечивающее хорошую наполненность выявленных кластеров. Поэтому вопрос о выделении эталонных СПП нуждается в отдельном исследовании.

    Ценообразование на основе общей оценки качества СПП

    Этот подход отражает закономерный процесс роста цены СПП с улучшением его качества. Очевидно, что СПП высокого качества требуют существенно больших интеллектуальных затрат, что и находит отражение в более высоких ценах по сравнению с менее качественными программами. Описанная выше методика получения общей количественной оценки качества СПП позволяет непосредственно реализовать предложенный в данной статье подход в рамках схемы регрессионного анализа.

    Продемонстрируем это на примере анализа специализированных СПП по анализу временных рядов.

    Пример

    Исследование СПП по анализу временных рядов проводилось в 1993 г. в Центре "СтатДиалог" ведущими специалистами в данной области. Оценке подлежало одиннадцать СПП (10 из США и последний из РФ):

    1. Rats 3.0 (VAR Econometrics);

    2. SPSS+ 4.0 (SPSS, Inc.): mod. BASE,TRND,GB;

    3. Minitab 7.0 (Minitab, Inc.);

    4. Micro-TSP 6.5 (Quantative Micro Software);

    5. Systat 5.0 (Systat, Inc.): mod.~BASE;

    6. Autobox Plus (AFS Co, Inc.);

    7. PC-90 (BMDP, Inc.): 11 mod.;

    8. SAS 6.06 (SAS Institute, Inc.): mod.~BASE,ETS;

    9. Forecast Pro (Scientific Systems, Inc.);

    10. Statgraphics 2.6 (STSC, Inc.);

    11. Mesosaur 1.1 (СП "СтатДиалог").

    Оценка качества СПП по анализу временных рядов проводилась по описанной выше методике оценки СПП. При оценке функционального наполнения учитывалось наличие следующих процедур: регрессия, специализированная регрессия, временные ряды.

    Соотношение цены и общей оценки качества СПП по анализу временных рядов приведено на рис. 3, полученном по данным за 1993 г. [9].

    Picture 3

    Рисунок 3.
    Соответствие качества и цены СПП.

    Среди расcмотренных СПП заметно выделяются пакеты Autobox Plus и Mesosaur. Высокая цена первого нуждается в углубленном анализе, а очень низкая цена второго объясняется тем, что СПП из России представляются (да и до сих пор являются) диковинкой на западном рынке, поэтому для захвата сегмента на новом рынке фирма-продавец пакета Mesosaur выбрала агрессивную

    8064