Лекция 5. СТАТИСТИЧЕСКИЕ МЕТОДЫ МОДЕЛИРОВАНИЯ И АНАЛИЗА ИНЖЕНЕРНЫХ ЗАДАЧ

 С О Д Е Р Ж А Н И Е
Введение
1. Статистические модели и их способы решения.
2. Аппроксимация. Метод наименьших квадратов.
Пример 1. Установить зависимость между температурой и удлинением прямолинейного металлического стержня. Контрольные замеры известны.
Пример 2. Найти коэффициенты аппроксимирующей прямой вида y=ax+b. Контрольные замеры известны.
Пример 3. Установить зависимость между ростом и возрастом по формуле: y =а*(1-b*exp(-k*t)). Контрольные замеры известны.
Л И Т Е Р А Т У Р А



Введение. Статистическое моделирование используется во многих областях человеческой деятельности, когда на основе некоторой информации, получаемой из опроса или эксперимента, ее обработки (аппроксимации) и анализа ставится задача создания обоснованного перспективного проекта.


1. Статистические модели и их способы решения.
На уровне обработки статистических данных и создания статистической модели существуют различные виды статистического анализа: корреляционный, факторный, сопоставимо-аналоговый, индексный и др. Каждый из них характеризуется своими логико-вычислительными процедурами и интерпретацией полученных результатов моделирования. На основе полученных данных - выборок (опроса, замеров) большого или малого объема, их корректировки строятся графики (гистограммы), проводятся различные оценочные расчеты.

Существенным является увязка (зависимость, распределение) одного фактора от другого. Если какая-либо физическая величина определяется как однозначная функция одной или нескольких переменных величин, то такая связь называется функциональной.

Для этого данные необходимо проанализировать средствами статистического анализа и подвести их, с некоторым приближением, к той иной теоретической аппроксимирующей схеме.

Связь, в которой заданному случайному значению х соответствует не одно определенное значение y, а целое распределение (множество) y, называется стохастической или вероятностной.

Общая процедура статистического моделирования, основанная на методах корреляции и регрессии, осуществляется в несколько последовательных этапов:

1. Анализ исходной статистической выборки, отбор наиболее существенного фактора (если он не задан заранее условиями задачи моделирования), принятие гипотезы о наличии статистической связи.
2. Анализ парной связи между функцией и фактором-аргументом и обоснование ее формы. Подбор одной или нескольких математических зависимостей (уравнений), соответствующих установленному характеру связи.
3. Оценка численного значения параметров уравнений (решение уравнения или модели).
4. Расчет статистических характеристик полученных уравнений (моделей).
5. Обоснование границ достоверного использования полученного уравнения (модели).

Первый этап, кроме количественного отбора фактора-аргумента, второй, частично третий и пятый этапы - это неформальные логические процедуры, которые в настоящее время не могут быть еще реализованы на ЭВМ.

Формализации и программированию поддаются процедуры третьего, четвертого и частично первого этапов.

2. Аппроксимация. Метод наименьших квадратов

Аппроксимация - это способ приближенного описания дискретных значений какой-либо функции. С практической точки зрения требуется  заменить численно не выраженную функцию f  численной функцией по возможности более точно. Один из наилучших методов аппроксимации - это способ (метод) наименьших квадратов, который был развит усилиями Лежандра и Гаусса более 150 лет назад.


Пример 1. Требуется установить зависимость между двумя величинами температурой (х) и удлинением (y) прямолинейного металлического стержня.
Измерения даны табл. 1.

Табл.1
Независимая переменная х 
 Зависимая переменная y
x1=15.0
x2=60.0
x3=70.0
x4=105.0
x5=145.0
y1=25.0
y2=40.0
y3=80.0
y4=120.0
y5=120.0
 
Будем рассматривать x и y как прямоугольные координаты точек на плоскости. Предположим, что точки с соответствующими координатами почти лежат на прямой линии (рис. 1) вида y=ax. В этом случае между x и y существует линейная зависимость.
y=ax          (1)
или
ax-y=0          (2)
где a,  - некоторая постоянная, подлежащая определению.
 
 
Рис. 1. Точки и их линейная аппроксимация
 

Так как точки (x,y) только приблизительно лежат на прямой, то формулы (1,2) приближенные. И подставляя в них вместо x и y их значения (x1, y1; x2, y2; x3, y3; x4, y4; x5, y5) из таблицы (3), получим систему равенств:
ax1-y1=e1
ax2-y2=e2
...
ax5-y5=e5,

где - e1,..,e5 - некоторые погрешности (невязки).

Требуется подобрать коэффициент a таким образом, чтобы эти погрешности были по возможности малыми по абсолютной величине.

Существует ряд способов определения параметров эмпирических формул: способ средних, наименьших квадратов, Чебышева и др.

Способ наименьших квадратов состоит в следующем: нужно подобрать коэффициенты a и b так, чтобы сумма
e1+e2+...e5 -> min,                 (4)
т.е. была наименьшей.
Если эта сумма квадратов окажется малой, то тогда и сами погрешности будут малыми по абсолютной величине.
Заменяя в выражении (4)  погрешности их значениями из равенств (3), получим формулу:
f(x) =(ах1-y1)*(ах1-y1)+ (ах2-y2)*(ах2-y2)+...(ах5-y5)*(ах5-y5) -> min.                (5)
В формуле (5) х1, y1, x2, y2,.. x5, y5 получены в результате измерений и рассматриваются как данные, коэффициент же a  - неизвестная величина, подлежащая определению.
F (a) -> min
Итак,  найти минимум двумерной целевой функции:
        F (a,b) -> min (12)
Решение задачи выполняем методами графочисленной оптимизации.

Не сложными являются и математические методы решения данного типа задач на основе утверждения Ферма о том, что в точке экстремума функции нескольких переменных каждая ее частная производная первого порядка равна нулю.



Пример 2. Найти коэффициенты аппроксимирующей прямой вида y=ax+b. Результаты измерений даны в табл.2.
Для определения коэффициентов а и b используем графачисленный подход: в диапазонах изменения переменных параметров а и б, переберем всевозможные варианты  и тот, который даст минимум ЦФ, будет искомым.

Табл.2
Независимая переменная х 
 Зависимая переменная y
x1=-2.0
x2= 0.0
x3= 1.0
x4= 2.0
x5= 4.0
y1=0.5
y2=1.0
y3=1,5
y4=2.0
y5=3.0
Формализация задачи.
Найти минимум следующей двумерной целевой функции
                      (5)

Решение. Формируем массив ЦФ на априорно заданном (например, по предполагаемому графическому виду линии) интервале изменения переменных величин а и b.

Далее в модуле Optim системы "Вектор2 с помощью нескольких итераций уточняем интервал значений а и b. Это достигается их сужением (следя, чтобы минимум ЦФ не скатывался к границам ЦФ), добиваемся предела, когда минимум ЦФ перестает уменьшаться. Весь этот процесс выполняется можно выполнять непосредственно в интерактивном режиме в модуле Optim системы "Вектор", предварительно сформировав массив ЦФ в с помощью программы, представленной ниже. Ордината ЦФ формируется следующими образом (см. программу):

mthkp [j] [k] .z = (x*x1+y-y1)*(x*x1+y-y1) +
        (x*x2+y-y2)*(x*x2+y-y2) + (x*x3+y-y3)*(x*x3+y-y3) +
        (x*x4+y-y4)*(x*x4+y-y4) + (x*x5+y-y5)*(x*x5+y-y5);

Что полностью соответствует формуле (5). График ЦФ в различных проекциях показан на рис. 2.

Текст пограммы формирования массива ЦФ
#include   <math.h>
#include  "geotyps3.h"
    main()
{
    point3 mthkp[11] [11]  ;
    float x1,x2,x3,x4,x5;
    float y1,y2,y3,y4,y5;
    float x,y,z;
    float zmin,ymin,xmin,zz;
    float zmax,ymax,xmax;
    float zstep,ystep,xstep;
    int i,j,k;
    int npprz, nppry,npprx;
      x1 =    -2;    y1=   0.5 ;
      x2 =     0;    y2=   1 ;
      x3 =     1;    y3=   1.5 ;
      x4 =     2;    y4=   2 ;
      x5 =     4;    y5=   3 ;
      xmin=0.;  ymin=0.;     xmax=2.0;      ymax=2.0;
   nppry=11;
  npprx=11;
    ystep= ( ymax - ymin ) / (nppry-1);
    xstep= ( xmax - xmin ) / (npprx-1);
         for ( j=0, y=ymin; j < nppry; j++ ,y +=ystep) {
                 for ( k=0, x=xmin; k < npprx; k++ ,x +=xstep) {
            mthkp [j] [k] .x = x;
            mthkp [j] [k] .y = y;
 mthkp [j] [k] .z = (x*x1+y-y1)*(x*x1+y-y1) +
        (x*x2+y-y2)*(x*x2+y-y2) + (x*x3+y-y3)*(x*x3+y-y3) +
        (x*x4+y-y4)*(x*x4+y-y4) + (x*x5+y-y5)*(x*x5+y-y5);
            }
        }
         vectorcg( "surf10", npprx, nppry, mthkp );
return( 0 );
}
 

Рис.5. Определение коэффициентов уравнения регрессии в системе "Вектор":
на суженной области 0 < а  < 1; 0 < b  < 1.5, здесь же изображены линии уровня, показывающие область минимума

Минимум ЦФ фиксируем в состоянии "расчет" модуля Optim системы "Вектор". Минимум получен при: a=0.425, b=1.175. Отсюда:

y=0,425*x+1,175     (6)
Таким образом, по формуле (6), можно по x получить y.

Пример 3. В таблице 1 приведены средние значения роста мужчин в возрасте от 4 до 17 лет.

 Табл.2.
Возраст (годы) t
 Рост (y)
4 (t1)
103,9 (y1)
4 (t2)
111,5 (y2)
6 (t3)
117,1 (y3)
7 (t4)
122,4 (y4)
8 (t5)
128,0 (y5)
 

Для аппроксимации этих данных предложена формула [7]:
 (7)
где a,b и k - постоянные величины, наилучшие значения которых требуется определить.

Для решения воспользуемся методом наименьших квадратов. Формулируем целевую  функции вида:
 f(a,b,k) =(a*(1-b*e-kt1)-y1)*(a*(1-be-kt1)-y1)++...(a*(1-be-kt4)-y5)*(a*(1-be-kt4)-y5) -> min,
где t1, y1,... - данные замеров роста (y) по годам (t).

Надо найти составляющие a,b,k, которые бы обеспечивали минимум целевой функции (минимум квадратов отклонений).

Сначала определяем диапазон изменения переменных параметров a,b,k. В практике обычно имеется априорная информация, согласно которой выбираются эти пределы. Если таких данных нет, то проводят анализ формул или экспериментируют пределами непосредственно в процессе поиска минимума или максимума данной целевой функции.
Далее, дискретизируем область ограничений - графически это трехмерная прямоугольная область. Целевая функция будет трехмерной (от трех переменных), изображение ее возможно в четырехмерном пространстве.  Чтобы найти более точно минимум целевой функции, необходимо область ограничений сужать до тех пор, пока не будет убежденности, что ЦФ больше не уменьшается. Координаты точки минимума и будут искомыми коэффициентами a,b,k.

Для рассматриваемой задачи было проведено около 20 итераций (считая и итерации установки начальных границ).
После первых итераций было определено, что минимум ЦФ надо искать в пределах: a=170-250, b=0.5 - 0.8, k=0.02-0.07.

В итоге получены следующие значения коэффициентов: a=244.6, b=0.710333, k=0.052333 при значении целевой функции: f=0.004733. Функция, описывающая процесс роста мужчин от возраста, одномерная: по ней, например, можно построить график скорости роста мужчин и определить, в каком возрасте она максимальна (после 100 лет рост  практически прекращается).


Л И Т Е Р А Т У Р А

1. Балякин О.Г. Стохастические и корреляционные связи. Математическое моделирование. Методическая разработка. Владивосток, ДВВИМУ, 1983.
2. Балякин О.Г. Выборочный метод. Статистическая проверка гипотез. Методическая разработка. Владивосток, ДВВИМУ, 1983.
3. Седых В.И., Балякин О.К. Восстановление и повышение долговечности деталей судовых технических средств. Теоретические основы. Учебное пособие.  Владивосток, ДВГМА, 1992.
4. Полоротов С.П. Выбор вида аппроксимации зависимости с учетом физической сущности объекта исследования. Методические указания.  Владивосток, ДВГМА, 1987.
5. Венецкий И.Г., Венецкая В.И. Основные математико-статистические понятия и формулы в экономическом анализе.  М.: Статистика, 1979.
6. Спиридонов А.А. Планирование эксперимента при исследованиях процессов. М.: Машиностроение, 1981.  184 с.
7. Адлер Ю.П. и др. Планирование эксперимента при поиске оптимальных условий. М.: "Наука", 1976.
8. Шуп Т. Решение инженерных задач на ЭВМ. М.: Мир, 1982.