Построить регрессионную модель для прогнозирования затрат на переликвидацию скважины. Основываясь на критерии Фишера и t-критерии Стьюдента улучшить регрессионную модель.
Расчет регрессионной модели производится на основе факторов, имеющих наибольшее влияние на результирующую величину – затраты на переликвидацию. Выбор факторов производится на основе корреляционного анализа, т.е. расчета коэффициента корреляции для каждой пары xy. В регрессионную модель включаются только те факторы, которые имеют значение коэффициента корреляции не ниже определенного предела (по модулю). Дальнейший отбор значимых факторов производится уже в процессе и с помощью инструментов регрессионного анализа.
Исходные данные представлены в таблице 30.
Расчет статистических величин производится на основе определенной части генеральной совокупности – выборки, одной из обязательных характеристик которой должна быть репрезентативность, которая обеспечивается объемом выборки не меньше 30 значений признака. В данном примере данное условие не соблюдается по причине отсутствия информации по скважинам в достаточном объеме. Количество обрабатываемых данных сокращено до 15 скважин.
Расчет корреляционной матрицы производился с помощью инструмента Корреляция Microsoft Excel. Проанализируем коэффициенты корреляции между факторами х и результирующим фактором у.
Как видно из полученной корреляционной матрицы, наиболее тесные корреляционные связи наблюдаются между x2 и y (таблица 31). Для дальнейшего анализа оставим факторы, имеющие коэффициенты корреляции больше 0,4 по модулю. Это все факторы, кроме 5-го, 6-го и 10-го.
Таблица 30 – Факторы, включенные в корреляционно-регресионную модель для определения затрат на переликвидацию скважин
Номер скважины
Срок эксплу-атации скважины, лет
Период, прошедший с момента ликвидации скважины, лет
Стои-мость ликвидацион-ных работ, руб.
Продолжи-тельность ликвидации-онных работ, ч
Коли-чество колонн, шт.
Глуби-на скважи-ны, м
Сте-пень слож-ности ликви-даци-онных работ, ед.
Доля времени на геофизи-ческие исследо-вания в общей трудоем. ликв. работ, %
Количество проведен-ных на скважине ремонтно-изоляцион-ных работ, шт.
Период времени, прошед-ший с послед-него РИР, лет
Стоимость перелик-видации, руб.
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
y
620,3
8,7
550,22
5,6
460,21
6,2
675,40
15,5
522,00
12,0
534,23
2,1
402,38
3,6
520,10
4,2
360,50
5,0
480,55
3,3
490,10
7,1
396,90
9,1
380,70
12,1
588,50
16,3
610,20
15,2
Таблица 31 – Корреляционная матрица
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
y
x1
1,000
x2
0,753
1,000
x3
0,399
0,493
1,000
x4
0,295
0,386
0,896
1,000
x5
0,545
0,596
0,498
0,397
1,000
x6
-0,825
-0,507
-0,319
-0,202
-0,537
1,000
x7
0,108
-0,064
-0,123
-0,002
0,310
-0,317
1,000
x8
-0,095
0,084
0,446
0,475
0,455
0,134
-0,087
1,000
x9
0,093
0,204
0,386
0,383
0,010
-0,094
-0,503
0,305
1,000
x10
0,176
0,380
0,106
0,138
-0,134
-0,209
-0,189
-0,315
0,544
1,000
y
0,489
0,761
0,500
0,443
0,367
-0,209
-0,442
0,427
0,494
0,327
1,000
Выведем регрессионное уравнение, отражающее зависимость затрат на переликвидацию от перечисленных факторов.
Основные результаты расчета по этому инструменту приведены на рисунке 21.
Рисунок 21 – Фрагмент рабочего листа с выводом итогов по инструменту Регрессия
Полученные значения коэффициентов регрессии позволяют записать уравнение регрессии в следующем виде:
Значение коэффициента детерминации R-квадрат равно 0,871, что свидетельствует о том, что полученная зависимость с достаточной степенью аппроксимации отражает наблюдаемое явление. Другими словами, выбранные факторы существенно влияют на величину затрат и на переликвидацию.
Рассчитанный уровень значимости 0,0111<0,05 (показатель Значимость F в таблице приложения «Дисперсионный анализ») подтверждает значимость коэффициента детерминации R-квадрат.
Расчетное значение критерия Фишера (показатель F) может быть оценено по проверке попадания в критическую область ( ). Для данного примера может быть рассчитан с использованием функции FРАСПОБР, в которой Степени_свободы1 - число степеней свободы для строки Регрессия (kf = m = 2), а Степени_свободы2 - число степеней свободы для строки ОСТАТОК: df = n – (k +1) = 10 – (2 +1) = 7.
Таким образом, расчетное значение критерия Фишера 6,73 попадает в критический интервал (3,79; +¥). Это еще раз свидетельствует о том, что коэффициент детерминации найденной регрессионной связи является значимым.
Следующим этапом является проверка значимости коэффициентов регрессии аj. Сравнивая попарно t-статистики и p-значения для всех коэффициентов, оставим те, где значения t-статистики больше p-значения. Эти факторы значимы. Исключить из уравнения регрессии следует x 1, x 3, x 7, x 9.
Построим второй уточненный вариант регрессионного уравнения для х2, х4, х8 :
Регрессионная зависимость находится в области недостаточной аппроксимации (R-квадрат < 0,8). Другими словами, оставленные в модели факторы менее существенно влияют на величину затрат на переликвидацию скважин. И предыдущая регрессионная модель более адекватна исследуемому процессу.
Вместе с тем модель может быть улучшена, так как значения t-статистики для коэффициентов а0 и а4 меньше соответствующих p-значений. Исключим константу и х4.
Получим новое регрессионное уравнение (вариант 3):
y = 44773,2× x2 + 19350,4× x8.
Судя по значению коэффициента детерминации R-квадрат, равному 0,89, полученная регрессионная модель с большой степенью аппроксимации отражает исследуемое явление. Это подтверждает также расчетное значение критерия Фишера, равное 52,8, которое попадает в критический интервал (3,8; +¥).
Таким образом, полученное регрессионное уравнение ставит затраты на переликвидацию скважин в прямую зависимость от периода, прошедшего с момента ликвидации скважины, и доли затрат на геофизические исследования на ликвидированной скважине в общем объеме затрат на ликвидацию. Включение последнего фактора в регрессионную зависимость можно объяснить сложностью ликвидационных работ на скважине и связанной с этим последующей вероятностью переликвидации скважины.
Полученное уравнение читается следующим образом: увеличение на один год периода, прошедшего с момента ликвидации скважины приводит к увеличению затрат на переликвидацию на 44773,2 руб., а рост доли времени на геофизические исследования в общей трудоемкости ликвидационных работ на 1% - к росту затрат на переликвидацию на 19350,4 руб.
При экономической интерпретации уравнений регрессии часто пользуются коэффициентами эластичности, показывающими, на сколько процентов в среднем изменится значение результативного признака при изменении соответствующего факторного признака на 1%. Коэффициенты эластичности определяются по формуле
, (32)
где - среднее значение соответствующего факторного признака;
- среднее значение результативного признака;
aj – коэффициент регрессии при соответствующем факторном признаке.
При помощи функции СРЗНАЧ рассчитаем средние значения выборок x2, x8 и у:
= 7,0; 8 = 8,4; = 455939,7.
Тогда Эx2 = 0,69%, Эх8 = 0,36%.
Таким образом, увеличение периода, прошедшего с момента ликвидации скважины, на 1% приводит к увеличению затрат на переликвидацию на 0,69%, а рост доли времени на геофизические исследования в общей трудоемкости ликвидационных работ на 1% - к росту затрат на переликвидацию на 0,36%.