0
Июн 14
Кто-нибудь сталкивался с подобным?
Опубликовано
12 Июн 2014
Активность
10
ответов
5359
просмотров
4
участника
1
Рейтинг
Кто-нибудь сталкивался с подобным?
Еженедельная рассылка обновлений: вакансии, события, обсуждения.
Так можно н-ное количество кригингов замутить и осреднить так попробуй проверить.
А откуда ты это почерпнул в отношении SGS?
Потому как CV само по себе в отношении регрессионных моделей вполне понятная математическая штука
Да, это оно самое.
Принесли мне модельку на проверку, автор которой использовал CV для самопроверки. Естественно модель построена стохастикой. Меня в целом гложат сомнения в применимости CV для стохастики.
а чисто технически как это сделано?
Выкинута одна скважина, построена модель, потом другая и новая модель и тд?!
Что идет в качестве проверки? Параметры смещения, квадрата невязок или коэффициент эффективности/корреляции?
Если же речь идет про изъятие произвольного набора данных (метод складного ножа), когда комбинации могут варьироватся, то такой подход сам по себе является стохастическим.
Не пойму почему вас смущает именно SGS, если например при этом задается один и тотже seed number. Чем это будет отличаться от оценки Крикинга?!
Скорее всего, тогда все было почти так, как сказал celebrity. Почти, потому что когда удаляется одна точка из набора данных - это leave-one-out cross validation, а можно удалять группу из k точек (скважин). В этом случае зовется k-fold cross validation. Для моделей (не обязательно в области нефти и газа), основанных на случайных величинах, стохастических, вполне применимо. Но если скважин в модели мало, то я бы не стал так делать - уж слишком мал и ценен имеющийся объем информации по сравнению с межскважинным пространством (если даже сравнивать геологические данные с какой-нибудь выборкой медицинских данных в части покрытия пространства возможных вариантов). А если пробурено много эксплуатационных - может достаточно и детерминистической модели без осложнений?...
Как это было реализовано, сказать сложно, из проекта многое удалено. Судя по всему было исключено несколько десятков скважин, пробуренных в одном году. Общее количество скважин более 800 и у меня впечатление, что CV сошлась больше из-за количества скважин, чем из-за правильности подхода.
Сомнения же относительно общей применимости CV для стохастики, основаны на том, что кросс-плот будет меняться от реализвации к реализации только из-за сида.
Странно звучит "CV сошлась" - потому что это не алгоритм решения оптимизационной задачи, а просто способ тестирования модели и метод оценки средней ошибки прогнозных значений.
Более того, от сида зависит и то, какие именно скважины будут случайным образом исключены из обучающей выборки и переведены в тестовую. Но тем не менее, такой подход применяется часто. Потому что на обучающей выборке с ростом сложности модели средняя ошибка модели всегда уменьшается, а для тестовой выборки это не так, что позволяет количественно обосновать принцип keep it simple при большом количестве моделей.
То есть тестовые скважины должны исключаться случайным образом и быть разными для каждой реализации?
Нет, для каждой реализации, пожалуй, не нужно. Говоря про влияние "сида" на CV, я имел в виду, что сам процесс валидации должен быть случайным в смысле выбора скважин для исключения, а не направленным рукой геолога или инженера. Ну или, как сферический конь из комбинаторики, полным перебором всех возможных вариантов k из N
По сути "реализация" = "тренд" + "случайная ошибка". И я себе представляю, что тренд - это уже "тело" модели, детерминистическая часть, которое нужно "проверить на вшивость". А "случайную ошибку", добавляемую в модель для учета необъясненной трендом вариации, думаю, "валидировать" не требуется.
...Здесь я, видимо, загнул что-то сложное, пытаясь пересказать по-русски
http://en.wikipedia.org/wiki/Cross-validation_(statistics)
Добавлю.
Если итоговая модель получается осреднением M реализаций, то процесс с учетом CV выглядит примерно так:
1 - случайным образом исключить p из N скважин
2 - построить М реализаций на оставшихся (N-p) скважинах, осреднить и получить итоговую модель
3 - сравнить модельные значения с фактическими в исключенных p скважинах
4 - повторить шаги 1-3 одинаковыми настройками и сидами моделирования свойств k- раз, чтобы получить оценку средней ошибки прогноза на "новых данных, которые модель ни разу в глаза не видела".
Пока все это печатал еще подумал о том, что в геологии все таки нельзя прямо спроецировать процесс CV, как он делается в чисто регрессионных моделях, где нет пространственной привязки свойств/переменных. В этом смысле при анализе временных рядов пользуются "порционным" (chunks) исключением данных - т.е. из временного ряда случайным образом исключается не одна точка, а непрерывный кусок, пробегая "скользящим окном" весь временной ряд. Таким образом, в геологической модели придется исключать скважины, либо близко пробуренные друг к другу, либо по другому "критерию близости", который тоже может вызывать споры.
Сухой остаток, скорее всего, имея 800 скважин, можно как-нибудь без усложнения модели и CV прожить, если очевидно, что напрямую в лоб простой реализацией CV делать в общем-то некорректно. "Лучше уж никак вместо как-нибудь", попсовый боян, но мне кажется он в тему :)