Устаревшая эконометрическая чушь

Есть ряд бесполезных и опасных заблуждений, которые кочуют из одного плохого учебника по эконометрике в другой. Некоторые из них имеют определённую педагогическую ценность (к примеру, позволяют получить упрощённую формулу для вводной главы), однако при использовании в настоящих исследованиях, опирающихся на реальные данные, данные предпосылки могут обесценить результаты исследования и навлечь праведный гнев опытного рецензента. Большинство перечисленных ниже предположений давно принято ослаблять, так как они не выполняются для случайных величин реального мира, а тесты — заменять другими, более надёжными и не требующих выполнения этих натянутых предположений.

Древний специалист по анализу данных — AI-рисунок, Wombo, 2021

  1. Предположение о гомоскедастичности.
    • В мире нет ни одного феномена, который бы описывался моделью с гомоскедастичной ошибкой.
    • Популярные тесты на гомоскедастичность не являются омнибусными (универсальными), т. е. тестируют не против всех возможных нелинейных альтернатив, а лишь против одной полупараметрической. Параметрическое моделирование дисперсии ещё менее надёжное, чем оценивание самой модели.
    • Все результаты должны быть робастными к гетероскедастичности произвольной формы. Все современные статистические пакеты умеют выдавать робастные стандартные ошибки: sandwich::vcovHC(...) в R, , vce(hc3) или , vce(robust) в Stata.
    • Существуют оцениватели, которые более эффективны, чем МНК, при гетероскедастичности: оцениватель Робинсона (Robinson 1987), оптимальные инструменты Ньюи (Newey 1993), сглаженное эмпирическое правдоподобие Китамуры—Трипати (Kitamura & Tripathi 2003), метод минимального расстояния с решетом Аи—Чен (Ai & Chen 2003). Эти оцениватели содержат непараметрическую компоненту, обеспечивающую асимптотическую эффективность.
  2. Нормальность ошибок.
    • Нормальность GMM-оценивателя — это следствие, которое проистекает из некоторых условий регулярности (конечность некоторых четвёртых моментов).
  3. Суждение о качестве модели по коэффициенту детерминации R².
    • R² лишён всякого смысла без нереалистичного предположения о гомоскедастичности и не говорит ничего о валидности спецификации или релевантности регрессоров. Его скорректированная версия ещё хуже.
  4. Использование определителей матриц для интерпретации и тестирования.
    • В статистике определители случайных матриц почти никогда не равны нулю, и далеко не все матрицы даже квадратные. Используйте интерпретацию в терминах линейной независимости столбцов.
  5. Принятие нулевой гипотезы.
    • Может быть несколько конкурирующих нулевых гипотез, несколько предполагаемых значений параметра, и гипотезы о равенстве истины каждому из них могут все не отвергаться. Нельзя делать взаимоисключающие предположения.
  6. Тестирование гипотез об оценивателях или оценках.
    • Гипотезы тестируют равенство неизвестной константы некоторому численному значению, так как любые числа, посчитанные из некоторой реализации случайного процесса, уже не являюся случайными величинами.
  7. Некорректные логические отрицания.
    • Если базовая категория — «женщины», то логическое отрицание — «все, кто не сообщил, что они женщины». Иногда в данных могут быть пропущенные значения, иногда возможны разбивки с более чем двумя значениями и т. д.
  8. Интерпретация коэффициентов как предельных эффектов при дамми-переменных / каузальная интерпретация дамми-переменных, не меняющихся во времени.
    • Нет такого понятия, как маржинальный отклик заработной платы на маржинальное изменение региона. Не существует каузального эффекта превращения в мужчину. Есть только лишь условные разницы между групповыми средними.
  9. Интерпретация t-статистик и F-статистик как точных, соответствущих распределениями Стьюдента и Фишера.
    • Когда количество параметров велико со сравнению с размером выборки, использование критических значений тяжелохвостых распределений для тестирования гипотез даёт более правильный размер статистических тестов. С другой стороны, условное распределение ошибки почти никогда не известно, и при отсутствии дополнительной информации подобные коррекции слабо влияют на эмпирическую вероятность отвержения, а t- и F-приближения являются очень грубыми.
  10. Игнорирование малого размера выборки / поправки на конечность совокупности в гигантских выборках.
    • Старайтесь собрать как можно больше наблюдений. Не сообщайте асимптотические результаты, когда наблюдений не так много. Если наблюдений мало, то следует почитать про калибровку, методы повторных выборок (включая бутстрап), эмпирическое покрытие доверительным интервалом истинного значения. Если наблюдений очень много, то никакие коррекции не требуются.
  11. Интерпретация критических значений Стока—Його как точных.
    • Статистики тестов на слабые инструменты являются точными только при нереалистичном предположении об условной гомоскедастичности.
  12. Тест Хаусмана на эндогенность.
    • Тест Хаусмана является точным только при нереалистичном предоложении об условной гомоскедастичности. Используйте метод контрольных функций (включение остатков регрессий первого шага в качестве объясняющих переменных в структурную модель) или GMM-тест Хансена (J-тест)
  13. Тест Саргана на совокупную валидность всех инструментов.
    • Тест Саргана является точным только при нереалистичном предоложении об условной гомоскедастичности.
  14. Тест Крэгга—Дональда на ранг матрицы.
    • Тест Крэгга—Дональда является точным только при нереалистичном предположении об условной гомоскедастичности.
  15. Отдельные тесты на совместную значимость для регрессий первого шага.
    • Используйте робастную rk-статистикуу Кляйбергена—Паапа (Kleibergen & Paap, 2006) или GMM-статистику Андерсона—Рубина. Сообщайте о недостаточной идентификации или слабой идентификации с оговоркой о том, что эти результаты дают общую картину релевантности инструментов.
  16. Оценивание системы внешне не связанных уравнений Зельнера через обобщённый МНК (ОМНК, GLS).
    • Оригинальный двух- и трёхшаговый SUR надёжен только при нереалистичном предоложении об условной гомоскедастичности.
  17. Панельные модели со случайными эффектами (Random Effects).
    • Эти модели требуют выполнения целых трёх (!) нереалистичных предположений о распределении ошибок модели. Если от вас требуют оценить такую модель только потому, что другие это делают («если все из окна прыгают»), то протестируйте гипотезу об условных случайных эффектах (с вероятностью 99,9% она будет уверенно отвергаться) и сообщите результаты теста.
  18. Тест Хаусмана для панельных моделей.
    • Тест Хаусмана валиден только при нереалистичном предположении условной гомоскедастичности. Используйте J-тест Хансена.