Ошибка аппроксимации распределения хи-квадрат нормальным распределением как функция от размера выборки
Исследуется ошибка аппроксимации распределения хи-квадрат нормальным распределением, что является актуальным при применении статистических тестов для оценки качества генераторов (псевдо-) случайных чисел. Целью работы является определение условий (границ), при которых замена статистики хи-квадрат ее аппроксимацией (нормальным распределением) является допустимой для упрощения вычисления p-значений с использованием дополнительной функции ошибки. В качестве методов исследования использовались методы математического анализа, включающие анализ гамма-распределения, частным случаем которого является распределение хи-квадрат, а также применение неравенства Берри — Эссеена для оценки точности аппроксимации. Получено аналитическое выражение для третьего абсолютного центрального момента, что позволило аналитически оценить минимальную длину битовой последовательности, обеспечивающую заданную точность аппроксимации. Результаты показали, что для обеспечения высокой точности аппроксимации, требуемой в криптографических приложениях, необходимый объем выборки создает значительные практические ограничения, связанные с вычислительной сложностью, ограничениями по памяти и временными затратами. Рассмотрен вопрос выбора оптимального числа интервалов в тестах, использующих статистику хи-квадрат, для оптимизации баланса между желаемой чувствительностью и устойчивостью к случайным флуктуациям. Научная новизна работы заключается в формализации условий применимости нормальной аппроксимации для вычисления p-значений, разработке рекомендаций по выбору числа интервалов и оценке минимального объема выборки. Полученные результаты способствуют увеличению статистической значимости и обоснованности применения статистических тестов для верификации генераторов (псевдо-) случайных чисел, а также позволяют снизить влияние эвристических соображений при определении необходимого объема выборки, что повышает достоверность оценки характеристик генераторов случайных чисел. В практическом плане работа направлена на унификацию процедур статистического анализа в криптографии за счет формализации условий, при которых замена распределения хи-квадрат на нормальное является корректной.