Общественно-политический журнал

 

Россия вышла на второе место в мире по числу выявленных случаев коронавируса, но и этой статистике сложно верить

Россия вышла на второе место в мире после США по числу подтверждённых случаев заражения коронавирусом, обойдя Великобританию и Испанию, свидетельствуют данные оперативного штаба по борьбе с распространением болезни.

За сутки выявлено 10 899 новых случаев инфицирования коронавирусом. 3711 человек выздоровели. Число подтверждённых случаев заражения достигло 232 243 человек.

В Великобритании и Испании, по данным Университета Джонса Хопкинса, коронавирус был обнаружен у 224 332 и 227 436 человек соответственно.

(Сайт Worldometrics ставит Россию на третье место по числу случаев после Испании, но на второе – по активным больным).

За сутки от коронавирусной инфекции в России умерли 107 человек. Всего с начала вспышки в России умерли 2116 человек. 43 512 выздоровели. Прямо сейчас, по данным властей, в России 186 615 человек больны коронавирусной инфекцией.

Больше всего подтвержденных случаев коронавируса нашли в Соединенных Штатах. Там их более 1 миллиона 300 тысяч. При этом в течение последних 5 дней прирост новых заболевших там постепенно уменьшается.

По данным Роспотребнадзора, всего с начала эпидемии в России сделано почти 6 миллионов тестов, то есть, рост вывленных случаев существенно ограничен их тестами и качеством таких тестов.

Накануне президент России Владимир Путин не стал продлевать так называемый режим нерабочих дней на всей территории страны. При этом решение о конкретном графике выхода из карантина будут принимать региональные власти.

FT сообщила о превышении реальной смертности от COVID в России на 70%

Реальное число умерших в результате заболевания COVID-19 может быть на 70% больше, чем сообщает официальная российская статистика, пишет Financial Times.

Издание пришло к такому выводу в результате анализа данных об умерших от всех причин по Москве и Санкт-Петербургу, где в апреле было зарегистрировано на 2073 смерти больше, чем в среднем за предыдущие пять лет.

«Официальные показатели смертности от COVID в этих двух городах за тот же период составили всего 629 случаев, в результате чего 1444 случая смерти, превышающие нормальный уровень смертности, остались неучтенными. Если добавить к этому 2009 случаев смерти от COVID, о которых сообщили власти по состоянию на утро понедельника [11 мая], это будет означать увеличение числа погибших в России на 72%», — пишет издание.

Авторы статьи уточнили, что оценка о 72-процентном превышении реальной смертности от COVID над официальными данными является консервативной, поскольку основана только на данных о смертности в Москве и Петербурге. Если другие российские города и регионы также зафиксируют превышение числа умерших над зарегистрированными показателями смертности от COVID, то этот показатель возрастет.

Татьяна Михайлова: Число случаев в официальной статистике практически стабильно день ото дня, неправдоподобные данные совсем. Это меня натолкнуло на мысль посчитать выборочное стандартное отклонение дневных случаев в каждой области и сравнить области между собой. Когда данные «слишком стабильные» - вероятно их рисуют.

А насколько стабильными в принципе могут быть дневные данные?

Придумаем самый стабильный, но фантастический случай.

Пусть в нашем регионе каждый день появляется N=100 больных. Ни больше, не меньше, ровно 100. Пусть мы их всех нашли и лично узнали. Пусть у нас есть 100 пробирок и мы сделали 100 тестов. И так каждый день. Стабильность.

У ПЦР-тестов вероятность ложноотрицательного результата примерно 30%. Значит из 100 больных мы получим в среднем 70 подтвержденных случаев.

Но конечно, мы не будем получать 70 каждый день, будет то больше, то меньше. Это же случайная величина. Каждый протестированный больной человек – это бернуллиевская случайная величина с р=0.7 вероятностью получить «единичку», и (1-р)=0.3 вероятностью «нолика». Число «единичек» – сумма 100 бернуллиевских случайных величин, и это тоже случайная величина. У этой случайной величины матожидание =70, а дисперсия = 100*р(1-р)=21. Стандартное отклонение – примерно sd=4.6.

Ну и если у нас стабильность на другом уровне – если у нас 200 больных и 200 пробирок, то матожидание = 140, а стандартное отклонение нужно умножить на корень из 2 – получим sd=6.5. И так далее для любого N…

То есть в таком примере «фантастической стабильности» отношение корня из числа выявленных больных к стандартному отклонению дневного числа положительных тестов будет одинаково для любых N. Вот эта константа, назову ее буквой С от русского слова «стабильность». С=sqrt(0.7*100) /4.6 = она равна примерно 1.8.

Если теперь поговорить не о теоретических параметрах, а о выборочных. Если взять симуляцию данных в экселе, посчитать симулированное число случаев для нескольких дней, посчитать выборочное стандартное отклонение, то мы получим не каждый раз 1.8. Иногда чуть больше получим, иногда чуть меньше. Но в целом, крайне редко мы получим цифру 2 и больше. Совсем редко получим 2.2. Возьмем 2.5 для ровного числа – больше 2.5 почти невероятно получить. 2.5 – это невероятный уровень стабильности, это значит нам в случайном процессе подряд выпали очень-очень похожие числа, выборочная дисперсия очень мала.

А теперь перейдем от фантастического стабильного случая к реальной жизни.

В реальной жизни у нас миллион причин, по которым дисперсия в данных может увеличиться.

Пусть у нас не 100 больных с пробирками каждый день, а разное число. Такая изменчивость увеличит и дисперсию. И наша константа С, теоретически, станет не 1.8, а меньше.

Если число истинных больных день ото дня растет или падает планомерно, то выборочная дисперсия, взятая за несколько дней подряд, будет выше. Наша константа С – еще меньше, чем 1.8.

Пусть не всех этих больных мы нашли и протестировали – в один день нам повезло, в другой – мы поймали здоровых людей и у них отрицательные тесты. С от этого уменьшается.

Пробирки не завезли сегодня – завезли завтра. Дисперсия вверх, С – вниз.

Обнаружили очаг заболеваемости в доме престарелых, или больнице, или тюрьме – сегодня всплеск случаев, завтра обратно к «нормальному уровню». Дисперсия вверх, С – вниз.

Лаборантка заболела, интернет упал, любые помехи в процессе перераспределяют число случаев между днями, вносят шум и увеличивают дисперсию.

У нас много причин, по которым волшебное соотношение С должно быть ниже 1.8. Чем ниже С, тем нестабильнее. Чем выше – тем стабильнее.

А есть ли причины, по которым дисперсия может стать меньше 4.6*sqrt(N), а С – выше, чем 1.8 в теории?

Я придумала только один случай с натяжкой: когда число пробирок для тестов ограничено, и их тратят на тестирование здоровых работников, а небольшое число распределяют на истинно больных по остаточному принципу.

Заметьте, что я сейчас не говорю об истинном числе больных, а только о числе тестов. Если у нас всего 100 пробирок, то за окном могут ходить толпами живые зомби, но мы все равно будем подавать в отчетность в среднем 70 положительных случаев в день, 200 пробирок – 140 случаев, итд.... Можно получить случайно выше 1.8, но получить выше (круглого числа) 2.5 – это астрономически невероятная стабильность.

Взяла данные по дневным случаям заражения по регионам России. И для каждого региона для каждого дня посчитала выборочную дисперсию по 7 «скользящим» дням: сам день, 3 дня до, 3 дня после. Посчитала соотношение С по выборке – делим корень из случаев сегодня на выборочное по 7 скользящим дням стандартное отклонение.

Сделала то же по данным регионов NUTS2 в Германии – спасибо Elena Paltseva!

На первой картинке это соотношение С по регионам Германии в разные даты. Пару раз залетало до 2 – такое может случайно и редко случиться. Но в основном болтается около 0.5.

На второй картинке те же данные в России. Уровень невероятной стабильности в 2.5, ожидаемый теоретический предел 1.8, и немецкие 0.5 я на графике обозначила. Как видим, многие регионы легко и многократно превышают не только 1.8, но и невероятные 2.5. В Краснодарском крае соотношение достигает 11! Интересно узнать значение синуса в тех краях. Наверное, к 4 уже приближается.

Среди выскакивающих вверх точек попадаются периодически почти все регионы ЦФО, Похоже, что данные правят очень многие. В начале апреля думаю, сглаживали вспышки, скрывали кластеры заражения в больницах, итп. А к концу апреля уже явно стали больше и чаще просто рисовать.