Архив рубрики: stat

Матьметоды! Мать-мать-мать, привычно откликнулось эхо…

Когда же всё это кончится уже? В субботу, что ли, последний экзамен и потом только допсессия и комиссия осенью?

Комиссия вечерников сегодня была. Мы опять совершили дисциплинарное нарушение — не отчислили часть тех, кого надо было бы. Потому что из сегодня пришедших только двое на самом деле выполнили норму — один юноша и ещё девушка Ангелина, по поводу которой меня слегка терроризировали её коллеги. Всем остальным можно было смело ставить «не зачтено» исходя из прописанных в программе курса требований. Но тем не менее, такую оценку получили только четыре человека, не смогшие ответить хотя бы на половину вопросов.

В общем, после субботы появится время на возню с дипломниками. Её у меня, по счастью, немного, все самостоятельные и толковые. Правда, некоторые — разгильдяи. Ну так это и не удивительно, подобное притягивается к подобному.

Пересдачи: шок и трепет. Халява пришла

Вчера мы с позорно проиграли битву за качество образования. Сначала была пересдача бакалавров и опять кружащиеся вокруг нас отдельные коллеги с дивной аргументацией, что мы их четыре года учили, давайте уже наконец-то выпустим, не отчислять же на четвёртом курсе прямо перед защитой диплома. Ну ладно, отправили на комиссию поменьше. Вот интересно, будет ли у нас на факультете после введения ЕГЭ как единственной меры поступления получше с качеством приёма или же опять среди тех, кого мы всё никак не можем отчислить, будут попадаться бесконечные родственники, друзья и знакомые какого-нибудь важного Кролика?

Что интересно, что на втором курсе точно так же те же коллеги ходят вокруг нас кругами и говорят — а давайте мы не будем никого отчислять или хотя бы самую капельку, потому что это же второй курс, вы их ещё успеете на четвёртом отчислить!

Потом была пересдача вечерников — это был вообще атас. Если кто помнит, мы каждый год ходим мучить студентов одним и тем же тестом с вопросами, в сущности, несложными. Изложенными в учебнике, написанном предельно понятно. Нет, это, конечно, не предел, можно и ещё понятнее. И каждый год у нас одна и та же система оценивания по этому тесту — надо ответить на 6 вопросов правильно в первой половине и на 6 вопросов во второй.

Ну так вот, если оценивать пересдачу вечерников подобным образом, то на комиссию по отчислению отправились бы 50 человек. Из примерно 90-100 всего сдававших. Мы покумекали и решили, что нам не улыбается вручную заполнять 50 протоколов комиссии по три экземпляра. Мы снизили планку до 10 правильных ответов в сумме. Осталось 24 «комиссуемых». Мы позвонили коллеге. Коллега тоже очень не хотел ничего такого и просил ещё снизить. В итоге остановились на 8 правильных ответах в сумме и 14 комиссуемых.

Что такое 8 правильных ответов из 20? Напоминаю, что в тесте на каждый вопрос 4 варианта ответов, лишь один из них — правильный.

Проверим гипотезу, что студенты вечернего отделения вообще не открывали учебник, а внутри них сидит идеальный генератор случайных чисел. Тогда мы можем рассчитать теоретические вероятности соответствующих исходов (с учётом того, что вероятность угадывания равна 1/4). Поскольку я напрочь забыл всю комбинаторику, я открыл учебник «Математика для психологов» (Кричевец, Шикин, Дьячков) — кстати, замечательная книжка, редкий случай, когда я с первого прохода понимаю о чём вообще речь. Правда, трудно найти нужное место. Но я его нашёл. Оно изложено в одном абзаце на стр. 238-239 и называется «Схема испытаний Бернулли с p не равным q».

Если я всё правильно понял, то шанс на соответствующее число правильных ответов составляет

(20!/(x!*(20-x)!))*(0,75^(20-x))*0,25^x

Если я нигде не ошибся в расчётах, вероятность случайно угадать 8 (и более) правильных ответов к тесту составляет приблизительно 10%. Вообще решил такую табличку составить для студентов. Пусть радуются.

Шанс на халяву

Количество ответов Шанс кумулятивный
0 0,32% 100,00%
1 2,11% 99,68%
2 6,69% 97,57%
3 13,39% 90,87%
4 18,97% 77,48%
5 20,23% 58,52%
6 16,86% 38,28%
7 11,24% 21,42%
8 6,09% 10,18%
9 2,71% 4,09%
10 0,99% 1,39%
11 0,30% 0,39%
12 0,08% 0,09%
13 0,02% 0,02%
14 2,57E-005 2,95E-005
15 3,43E-006 3,81E-006
16 3,57E-007 3,87E-007
17 2,80E-008 2,96E-008
18 1,56E-009 1,61E-009
19 5,46E-011 5,55E-011
20 9,09E-013 9,09E-013

Халява пришла

Здорово было бы со студентами разбираться во всей этой комбинаторике, но этим занимаются с ними математики на первом курсе. В любом случае, у нас есть ещё масса интереснейших тем — каков шанс получить зачёт, при условии, что я точно знаю ответы на четыре вопроса? каков шанс, что человек, получивший зачёт, знает ответы всего на четыре вопроса, а остальные угадал… Ну и так далее.

Будни научрука

«Программист», ответственный за часть работы по обработке данных дипломника, не владеет SQL. Поэтому я сейчас преобразовываю данные в файловый формат под задачу. Интересно, что он будет делать с 700 тысячами файлов? Файлы я нагенерил. WinRar вроде бы говорит, что часиков за пять их заархивирует… Надеюсь, я нигде не лажанулся и не придётся всё переделывать. Впрочем, всё равно придётся ещё раза три-четыре.

Классная угадайка

— настоящая террористка. Подкинула такую ссылку: en.akinator.com. Штуковина пытается угадать, кого вы загадали, задавая вопросы на «да-нет». Действительно, неплохо получается — с более-менее очевидными вещами. Начал я играть почему-то с А.П. Чехова, со второго захода (нажать More Questions) — угадал. Знает о Скиннере, про Фрейда совсем глупо спрашивать. Самообучается. Постоянно пытается подсунуть мне Хомского в ответ на мои загадки.

Модель «начальник-подчинённые» и пути обработки

Каждый раз пугаюсь, когда ко мне подходят студенты с менеджмента или организационной с исследованиями, в которых есть данные начальников и их подчинённых. И предполагается установление чего-нибудь этакого с учётом данного факта. Пугаюсь я потому, что ни разу до сих пор не видел адекватной выборки под такие задачи. Гипотеза может звучать как-нибудь типа — «в группах, где начальники ведут себя так-то, происходит то-то». Для того, чтобы как-то более-менее нормально проверять такие гипотезы в числах на корреляционном материале (без эксперимента со сменой начальника и т.п.) нужно, чтобы было ну хоть двадцать рабочих групп. В каждой из которых человек по пять хотя бы подчинённых.

Дело в том, что «случай» в подобной ситуации — группа, а не работник. Т.е., все те правила по поводу численности испытуемых, которые действуют на некоторых кафедрах, надо переводить в численность групп. Если на кафедре считают, что корреляцию нельзя считать меньше, чем по 60 испытуемым, значит должно быть 60 рабочих групп, в каждой по пять человек. Впрочем, можно просто 60 пар «начальник-подчинённый», уже можно интересно играть.

В суровой реальности студенты приходят с данными по семи-десяти группам, в которых от двух до двадцати подчинённых. И хотят непонятного. В лучшем случае есть некий внешний критерий про эти группы. В худшем — полагается, что мнение начальника и есть внешний критерий. Хорошо, когда это какое-то одно мнение по одному вопросу.

В некоторых ситуациях можно попробовать продублировать данные начальника в качестве свойств его подчинённых, но это неправильно, ибо приводит к неоправданному увеличению объёма данных и т.п. Можно посчитать разными способами расстояние между начальником и подчинёнными. Можно подсчитать в группах согласованность мнений экспертов (членов группы) и т.д. В общем, можно подсчитать огромное количество самых разных показателей, только вот из-за того, что групп всего семь, что делать дальше с двумя (или двадцать раз двумя) рядами по семь чисел — загадка века. Вчера в качестве примера того, как можно это делать, увидел коллективный труд, в котором считалась корреляция (Спирмен) восьми цифирей, полученных в результате колоссального труда, с «жизненным критерием» в виде, кажется, оценки начальника. Ню-ню.

В общем, в это воскресное утро шлю луч любви научным руководителям подобных работ.

Коэффициент корреляции Пирсона (видео)

Расчёт линейной корреляции — видео.

Честно — не знаю, зачем я это занудство снимаю. По-моему, любой студент вуза с сохранным интеллектом способен выполнить эту процедуру по письменной инструкции из учебника.

Как записывать пин-коды?

Хорошо, когда пин-кодов у тебя два — на сим-карту мобильника и на банковскую карту. А когда сим-карт пяток-другой, да три банковские карточки? Не все банки разрешают самостоятельно назначать пин-коды. В итоге мне всё-таки придётся записывать часть из них на бумажки. Вернее, даже не на бумажки, а хранить их в почте. В принципе, при желании, можно было бы даже хранить такие пин-коды в открытом виде :-)

Вот так выглядит моя запись пин-кода новой банковской карточки (некоторые детали изменены)

1) первая цифра номера дома, в котором жил дед
2) какого разряда я был библиотекарь
3) которым по счёту ребёнком был мой прадед
4) М-в — отец какой по счёту жены третьего мужа одной приличной пожилой дамы?

В общем, я практически уверен, что грамотный следопыт, потратив некоторое количество сил и времени, выяснил бы ответы на эти вопросы. Думаю, что по сложности (от самого простого) они идут в последовательности 2, 1, 4, 3. Если я правильно понимаю, подробная биография моего прадеда не публиковалась, и более-менее помнят ответ на этот вопрос сейчас вряд ли больше пяти человек в мире. Остальное известно в пересказах многим, а второй вопрос вообще примитивен, ответ на него хранится во многих источниках, включая ксерокс трудовой книжки, который валялся где-то на кафедре.

В конце концов, всегда можно записывать пинкоды и ещё более простым способом, всё равно мало кто знает ответы:

1) сколько гипотез проверяет трёхфакторный ANOVA
2) чему равна сумма бесконечного массива корреляций случайных числовых рядов…

На память…

http://community.livejournal.com/spb_auto/5518489.html — надо будет студентам комменты к этому посту показывать в качестве пояснения того, как примерно выглядит пилотаж по анкете и какие примерно результаты из него можно извлечь.