Рисовалка корреляционных плеяд

Совершенно неожиданно для себя наткнулся на способ отображения корреляционных плеяд в R. Вообще-то я искал, как проделать конфирматорный факторный анализ с помощью ULS (unweighted least squares), а поиск почему-то вывел меня на пакет qgraph (вернее, на текст с демонстрацией его возможностей). Этот пакет с помощью команды

qgraph(cor(data1), layout = «spring», cut = 0.4, minimum = 0.25, maximum = 1,graph = «association»)

рисует вот такую штуку. Можно добавлять туда названия шкал, можно менять кучу прочих параметров.

корреляции

Битва за Петербург (конкурс прогнозов)

Довольно интересно, всё-таки, чем закончатся выборы в ЗакС Санкт-Петербурга. Две партии, чьи шансы на выборах в Госдуму вызывают сомнения, а в Петербурге — практически не вызывают («Справедливая Россия» и «Яблоко»), бросили на этот последний плацдарм массу сил. Все партии, имевшие такую возможность, выдвинули и зарегистрировали свои списки. Из них только «Патриоты России» практически не ведут никакой агитации, остальные же работают, как могут.

Напомню результаты предыдущих выборов в ЗакС (2007):

1.Санкт-Петербургское отделение Политической партии «Единая Россия» 37.37%
2.Санкт-Петербургское отделение КПРФ 16.02%
3.Санкт-Петербургское отделение Партии «СПРАВЕДЛИВАЯ РОССИЯ:РОДИНА/ПЕНСИОНЕРЫ/ЖИЗНЬ» 21.90%
4.Санкт-Петербургское отделение «ПАТРИОТЫ РОССИИ» 5.60%
5.Санкт-Петербургское отделение «ЛДПР» 10.88%
6.»СОЮЗ ПРАВЫХ СИЛ» 5.17%
Недействительных — 3,06%

Сейчас на выборах не участвует самоликвидировавшийся «Союз правых сил», зато участвуют вновь образованное «Правое Дело» и не допущенное в прошлый раз «Яблоко».

В силу отсутствия в публичном пространстве какой-либо внятной социологии, предлагаю провести конкурс прогнозов результатов выборов.

Партии расположены так, как они будут в бюллетене:

1. ЛДПР
2. «ЯБЛОКО»
3. «ПРАВОЕ ДЕЛО»
4. «ПАТРИОТЫ РОССИИ»
5. «СПРАВЕДЛИВАЯ РОССИЯ»
6. КПРФ
7. «ЕДИНАЯ РОССИЯ»
8. Недействительных

К сожалению, поскольку среди претендентов на победу в конкурсе наверняка найдутся избиратели, я не могу по закону устанавливать какие-либо призы или ещё что-то в этом духе (закон запрещает «воздействовать на избирателей посредством обещаний передачи им денежных средств, ценных бумаг и других материальных благ (в том числе по итогам голосования)»). Кроме того, согласно закону, «в период избирательной кампании не допускается проведение лотерей и других основанных на риске игр, в которых выигрыш призов или участие в розыгрыше призов зависит от итогов голосования, результатов выборов либо которые иным образом связаны с выборами». Так что вопрос о возможном награждении до выборов останется загадкой.

Прогноз осуществляется с точностью до десятых, результаты выборов округляются с точностью до десятых, после чего определяется лучший прогноз на основании минимального евклидова расстояния между этими двумя рядами чисел, рассматривающихся как координаты в 8-мерном пространстве. Итоги конкурса прогнозов будут подведены в течение 3 дней после опубликования итоговых результатов.

Прогнозы принимаются комментарием к этой записи. При равных результатах победителем считается тот, кто даст свой прогноз раньше. Желательно, оставив свой прогноз, дать на него ссылку в собственном блоге. Прогноз необходимо дать до 8 часов 00 минут утра 4 декабря включительно.

Много буков про статистику и психологию

В следующий раз надо будет подумать хорошенько, прежде чем лезть со своими замечаниями на заседании кафедры к человеку, представляющему диссертацию. Коллега после этого подумала месяцок и прислала десяток вопросов. Придётся теперь отвечать!

1) Правильно ли я понимаю, что коэффициент корреляции будет тем ниже, чем больше выборка исследования?

Как правило, да. Накапливаются неучтённые внешние факторы и постепенно коэффициент корреляции снижается.

2) Каков оптимальный (или так сказать, достойный) коэффициент корреляции, чтобы его можно было представить в качестве результата исследования?

Весь вопрос в том, какого рода выводы делаются из этого коэффициента. Вывод о том, что «между этим и этим есть какая-то связь» можно сделать из любого значимого коэффициента корреляции. Но сам по себе этот вывод имеет только теоретическое значение. Вот представьте себе следующую идею: «информация, попадающая в левое ухо, воспринимается менее критично, чем попавшая в правое». Получение значимых различий само по себе будет означать, что некая теоретическая схема, лежащая в основе этого различия, в чём-то близка к истине. Читать далее «Много буков про статистику и психологию»

Про пять процентов

Не могу не перепостить. Я всё время говорю студентам, что 5% — это просто потому что так принято, а не потому, что за этими 5% стоят какие-то закономерности. Ещё я думал, что это может быть связано с удобством приближённых вычислений в некоторых случаях (две сигмы). Но вот что пишет сегодня уважаемый :

Из книги Sample size for clinical trials: «Происхождение практики устанавливать уровень статистической значимости в 5% на самом деле не известно. Многое из того, что мы называем статистический выводом основано на работах Р.А. Фишера (1890-1962), который впервые использовал 5%-ный уровень статистической значимости как приемлемый для отклонения нулевой гипотезы. Согласно одной из теорий, 5% используется потому, что Фишер опубликовал статистические таблицы с различными уровнями статистической значимости, и 5% в них располагались в средней колонке (другая теория, столь же правдоподобная, состоит в том, что пять — количество пальцев на ноге Фишера)»

Продолжаю ковыряться в R

Я, наверное, мазохист, но я продолжаю разбираться с R. Вот, даже осилил провести Repeated Measures Anova:

1. Запустим Rcmdr
library(Rcmdr)
2. Загрузим файл для обработки:
e1 <- read.table("http://volokhonsky.ru/data/ex01.csv", header=TRUE) 3. Сформируем массив данных из двух зависимых переменных: dvm <- with (e1, cbind (o1,o2)) 4. Опишем многомерную линейную модель: mlm1 <- lm(dvm ~ 1) 5. Сформируем внутригрупповой фактор: rfactor <- factor(c("o1","o2")) 6. Загрузим библиотеку car library(car) 7. Выполним дисперсионный анализ: mlm1.aov <- Anova(mlm1, idata = data.frame(rfactor), idesign = ~rfactor, type="III") summary(mlm1.aov, multivariate=FALSE) Теперь осталось понять, как в этот синтаксис запихнуть межгрупповой фактор. Остальные варианты синтаксиса, которые я находил, позволяли запихнуть межгрупповой фактор, но они скорее выглядели как раз наоборот - как попытка протащить повторные измерения через одномерный ANOVA... То ли его на четвёртом шаге запихивать, то ли в конце... Ща буду копать мануалы, почувствую себя манулом. UPD: О! Получилось!!!! Вроде бы. Anova(lm(cbind(o1,o2)~hobbi*pol,data=e1),idata=data.frame(year=ordered(1:2)),idesign=~year)

Ненавижу

Тот день, когда я взялся пытаться пользоваться R. И тем более пытаться учить ему студентов. Два часа копания в мануалах не дали мне никакого ответа на простой вопрос — как создать из двух векторов активные данные? Вот у меня есть два вектора — X и Y, как сделать так, чтобы можно было к ним обращаться ex1$X и ex1$Y в R Commander. Я, однозначно, слишком туп для этого языка. Он какой-то неоднозначный. При попытке создать объект данных командой data(ex1) ругается, что нет данных, а как когда пытаюсь туда вписать данные, ругается, что нет такого объекта. Или что нет активных данных. Ладно, просто создам файл в другой программе, а сюда импортирую. Собственно, во всех мануалах это и описано. Но двух часов жалко. Это получается, что без двадцати двенадцать я только начинаю разбираться с тем, как там делать One-Way ANOVA. А должен был уже закончить и спать.

Матметоды: тудей-растудей

Вот сегодня картина была прямо противоположной вчерашней — треть «неуд».

— Владимир Львович, а я знаю, почему «политики» (политические психологи — прим. авт.) так плохо сдают!
— И почему же?
— Потому что вот им матметоды совершенно не нужны!

Сильно подозреваю, что политические психологи, которым совершенно не нужны матметоды, сами совершенно не нужны. За редкими исключениями. Впрочем, не знаю, рынок наверняка полон людей, которые умеют круто понтоваться и «консультировать».

Кстати, именно политические психологи чаще других применяют какие-то сильно задумчивые схемы обработки данных в своих дипломных исследованиях — попытки сравнить факторные структуры между группами, построить семантическое пространство проекции какого-то результата собственной фантазии в пораженное сознание респондентов и т.п.

Впрочем, практическое задание на этот раз было чуток потяжелее.

У нас такое теперь дополнительное задание — человек получает листочек с загадочными табличками из SPSS и пытается догадаться, что значат эти странные циферки. Вот например, сегодня было две таблички, одна называлась Total Variance Explained, вторая — Component Matrix. Особо талантливые решили, что это ANOVA, более изобретательные — что это множественная регрессия.

На кафедре делили нагрузку. Ключевая проблема наша заключается в том, что в ближайшем году нагрузки будет очень много, зато потом она начнёт резко падать. Так что, возможно, у меня отберут часть матметодов обратно на кафедру педагогики. Я, чтобы как-то расслабиться попросился вести практикум по эмоциям и чувствам. А то как-то надоело вести одно и то же из года в год, надо выбираться за пределы своего узкого кругозора. К тому же можно будет окучить студентов всеми творческими фантазиями, которые наплодит к тому моменту наиболее заметный исследователь эмоций . Да и объём там всего 12 часов, так что это меня не сильно нагрузит. Хотя представляю, как я буду чертыхаться, внезапно обнаружив в своём расписании через три дня вот это вот. Впрочем, может ещё и не срастётся.

Матметоды, матметоды

Что-то как-то удивительно-подозрительно много оценок «отлично» было сегодня. Больше половины. Внезапное резкое изменение свойств распределения меня настораживает.

Тем временем, я читаю поиск по блогам Яндекса с ключевым словом «матметоды». В этом году особенно милые результаты поиска (хотя наших студентов и немного, да и отличить порой трудно)…

Твит дня на тему матметодов:

учу матметоды с самым умным и интересным человеком в этом мире. он допил все вино и пошел за пивом) а я считаю корреляции и ненавижу шкалы

А вот это из Москвы:

Странная,беспокойная ночь..
Бешеная езда на машине по ночной Москве с двумя пьяными девушками на заднем сиденье..потом наезд на хачиков,пытавшихся влезть без очереди в макавто..далее опять полет сквозь тьму в сторону Домодедово.
Расклад неплохой-здоровая дача друга,2 часа ночи,девушки все еще пьяны..Я был бы не я,если бы не воспользовался этим! Так что лечь спать удалось только ближе к 7 утра..Все это время они учили меня решать проклятые задачи по матметодам! Сам я в ближайшую сотню лет точно бы в этом не разобрался,так что это был единственный шанс.

Ненавижу этот идиотизм

Прислали файл на обработку. Значения семи субтестов какой-то методики приведены все в одной ячейке, причём вот в таком вот оригинальном формате:

1=117,2=513=92,4=69,5=87,6=85 7=95