SPSS: факторный анализ

Mikhail57

Где, производя факторый анализ, программа пишет, какой процент дисперсии объясняется каждым фактором?!

a7137928

Когда делаешь Principal components, в диалоговом окне снизу есть кнопочки Options, Statistics и еще что-то. Попробуй нажать на эти кнопочки и проставить там все галочки. Нужная тебе табличка точно есть. Кажется, там даже можно ограничить количество выводимых факторов, чтобы те, которые объясняют меньше какого-то процента дисперсии, не выводились.
Под рукой сейчас нету спсс, а то бы точно сказал.

Mikhail57

Я разобралась, спасибо!

Mikhail57

Народ. может, объяснит кто: что значит 3-я выводимая таблица. К примеру, такая
Component Transformation Matrix
Component
1 2
1 ,710 ,408
2 -,103 ,517
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
По идее, это должны быть корреляции между факторами, тогда почему они не совпадают: например, корреляция 1-2 -не совпадает с корреляцией 2-1?

gala05

это не корреляции между факторами
поботай теорию факторного анализа

a7137928

Те 1 и 2, что по строке - это главные компоненты.
Те 1 и 2, что по столбцу - это имена переменных. Сделай текстовые имена, чтобы не путать.
Таблица показывает корреляции между переменными и "rotated principal components". Или, что то же самое, косинусы углов между вектором переменной и (базисными) векторами главных компонент. Сумма квадратов чисел в каждой строке равна 1 (ну или меньше 1, если не все главные компоненты выведены).
Еще есть такая фича: дабл-клик на таблицу, в меню Help/Results coach. Написано мало, но во многих случаях помогает.

a7137928

А корреляции между факторами равны нулю, на то они и факторы. Они ведь должны быть независимы, иначе какой в этом всем смысл.

Mikhail57

Спасибо огромное! Но как я понимаю, те корреляции, о которых ты говоришь, показывает 2 таблица Rotated Component Matrix.
Но меня то и напрягло, что в третьей таблице столбцов всегда столько, сколько строк и сколько факторов. например, 6 факторов, 6 столбцов и 6 строк
Component Transformation Matrix
Component 1 2 3 4 5 6
1 ,696 ,551 ,361 ,161 -,120 ,205
2 -,015 -,487 ,489 ,508 ,393 ,331
3 ,421 -,351 -,577 -,116 -,051 ,592
4 ,190 ,108 ,015 -,497 ,836 -,083
5 ,191 ,122 -,513 ,654 ,298 -,411
6 -,516 ,556 -,183 ,167 ,204 ,568
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
А факторы могут быть более или менее независимыми. Могут положительно коррелировать или отрицательно

a7137928

Ага, я невнимательно прочитал.
Вот эта матрица трансформации компонентов - это не что иное, как матрица перехода от одного ортонормированного базиса к другому (легко видеть, что это ортогональная матрица).
Я боюсь напутать, но вроде так: сначала СПСС определяет ранг ковариационной матрицы исходных переменных, это будет размерность подпространства в гильбертовом пространстве L_2, натянутого на исходные переменные, которые рассматриваются как элементы L_2. Потом он ищет в этом подпространстве замену координат, приводящую ковариационную матрицу исходных переменных к диагональному виду, то есть ищет главные оси (principal components).
После этого начинается "вращение" базиса главных компонент каким-нибудь алгоритмом (например, "варимакс") с целью сориентировать главные компоненты как-нибудь более удобно, чем они могут быть сориентированы изначально. Вот эту матрицу вращений он и вывел.
Надо, в общем, книжку почитать и разобраться еще раз.
А факторы не могут коррелировать положительно или отрицательно. Факторы (главные значения) - это ортогональный базис в L_2, поэтому их скалярное произведение Exy (а там это не что иное, как ковариация Cov(x,y потому что перед началом всех процедур из независимых переменных вычитаются их мат. ожидания, чтобы сделать E x_i=0) всегда равно нулю.
Другое дело, что факторы, имея нулевую корреляцию, могут быть зависимы. Но поскольку все всегда разрабатывается для гауссовской модели, то факторы считаются независимыми.

Mikhail57

Это очень обстоятельно. Респект
Если бы еще вспомнить, что есть гильбертовое пространство и гауссовская модель...
Остается непонятным: как конкретно эту третью таблицу использовать для интерпретации данных.
И еще: факторы могут быть более или менее независимы? Где смотреть соответствующие коэффиц-ты.
И как с учетом всего откомментированного понимать такую, например, выдержку из известной работы нашего авторитетного ученого (единственного академика РАН из психологов МГУ): "Выделенные факторы оказались достаточно независимыми. Так, коэффициент корреляции факторов составлял в среднем 0,2 и не превышал 0, 38, что позволяет говорить об их относительной ортоганальности"

Mikhail57

Еще мне не совсем понятно, говорит ли о значимости фактора то, какой процент дисперсии им объяснен.

a7137928

Если бы еще вспомнить, что есть гильбертовое пространство и гауссовская модель...

Гауссовская модель - (далее идет математически неточное, но приемлемое на практике определение) это когда мы предполагаем, что все наши переменные имеют нормальное (гауссовское) распределение. Следствий отсюда два:
- все простые преобразования, например, линейные комбинации исходных переменных, тоже будут иметь нормальное распределение. Principal components - это линейные комбинации исходных переменных с какими-то коэффициентами, поэтому они тоже нормально распределены.
- некоррелированность (ортогональность) двух нормальных величин будет означать их независимость.
Еще мне не совсем понятно, говорит ли о значимости фактора то, какой процент дисперсии им объяснен.

Ну наверное говорит. Обычно на факторы, объясняющие малый процент дисперсии, не обращают особого внимания.
Таблица Component Transformation Matrix может нам понадобиться, наверное, для вычислительных целей. Например, мы хотим на выходе получить несколько самых главных факторов, для этого надо уметь вычислять значения факторов по исходным переменным. Тут нам могут пригодиться таблицы. У меня сейчас под рукой нет СПССа и книжки по нему, завтра, если будет время, почитаю, потому что я не все помню, и наверняка где-нибудь навру.
Насчет цитаты профессора: вот даешь этим психологам тонкий, математически безупречный инструмент, а они им потом гвозди забивают
Во-первых, факторный анализ в идеале должен применяться только в гауссовской модели, то есть, для начала нам надо проверить, что все переменные нормально распределены. На практике, я так подозреваю, это далеко не всегда выполняется и даже не всегда проверяется.
Во-вторых, тут важную роль может играть контекст. Например, у нас было три переменных x,y,z. И мы получили фактор f=0.569x + 0.803y - 0.177z. Но это все некрасиво как-то, и для упрощения формул мы сделали f=0.6x+0.8y. Если мы таким образом "упростим" формулы, то между факторами уже не будет нулевой корреляции, но она будет близка к нулю.
*************************
Вот будет прикольно, если я завтра прочитаю книжку, и окажется, что я вообще все неправильно понимаю

Mikhail57

ну дела! Ты уверен про обязательность нормального распределения? Я такого требования нигде не встречала. Вообще, это же принципиальная вещь.Пойду сегодня тоже книжки перечитывать

a7137928

Так уж и нигде не встречала? Может, просто внимания не обращала?
Между прочим, требование нормальности участвующих распределений очень много где присутствует. Например, строишь ты доверительный интервал на уровне 95% для среднего по выборке с известной дисперсией s:
(a-1.96s;a+1.96s где a - выборочное среднее.
Так вот, это будет действительно доверительным интервалом на уровне 95%, если ты имеешь выборку из нормального распределения.
Доверительный интервал по статистике Стьюдента для выборки с неизвестной дисперсией тоже строится в предположении нормального распределения. И t-test для проверки гипотезы о равенстве средних двух независимых выборок, и F-тест для гипотезы о равенстве дисперсий, и ANOVA - все это предполагает нормальность распределений.
Другое дело, что для практических целей нам не всегда нужно, чтобы формулы были безупречно верны. Все равно ведь все выполняется с какой-то вероятностью. Ну пусть твой доверительный интервал будет на самом деле не 95%, а 92%, ну и ладно. Поэтому ограничиваются тем, что работают с более-менее симметричными унимодальными распределениями без выбросов, которые "похожи на нормальное".
Вернемся к факторному анализу. Я почитал книжечку, в целом написанное выше верно, хотя с терминологией я безобразно обращаюсь.
Еще раз, что делает метод главных компонент:
1. Берем матрицу корреляций (или ковариаций) A исходных случайных величин x_1..x_n и находим "главные оси", то есть новые переменные у_1..y_n (каждая из которых есть линейная комбинация исходных переменных которые будут ортогональны (некоррелированы). Каждая новая переменная y_i есть собственный вектор матрицы A, отвечающий собственному значению lambda_i, эта же лямбда есть дисперсия y_i. Лямбду можно интерпретировать как количество исходных переменных (иксов за которое "отвечает" игрек.
2. Упорядочиваем y_i по убыванию их дисперсий. Каждое y_i "объясняет" процент дисперсий, равный lambda_i/(lambda_1+..lambda_n). После этого часто откидывают главные оси с маленькими лямбдами. Обычно либо оставляют небольшое число игреков, несколько штук, либо отбрасывают все игреки, у которых соответствующие лямбды меньше единицы.
3. Собственно, эти игреки (главные компоненты) и есть факторы. Но на практике работать с ними (искать им словесную интерпретацию) не очень удобно, может оказаться, что "нагрузки" (корреляции с исходными переменными) не так распределены, как нам бы хотелось. Например, первый фактор "нагружает" все исходные переменные (имеет большую корреляцию с ними второй тоже, но корреляции меньше. Пример "неудачной" матрицы нагрузок:
переменная, y_1, y_2
x_1, 0.853,0.259
x_2, -0.701,0.421
x_3, 0.540,-0.511
А мы бы хотели, чтобы первый фактор нагружал, допустим, первые пять исходных переменных, второй - следующие пять, и так далее. Тогда мы могли бы сказать: вот, мы нашли несколько факторов, первый фактор лежит в основе вот этих переменных, второй фактор - вон тех переменных, и факторы независимы, вот как замечательно. Поэтому мы делаем "rotation", и получаем другие факторы:
переменная, f_1, f_2
x_1, 0.914,0.086
x_2, 0.654,-0.289
x_3, 0.191,-0.720
В этот момент новые факторы f_1,f_2 еще ортогональны (а если все распределения нормальны, то они и независимы). Но тут мы говорим: будем считать, что первый фактор отвечает за первые две переменных, второй отвечает за третью переменную. А ведь у нас еще есть формулы для вычисления факторов через исходные переменные, и мы выкидываем из формулы для первого фактора переменную x_3, а из формулы для второго фактора - переменные x_1,x_2. Вот после этого факторы становятся "более или менее независимыми".

Mikhail57

Ух, сейчас совсем запутаюсь % Это перегруз для моей системы восприятия и переработки математики ,в частности теории матриц . Благодарю за ликбез)
На самом деле, про предположения нормальности распределения в указанных случаях:
Доверительный интервал по статистике Стьюдента для выборки с неизвестной дисперсией тоже строится в предположении нормального распределения. И t-test для проверки гипотезы о равенстве средних двух независимых выборок, и F-тест для гипотезы о равенстве дисперсий, и ANOVA - все это предполагает нормальность распределений.

я была в курсе. А вот про факторный анализ - это для меня было откровением. Хотя я согласна, что скорее, не обращала внимания.
Остальное мне нужно переварить Задам вопросы позже
И все-таки я не пойму: почему факторы не могут коррелировать. Формально, из предыдущих математических комментариев, все логично выстраивается и понятно. Однако если проанализировать реальные эмпирические данные, почему бы не допустить взаимосвязь факторов? Более того, если учесть, что часто факторный анализ используется /в психологии / для проверки структры теста, и в случае, когда тест должен строго измерять ОДНО, заявленное в нем, качество, то факторы ОБЯЗАНЫ коррелировать хоть как-то. имхо.
PS. Еще один нескромный вопрос: ты не знаком, случайно, с программами структурного моделирования? Никак не разберусь с факторным анализом в LISREL.

a7137928

Я вот подумал... Наверное я неправ, все-таки нельзя сказать, что требование нормальности в факторном анализе абсолютно необходимо. Ну то есть в t-тесте без нормальности у нас t-статистика не будет распределена по Стьюденту, а факторный анализ мы можем проводить на любых данных.
Просто из прочитанного мной получается, что одна из самых полезных задач, которую можно решить - это разбить все переменные на группы, каждая группа будет определять один из факторов, и факторы должны быть независимы между собой. Как раз для независимости факторов нам нужны нормальные распределения (тогда из некоррелированности будет следовать независимость). Но это, наверное, слишком узкая точка зрения, и факторный анализ можно использовать для других задач, где допускается коррелированность факторов.
Со структурным моделированием не знаком.

Mikhail57

Появился еще вопрос по сабжу.
В каких случаях конструктивнее использовать ортоганальное вращение, в каких косоугольное? Почему-то не встречала в психологии ничего кроме варимакса.

disepa

Где лучше получится для интерпретации, то и используй. (хоят могу ошибаться)