Помогите посчитать ошибку выборки

Слово и фраза:

Искать:

Сортировать по:

Форумы на Sostav.ru / Маркетинговые исследования / Помогите посчитать ошибку выборки

1 2 >

Profile

Lvovi4^©

Постов: 18
Дата регистрации: 25.08.2011

Не могу найти/сообразить как рассчитать ошибку выборки. Входные данные:
Проведено социологическое исследование. Выборка опрашиваемых была повторная, отбор единицами.
В числе прочих вопросов респонденты отвечали на вопросы типа: В каком магазине Вы чаще чего-нить делаете? И далее 10 вариантов ответа, в том числе вариант "иное" где респондент мог дать свой ответ(в нашем примере привести свое название магазина). Каждый респондент мог дать несколько вариантов ответа на данный вопрос.
Нужно посчитать ошибку выборки по данному вопросу.
Обычно ошибка выборки считается как корень отношения дисперсии к объему выборки. Но как в данном случае посчитать дисперсию - ума не приложу. Или может есть какой другой, кардинально иной подход?
Заранее благодарен за любую помощь, в том числе за то, где это можно прочитать.

Комментарий понравился?

25.08.2011 11:11

Profile

F3^©

Постов: 4827
Дата регистрации: 25.08.2004

для: Lvovi4©
Правильно. У Вас же шкала номинальная. Какая дисперсия? Только, ума не приложу, где Вы повторную выборку умудрились найти, она обычно бесповторная. Зачем Вам вероятность повторного опроса одних и те же респондентов. Вопрос скорее в том, собственно случайная у Вас была выборка или иная. Например, квотная.
Для последней по факту ошибку выборки рассчитать невозможно. Но обычно предполагают, что размер ее будет сопоставим с собственно случайной.
Для номинальных скал дисперсию заменяют произведением долей.

http://www.gortis.info/index.php?option=content&task=view&id=340

------------------
Отредактировано: F3 | 25.08.2011 18:55

--------
Следует отличать неразвитые мысли от тщательно развитых не-мыслей.

Комментарий понравился?

25.08.2011 18:54

Profile

Lvovi4^©

Постов: 18
Дата регистрации: 25.08.2011

Ок.Про произведение долей понял.
Про повторную выборку - списал слово с книжки. В теории подразумевалось, что ответивший респондент может еще раз оставить свое мнение (к примеру, другому интервьюеру). На практике, вероятность этого безусловно мала.
Тем не менее остался вопрос, а именно:
Если бы, к примеру, у меня был бы вопрос - "Вы кушаете овсянку по утрам" и два варианта ответа да/нет - то все понятно. Перемножаем доли,делим берем корень и все ок.
Но у меня вопрос подразумевает количество ответов более двух. Респондент, возращаясь к нашему примеру, может кушать свою овсянку по утрам, или днем, или вечерам, или, вообще, вставать ночью и есть-есть-есть. Как посчитать ошибку выборки в таком случае?
И еще более сложный вариант, когда он может есть свою овсянку несколько раз за день. Как тогда быть?

Комментарий понравился?

10.10.2011 17:24

Profile

Lvovi4^©

Постов: 18
Дата регистрации: 25.08.2011

Как вариант можно считать произведение долей по каждому пункту ответа (утро, вечер, день, ночь), а потом брать максимальное и с ним считать ошибку по данному вопросу? Может есть иной вариант действий?

Комментарий понравился?

10.10.2011 17:31

Profile

F3^©

Постов: 4827
Дата регистрации: 25.08.2004

для: Lvovi4©
Нет, Все проще. Вопрос меня раскладывается на ряд дихотомий в итоге. В Вашем случае кушают/не кушают по утрам и тд.
А считать можно сразу предельную. То есть, когда ответы распределились бы фифти/фифти. 50/50.

--------
Следует отличать неразвитые мысли от тщательно развитых не-мыслей.

Комментарий понравился?

12.10.2011 16:16

Profile

Lvovi4^©

Постов: 18
Дата регистрации: 25.08.2011

про фифти/фифти - хочется как-то без предельной.
Вы говорите, что вопрос раскладывается на ряд дихотомий. А что Вы дальше с этим рядом делаете? Считаете ошибку для каждого ряда? Какие-то иные математические действия?

Комментарий понравился?

13.10.2011 16:42

Profile

F3^©

Постов: 4827
Дата регистрации: 25.08.2004

для: Lvovi4©
Да, для каждого. Но я уже обяснил, что оценив предельную ее вполне можно использовать как стартовую точку. Если разница больше предельной, то она наверняка значима.
Теряю нить. ) Вам зачем вообще обсужение этого "сферического коня в вакууме"? ))

--------
Следует отличать неразвитые мысли от тщательно развитых не-мыслей.

Комментарий понравился?

13.10.2011 22:10

Profile

Lvovi4^©

Постов: 18
Дата регистрации: 25.08.2011

Сферический конь вот для чего нужен...
Я провел исследование (анкетирование). Определил размер выборки. И теперь нужно посчитать ошибку исследования, ошибку выборки.
Соответственно, вопросов в анкете было несколько (не считая тех, которые определяют характеристики респондентов: возраст, пол, доход и т.д.). Я посчитал ошибку для каждого вопроса и, в целом, по исследованию, взял максимальную из рассчитанных. В том числе, был и "вопрос" при расчете ошибки выборки по конкретному вопросу, в котором несколько вариантов ответов (то, что вы назвали раскладыванием на ряд дихотомий). В этом случае я тоже взял максимальную ошибку из ряда как ошибку по всему вопросу.
Вот такой конь. Хотел узнать, такой подход правильный ли...
Получается, что все всегда стремится к предельным случаям - которые фифти-фифти.

Комментарий понравился?

17.10.2011 10:31

Profile

F3^©

Постов: 4827
Дата регистрации: 25.08.2004

для: Lvovi4©
Сложно проникнуть в суть Ваших проблем. Но, если я правильно Вас понял, да, верно. Просто, если разница в показателях больше предельной ошибки, то она однозначно значима.
А Вы вообще понимает, зачем ошибку выборки считаете?

ЗЫ А не проще ли было к специалистам обратиться?
------------------
Отредактировано: F3 | 17.10.2011 21:21

--------
Следует отличать неразвитые мысли от тщательно развитых не-мыслей.

Комментарий понравился?

17.10.2011 21:21

Profile

Lvovi4^©

Постов: 18
Дата регистрации: 25.08.2011

Зачем считать ошибку выборки?...
Нет, не знаю.

Комментарий понравился?

25.10.2011 10:19

Profile

Togda^©

Постов: 30
Дата регистрации: 25.04.2010

Цитата, автор Lvovi4:
Обычно ошибка выборки считается как корень отношения дисперсии к объему выборки.

Это полная фантазия. Дисперсия (отклонение от средней) - это как раз исследуемое свойство признака в генеральной совокупности - она не зависят, не связана с размером выборки.

См, например: Ильясов Ф. Н. Репрезентативность результатов опроса в маркетинговом исследовании // Социологические исследования. 2011. № 3. С. 112-116. http://www.iliassovfn.narod.ru/article/reprez.html

Комментарий понравился?

16.12.2011 15:59

Profile

F3^©

Постов: 4827
Дата регистрации: 25.08.2004

для: Togda©
Прошу прощения. Но это, как раз Вы фантазируете.
Яндекс Вам в помощь. Хотя все необходимые доказательства есть по ссылке, что я в свое время привел.
Но, если этого недостаточно, поисковик докажет, Вам, что Вы ошибаетесь.
Цитата из приведенной Вами статьи: "Как известно для изучения более гомогенной генеральной совокупности требуются выборки меньшего размера." Говорит о том же. Хотя ее автор и трактует "гомогенность" достаточно вольно.
Приведенные им расчеты не опровергают базовых принципов матстатистики. Он просто пытается по новой "открыть" теорию малых выборок. Умиляем использование им % подвыборки. Если бы он имел дело с набором испытаний (как вариант 1 тыс., 2 тыс., 5 тыс. респондентов), тогда апелляция к этому показателю имела бы смысл.
Наконец,,= автор, как первокурсник, сокрушается: "Корректно измерить «в %» ошибку репрезентативности распределения ответов на конкретный вопрос, основываясь на результатах опроса, без знания распределения в генеральной совокупности, невозможно (а, если исследователю известно распределение в генеральной совокупности, то проведение опроса теряет смысл)." Как-будто ему не известны базовые принцы построения квотных выборок. И он не знает практике использования связи признаков.

Финальный вывод: «Выборка для вопроса «х» репрезентативна для одномерного распределения, при размере случайной подвыборки равной 60%» - вообще оксюморон. Так как не ясно, какого числа следует в дальнейшем считать эти 60% в дальнейшем?

PS Единственное, что меня останавливает в этой истории - место публикации. "Социс" все таки. Потому оставляю дверь открытой. И все же посоветуюсь со "старшими товарищами". ;) Но это касается именно статьи, а не Ваших нападок на классическую формулу расчета выборки для метрических шкал. Тут, явно, без вариантов. Именно дисперсия или ее производная - среднеквадратическое отклонение, определяют размер выборки.
------------------
Отредактировано: F3 | 16.12.2011 19:47

--------
Следует отличать неразвитые мысли от тщательно развитых не-мыслей.

Комментарий понравился?

16.12.2011 19:45

Profile

Togda^©

Постов: 30
Дата регистрации: 25.04.2010

для: F3©
// Именно дисперсия или ее производная - среднеквадратическое отклонение, определяют размер выборки.//

1) А откуда вы узнаете дисперсию вашей КОНКРЕТНОЙ генеральной совокупности?
2) Того хуже – дисперсию чего? Ведь нет же абстрактной дисперсии, только конкретного признака. Какого признака (показателя) и как вы узнаете дисперсию до опроса?
3) Допустим, вам надо узнать потребительские предпочтения по газировкам (типа Кока, Пепси, Тархун и проч.) – это ваша ген. совокупность. Распределение потребителей по предпочтениям – это распределение по номинальной шкале – но оно не имеет (не может иметь) средней и, соответственно, дисперсии. И как вы будет «определять размер выборки по дисперсии»?
4) Определение размера выборки в мат. статистике и в социологии – «две большие разницы». Мат. статистика построена на гипотезе «правильного» нормального распределения, а в социологии большинство признаков не подчиняются нормальному распределению. Но даже, если бы и подчинялись – см. пункты 1, 2 выше.

Комментарий понравился?

16.01.2012 14:17

Profile

F3^©

Постов: 4827
Дата регистрации: 25.08.2004

для: Togda©
Тут не о чем спорить.
Приведенная Вами статья Ильясова - БСК.
Не стоит тень на плетень наводить.
То, что Вы не знаете точного значения дисперсии, не означает, что Вы не в состоянии его спрогнозировать, на основании ранее проведенных наблюдений или на основании близких к исследуемому показателей.
Относительно пункта 3. Для номинальных шкал в расчетах используется произведение p на (1-p). Доля пьющих газировку соотвествующего вкуса (марки) умноженная на долю непьющих воду с таким вкусом (маркой). Что также является мерой разбоса признака. При этом максимальным разброс является тогда, когда совокупность делится ровно пополам в своих пристрастиях.

--------
Следует отличать неразвитые мысли от тщательно развитых не-мыслей.

Комментарий понравился?

16.01.2012 16:55

Profile

Togda^©

Постов: 30
Дата регистрации: 25.04.2010

для F3

1) Спрогнозировать не значит измерить. Прогноз - это гипотеза, она может быть ошибочной. И речь совсем не об этом.

2) Повторюсь, использование дисперсии основано на модели нормального распределения, а его в социологии чаще всего нет.

3) Когда вы рассчитываете размер выборки по вашим мат. формулам – они не имеют НИКАКОЙ связи с реальной ген. совокупностью, реальной выборкой, реальным распределение признаков – это мат. абстракции.

4) В анкете признаков много – у каждого свой уровень дисперсии – какой признак должен браться для расчёта «вашей» дисперсии? НИКАКОЙ – потому, что формулы не учитывают этого даже теоритически.

5) О номинальной шкале. Например, имеем распределение потребителей:
Коку пьют 24%
Пепси 20%
Лимонад 10%
Тархун 4%
Как вы рассчитаете среднюю величину (что будет «средней величиной»)? Не говоря об отклонении от неё (дисперсии)…

(Спасибо за дискуссию - это интересно)

Комментарий понравился?

17.01.2012 01:48

Profile

F3^©

Постов: 4827
Дата регистрации: 25.08.2004

Неполное знание много страшнее полного незнания. :(
для: Togda©
1.Давайте сначала. Для чего рассчитывают ошибку выборки? Ответ: 1. для оценки точности изменений. 2. для определения размера выборки
В обоих случаях прогнозных оценок, как правило, вполне достаточно.
2. Вы услышали об отсутствии нормального распределения и прониклись этим фактом. А Вы сами поняли, что это такое? Учитывая тот факт, что Вы "плаваете" в куда более тривиальных вещах, складывается ощущение, что не в полной мере. Ничего личного. Исключительно факты.
Так вот. Куда страшнее тот факт, что в ходе выборочного исследования в реальной практике крайне сложно обеспечить равную вероятность попадания единиц в генеральную совокупность. Это на точность результатов влияет явно сильнее типа распределения.
3. Мир вообще... непознаваем! ))) С этого места подробнее. Что такое реальная генсовокупность? Реальная выборка? И реальное распределение? Есть матаппарат - это набор инструментов, который следует использовать корректно, осознавая их возможности и ограничения. Зачем кликушествовать и устраивать разоблачения на пустом месте?
4. Да, в анкете много вопросов. Непосвященного это может расстраивать. А еще сложные вопросы нередко раскладываются на ряд простых (как в Вашем примере с газировкой, ваша формулировка выяснения потребительских предпочтений не оч. удачная, но мы сейчас не об этом). У каждого свой уровень. Все верно. Потому и брать следует максимальный уровень разброса. Если речь о расчете размера выборки (то есть 50/50). Разумеется, если это позволяют финансы. Для оценки же точности. При сравнении 2-х значений тоже берется большая ошибка, но уже из 2-х. То, что кому-то не до конца ясно, как следует проводить расчеты, не свидетельствует об их принципиальной бесполезности. Собственно, расчет ошибки не самоцель, а лишь возможность проверить значимо ли выявленное различие.
5. Я уже ответил. В данном случае следует ориентировать на ошибку для 24%. Общее правило, я Вам называл и повторюсь еще раз. Чем ближе к 50%, тем больше ошибка. При этом считается она зеркально, и величина ошибки для 4% и 96%, 10% и 90%, 20 и 80, 24 и 76% будет равной.

--------
Следует отличать неразвитые мысли от тщательно развитых не-мыслей.

Комментарий понравился?

17.01.2012 17:02

Постов: 15
Дата регистрации: 26.05.2009

Позволю немного вклинится в дискуссию.
для: Togda
по п.2. "Распределение признака" это одно, а "распределение его выборочной средней (выборочной доли)" это другое. Распределение признака может быть любым. Для использования выборочного метода это неважно. Важно другое, доказано, что распределение выборочной средней подчиняется нормальному закону распределения (для любого распределения признака).
P.s. Присоединяюсь к F3
Подобная тема уже была и обсуждалась http://www.forumsostav.ru/12/34879/
------------------
Отредактировано: Stics | 17.01.2012 22:33

Комментарий понравился?

17.01.2012 22:32

Постов: 30
Дата регистрации: 25.04.2010

Для F3
1) Для чего рассчитывается ошибка выборки? Какие показатели используются для измерения ошибки выборки? – отклонение соцдема от имеющейся статистики по генсовокупности. Реально на этом список показателей заканчивается. Размер выборки здесь притянут за уши – функциональной связи с реальными эмпирическими данными генсовокупности здесь нет. размер выборки на практике определяется исходя из опыта проведённых опросов.
2) Приведите пример хотя бы одного социологического показателя, который имел нормальное распределение.
3) Генсовокупность – то, что исследователь таковой считает.
4) опять газировка - Например, имеем распределение потребителей:
Коку пьют 24%
Пепси 20%
Лимонад 10%
Тархун 4%
Как определить - выборка репрезентативна или нет? Конкретный расчёт, а не умствования. (Не нравится газировка – возьмите президентские рейтинги – сейчас их много и никто не может понять репрезентативные они или нет – откройте миру истину!)

Для Stics©
1) Что такое а) «выборочная средняя»? б) её распределение?
2) Приведите пример хотя бы одного социологического показателя, который имел нормальное распределение.

Комментарий понравился?

30.01.2012 13:42

Profile

F3^©

Постов: 4827
Дата регистрации: 25.08.2004

--------
Следует отличать неразвитые мысли от тщательно развитых не-мыслей.

Комментарий понравился?

30.01.2012 14:57

Постов: 15
Дата регистрации: 26.05.2009

Цитата, автор Togda:
Для Stics©
1) Что такое а) «выборочная средняя»? б) её распределение?
2) Приведите пример хотя бы одного социологического показателя, который имел нормальное распределение.

1) а) "выброчная средняя" - это средняя расчитанная на основе данных выборки. б) пусть из одной генсовокупности извлекаются m выборок. Для каждой из m выборок рассчитывают среднюю. В итоге получают m значений выборочных средних. Вот это вот распределение выборочных средних и подчиняется нормальному закону распределения независимо от того какому закону распределения подчиняется исходный признак генсовокупности. Именно на этом (подчинении выборочных средних нормальному закону распределения) и построена формула расчета предельной ошибки выборки.
2) прменение выборочного методы не зависит от закона распределения исходного признака. Оно может быть любым.
для F3: согласен, что ходим по кругу. Видимо дальнейшее обсуждение в подобном ключе бессмысленно

Комментарий понравился?

04.02.2012 09:36

1 2 >

В настоящий момент эту тему просматривают: участников - 0, гостей - 120.

Только зарегистрированные пользователи могут оставлять сообщения в этом форуме

Форумы на Sostav.ru / Маркетинговые исследования / Помогите посчитать ошибку выборки

© "ООО Состав.ру" 1998-2026

тел/факс: +7 495 225 1331 адрес: 109004, Москва, Пестовский пер., д. 16, стр. 2

При использовании материалов портала ссылка на Sostav.ru обязательна!
Администрация Sostav.ru просит Вас сообщать о всех замеченных технических неполадках на E-mail