3.4. Принципы построения статистических группировок и классификаций
Приемы проведения статистических группировок весьма разнообразны. Это связано с разными задачами, которые в соответствии с целью исследования ставятся перед группировками.
Группировочным признаком называется признак, по которому проводится разбивка единиц совокупности на отдельные группы. Его часто называют основанием группировки. От правильного выбора группировочного признака зависят выводы, которые получают в результате статистического исследования.
В качестве основания группировки следует использовать существенные признаки. В каждом конкретном исследовании включение признака в состав группировочных должно быть теоретически обосновано. Только на базе теоретического анализа экономических законов развития исследуемого явления можно правильно определить состав признаков.
В основание группировки могут быть положены как количественные, так и качественные признаки. Первые имеют числовое выражение (объем торгов, курс доллара в рублях, возраст человека, денежный доход семьи и т. д.), а вторые отражают состояние единицы совокупности (пол человека, его национальность, семейное положение, отраслевая принадлежность предприятия, его форма собственности и организационно-правовая форма и т. д.).
После определения основания группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность.
Число групп зависит от задач исследования и вида признака, «множенного в основание группировки, численности совокупности, степени вариации признака.
Единицы анализируемого объекта могут быть разбиты по одному и тому же признаку на разное число групп. Например, при группировке населения по возрасту с целью определения рудовых ресурсов страны все население в практической статигике делится на три группы: население моложе трудоспособноговозраста, трудоспособное население и население старше трудоспособного возраста. Если же анализируется продолжительность жизни, то строится более детальная группировка и выделяются пятигодичные группы.
При построении группировки по качественному признаку групп, как правило, будет столько, сколько имеется градаций, видов, состояний у этого признака. Например, в случае проведения группировки населения по полу можно образовать только две группы: мужчины и женщины. Если проводится группировка производства товаров народного потребления по экономическим районам, то вся исследуемая совокупность делится на 11 групп: именно на столько экономических районов поделена территория страны.
От группировок следует отличать классификацию. Классифнкацией называется систематизированное распределение явлений и объектов на определенные группы, классы, разряды на основании их сходства и различия.
Отличительной чертой классификации является, во-первых, то, что в основу ее кладется качественный признак. Во-вторых, классификации стандартны. Они устанавливаются органами государственной и международной статистики. Если в каждом конкретном исследовании строится своя группировка, то классификация едина для любого исследования независимо от того, проводят ли его органы государственной статистики или другие учреждения и ведомства (министерства, налоговые органы и т. п.). В-третьих, классификации устойчивы, Они остаются неизменными в течение длительного времени. Однако если появляются новые группы единиц, их классы, разряды, то в классификации вносятся соответствующие изменения и дополнения.
Классификация, предопределяя важнейшие признаки группировки единиц совокупности, является основой группировок. В классификации точно определены всевозможные группы и имеются подробные указатели, которые помогают отнести любую единицу объекта в ту или иную группу в каждом конкретном случае.
Если группировка проводится по количественному признаку, то необходимо обратить особое внимание на число единиц исследуемого объекта и степень колеблемости группировочного признака.
При небольшом объеме совокупности не следует образовывать большое число групп, так как группы будут малочисленными. Поэтому показатели, рассчитанные для таких групп, не будут представительными и не позволят получить адекватную характеристику исследуемого явления.
Часто группировка по количественному признаку имеет задачу отразить распределение единиц совокупности по этому признаку. В данном случае количество групп зависит в первую очередь от степени колеблемости группировочного признака: чем больше его колеблемость, тем больше следует образовать группу (Степень колеблемости признака измеряется показателями вариации) Чем больше групп,
тем точнее будет воспроизведен характер исследуемого объекта. Однако слишком большое число групп затрудняет выявление закономерностей при исследовании социально-экономических явлений и процессов. Поэтому в каждом конкретном случае при определении числа групп следует исходить не только из степени колеблемости признака, но еще учитывать и особенности объекта и цель исследования.
При использовании компьютеров для обработки статистических данных группировка единиц объекта проводится с помощью стандартных процедур.
Одна из таких процедур основана на использовании следующей формулы Стерджесса для определения оптимального числа групп:
n = 1 + 3,322 • IgN, (3.1)
где n - число групп;
N - число единиц совокупности.
Согласно формуле (3.1), выбор числа групп зависит от объема совокупности.
Недостаток формулы состоит в том, что ее применение дает хорошие результаты, если совокупность состоит из большого числа единиц и распределение единиц по признаку, положенному в основание группировки, близко к нормальному.
Другой способ определения числа групп основан на применении показателя среднего квадратического отклонения (σ). Если величина интервала равна 0,5σ, то совокупность разбивается на 12 групп, а когда величина интервала равна 2/З σ и σ, то совокупность делится соответственно на 9 и 6 групп.
Если совокупность разбивается на 12 групп, то интервалы групп строятся следующим образом:
где - среднее значение признака по совокупности, которое определяется по формуле
где Х i - i-е значение варьирующего признака;
σ - среднее квадратическое отклонение; согласно формуле (7.6):
Когда число групп равно 6, получаются следующие интервалы групп:
Эти методы не дают гарантии в том, что не будут сформированы «пустые» или малочисленные группы. «Пустыми» считаются группы, в которые не попала ни одна единица совокупности. Наличие таких интервалов свидетельствует, что группировка построена неправильно.
После определения числа групп следует определить интервалы группировки.
Интервал - это значения варьирующего признака, лежащие I определенных границах. Каждый интервал имеет свою величину, верхнюю и нижнюю границы или хотя бы одну из них, Нижней границей интервала называется наименьшее значение признака в интервале, а верхней границей - наибольшее значение признака в нем. Величина интервала (ее еще часто называют интервальной разностью) представляет собой разность между верхней и нижней границами интервала.
Интервалы группировки в зависимости от их величины бывают равные и неравные. Последние делятся на прогрессивно возрастающие, прогрессивно убывающие, произвольные и специализированные.
Если вариация признака проявляется в сравнительно узких границах и распределение носит более или менее равномерный характер, то строят группировку с равными интервалами.
Величина равного интервала определяется по следующей формуле:
где R = Хmах - Xmin, т. е. размах вариации;
Хmах, Xmin - максимальное и минимальное значения признака в совокупности.
Прежде чем определять размах вариации, из совокупности рекомендуется исключить аномальные наблюдения.
Если максимальные или минимальные значения сильно отличаются от смежных с ними значений вариантов в упорядоченном ряду значений группировочного признака, для определения величины интервала следует использовать не максимальное и минимальное значения, а значения, несколько превышающие минимум и несколько меньшие, чем максимум.
Полученную по формуле (3.2) величину округляют. Она являтся шагом интервала.
Существуют следующие правила определения шага интервала.
Если величина интервала, рассчитанная по формуле (3.2), представляет собой величину, имеющую один знак до запятой (например, 0,66; 1,372; 5,8), то полученные значения целесообразно округлить до десятых и их использовать в качестве шага интервала. В приведенном выше примере шагом интервала будут соответственно значения 0,7; 1,4; 5,8.
Когда рассчитанная величина интервала имеет две значащие цифры до запятой и несколько знаков после запятой, то это значение надо округлить до целого числа. Пусть величина интервалом, исчисленная по формуле (3.2), равна 12,785. Тогда это значение следует округлить до целого числа, т. е. до 13.
В случае когда рассчитанная величина интервала представляетсобой трехзначное, четырехзначное и так далее число, эту величину необходимо округлить до ближайшего числа, кратного 100 или 50. Например, 248 следует округлить до 250.
Рассмотрим пример. Пусть требуется произвести группировку с равными интервалами предприятий по стоимости основных фондов, при этом максимальное значение признака равно 2040 млн. руб., а минимальное его значение - 290 млн. руб. Совокупность включает 80 единиц. Согласно формуле (3.1) она должна быть разбита на 7 групп. Сначала следует найти:
R = 2040 - 290 = 1750 млн руб.
Затем определим величину интервала:
h = 1750 : 7= 250 млн руб.
После этого построим интервалы групп (табл. 3.8).
Таблица 3.1
Варианты построения групп
№ группы
I вариант
II вариант
I
От 290 до 540
До 540
II
540 790
540 - 790
III
790 1040
790 - 1 040
Iv
1 040 1 290
1040-1290
V
1 290 1 540
1290-1540
VI
1 540 1 790
1 540 - 1 790
VII
1 790 2 040
1 790 и более
Чтобы не писать каждый раз от ... до, границы групп обозначают следующим образом: 290 - 540, 540 - 790 и т. д.
Особенностью первого варианта построения групп является то, что у всех групп имеются закрытые интервалы. Во втором варианте первая и последняя группы - это группы с открытыми интервалами.
Открытые - это те интервалы, у которых указана только одна граница: верхняя - у первого, нижняя - у последнего. Например, открытыми будут первый и последний интервалы в группировке населения по размеру среднедушевого дохода (табл. 3.3).
Закрытыми называются интервалы, у которых обозначены обе границы.
Ширина открытого интервала принимается равной ширине смежного с ним интервала.
При группировке по количественному признаку границы интервалов могут быть обозначены по-разному. Если основанием группировки служит непрерывный признак, то одно и то же значение признака выступает и верхней, и нижней границами у двух смежных интервалов. Таким образом, верхняя граница i-гo интервала равна нижней границе i + 1-го интервала. Примером такой группировки является приведенная ранее группировка предприятий по стоимости основных фондов.
При таком обозначении границ может возникнуть вопрос, в такую группу включать единицы объекта, значения признака у когорых совпадают с границами интервалов. Например, во вторую или третью группу должно войти предприятие со стоимостью фондов 790 млн руб. Если нижняя граница формируется по принципу «включительно», а верхняя - по принципу «исключительно», то предприятие должно быть отнесено к третьей группе, в противном случае - ко второй. Для того чтобы правильно отнести к той или иной группе единицу объекта, у которой значение признака совпадает с границами интервалов, можно использовать открытые интервалы. Так, единицы объекта (табл. 3.3), у которых размер среднедушевого денежного дохода равен 40 тыс. руб., попали во вторую группу (так как верхняя граница первой группы построена по принципу «исключительно»), а 80 тыс. руб. - в третью группу и т. д.
Если в основании группировки лежит дискретный признак, то нижняя граница i-ro интервала равна верхней границе i-1-го интервала, увеличенной на 1.
Например, пусть совокупность состоит из 80 предприятий и ее надо разделить на группы по численности занятых. Минимальное и максимальное значения группировочного признака соответственно равны 290 и 2040 человек. В этом случае возможны следующие варианты построения групп (табл. 3.9).
Таблица 3.9
Варианты построения групп
№ группы
I вариант
II вариант
I
290 - 540
До 541
II
541-790
541-790
III
791 - 1040
791 - 1040
IV
1041 - 1290
1041 - 1290
V
1291 - 1540
1291-1540
VI
1541 - 1790
1541 -1790
VII
1791-2040
1791 и более
Неравные интервалы применяются в статистике, когда значения признака варьируют неравномерно и в значительных размерах, что характерно для большинства социально-экономических явлений, особенно при анализе макроэкономических показателей.
Неравные интервалы могут быть прогрессивно возрастающие или убывающие в арифметической или геометрической прогрессии. Величина интервалов, изменяющихся в арифметической прогрессии, определяется следующим образом:
hi+1 = hi + a; (3.3)
в геометрической прогрессии:
hi+1 = hi • q, (3.4)
где а-константа - число, которое будет положительным при прогрессивно возрастающих интервалах и отрицательным при прогрессивно убывающих интервалах;
q -константа -
положительное число, которое при прогрессивно возрастающих интервалах будет больше 1, а при прогрессивно убывающих - меньше 1I.
Например, если необходимо построить группировку предприятий отрасли по показателю выручки от реализации продукции, который варьирует от 500 млн руб. до 4 000 млн руб., то строить группировку с равными интервалами нецелесообразно, потому что, как правило, совокупность предприятий любой отрасли промышленности, торговли включает большое число малых предприятий, имеющих небольшую выручку. С ростом выручки от реализации продукции значительно снижается число предприятий. Таким образом, распределение числа предприятий по величине выручки является неравномерным. Поэтому следует построить группировку с неравными интервалами (табл. 3.10).
Таблица 3.10
Группировка с неравными интервалами
№ группы
Интервал
I
II
III
IV
V
500 - 800
800-1300
1300-2000
2000-2900
2900-4000
Величина каждого последующего интервала у этой группировки больше предыдущего на 200 млн руб., т. е. увеличивается в арифметической прогрессии.
При определении границ интервалов статистических группировок исходят из того, что изменение количественного признака приводит к появлению нового качества. В этом случае граница интервала устанавливается там, где происходит переход от одного качества к другому. Рамки границ зависят от условий места и времени. Например, группировка предприятий по числу занятых показывает, что в промышленности и строительстве предприятия со среднесписочной численностью работающих 75-100 человек относятся к группе малых предприятий; а в отраслях непроизводственной сферы и в розничной торговле - к крупным.
Поэтому, строя такую группировку, следует дифференцированно устанавливать границы интервалов для разных отраслей народного хозяйства. Это достигается путем использования группировок со специализированными интервалами.
Специализированными называются интервалы, применяющиеся для выделения из совокупности одних и тех же типов по одному и тому же признаку для явлений, находящихся в различных условиях.
При изучении социально-экономических явлений на макроуровне часто применяют группировки, интервалы которых не будут ни прогрессивно возрастающими, ни прогрессивно убывающими. Такие интервалы называются произвольными.
Например, при обработке материалов переписи населения 1989 г. для группировки семей и одиночек по размеру жилой площади, приходящейся на одного человека (м2), применялись следующие группы: до 5; 5 - 6; 7 - 8; 9 - 12; 13 - 14; 15 - 19; 20 и более. Произвольные интервалы часто используются при группировке рабочих по выработке продукции, предприятий по уровню рентабельности.
Группировка с произвольными интервалами может быть построена с помощью коэффициента вариации, определяемого по формуле (7.15),
Построение группировки этим методом начинается с упорядочения единиц совокупности по возрастанию или убыванию группировочного признака. В полученном ряду значений признака первые его значения объединяются в группу до тех пор, пока исчисленный для этой группы коэффициент вариации не станет равен 33%. Это будет свидетельствовать об образовании первой группы, которая исключится из исходной совокупности. Оставшаяся ее часть принимается за новую совокупность, для которой повторяется алгоритм образования новой группы. И так до тех пор, пока все единицы совокупности не будут объединены в группы.
Особенностью данного способа проведения группировки является то, что заранее, до проведения группировки, исследователь не знает ни количество групп, ни границы интервалов.
После определения группировочного признака и границ групп строится ряд распределения.