NLPx

Tales of Data Science

Статистический анализ пользователей Stackoverflow и GitHub: кого больше?

stackovwerflow_github

Когда-то относительно недавно я опубликовал сокращенную версию этой статьи на хабрахабре, а сейчас откопал в отвалах породы на жестком диске полную ее версию. Этот пост представляет собой вполне официальный отчет по довольно поверхностному (то есть я не зарывался глубоко в систему рейтингов, например) статистическому анализу по пользователям двух популярных ресурсов — Stack Overflow (stackoverflow.com) и GitHub (github.com).

Из каких стран больше всего пользователей? Пользователи каких стран коммитят чаще? А каково место России на этом празднике жизни? Кто виноват и что делать? — ответы на эти вопросы можно найти здесь.

Актуальность данных — на 24 октября 2014 года, но, полагаю, что тенденции, в этих данных отраженные, будут актуальны еще долгое время. Если кому интересно — дайте знать в комментариях, я обновлю данные на нынешний год.

Ну и, надеюсь, никого не введет в уныние сухость изложения 🙂

А еще этот пост можно прочитать на английском. Впрочем, русская версия гораздо полнее.

Введение

Аудитория проекта Stack Overflow составляет 3 580 212 зарегистрированных пользователей (2014 год), GitHub – 3 955 191 зарегистрированный пользователь (2014).

Для сообщества Stack Overflow были проанализированы статистические данные за 2013 и 2014 годы, для GitHub — за 2012, 2013 и 2014 годы.

Данные по статистике не полны, так как не все пользователи уточняют страну проживания (около 25% для Stack Overflow и около 70% для GitHub не указали страну проживания), однако имеющихся данных достаточно для понимания общей ситуации и соотношений.

Stack Overflow

Пользователей, указавших страной проживания Россию – 11 319, что составляет 0,38% от общего числа пользователей. Учитывая, что около 25% пользователей не указывают страну проживания, можно предположить, что реальное количество россиян на данном ресурсе может быть в районе 15 000 пользователей или около 0.42% от общего числа пользователей. При этом доля уникальных незарегистрированных посетителей с российскими IP-адресами на ресурсе на 2014 год составила около 1.6% (11 место) от общего количества уникальных незарегистрированных посетителей (для сравнения – Голландия – 1,75%, Бразилия – 2,3%, Индия – 12,5%, Китай – 1,46%).

По общему числу зарегистрированных пользователей Россия входит в топ-10 ресурса Stack Overflow (данные за 2014 год):

Страна Число пользователей
1 США 253452
2 Индия 67297
3 Великобритания 33395
4 Германия 19706
5 Канада 16685
6 Китай 14234
7 Австралия 12592
8 Бразилия 12325
9 Франция 12217
10 Россия 11319

На карте указано процентное соотношение количества зарегистрированных пользователей Stack Overflow по отношению к общему количеству жителей страны. Мне кажется, вполне очевидные результаты. Напомню, что у Китая всегда были проблемы с Великим Китайским Файрволом

На данном ресурсе присутствует система “репутации”, где пользователь получает баллы репутации за ценные профессиональные советы. Пользователи с показателем репутации более 1000 считаются наиболее компетентными. Всего пользователей с показателем репутации более 1000 – 68044, что составляет 1,9% от всего количества пользователей.

На 2014 год пользователей, указавших страной проживания Россию и имеющих репутацию более 1000 – 800 человек, что составляет 1,18% от общего числа пользователей с репутацией более 1000.

При этом, в 2013 году пользователей, указавших страной проживания Россию и имеющих репутацию более 1000, было 447 человек, что составляло приблизительно 1,25% от общего числа пользователей, указавших страну проживания, в количестве 35786 человек.

Сравнительная таблица топ-10 стран и количество зарегистрированных пользователей с репутацией больше 1000 за 2013 и 2014 годы:

2013 2014
Страна Число пользователей Страна Число пользователей
1 США 9592 США ~18000
2 Великобритания 2906 Великобритания 4182
3 Индия 2005 Индия 3460
4 Германия 1461 Германия 2434
5 Канада 1397 Канада 1995
6 Австралия 1260 Австралия 1612
7 Франция 724 Франция 1178
8 Швеция 637 Нидерланды 1075
9 Россия 447 Швеция 880
10 Польша 439 Россия 800

На карте указан прирост количества пользователей с репутацией больше 1000 с 2013 по 2014 год. Забавно, что Китай не попал в топ-10

GitHub

На данном ресурсе пользователи размещают собственноручно созданные программы или скрипты, написанные на различных языках программирования. Чем более интересные и качественные программы пишет пользователь, тем больше последователей (других пользователей, следящих за деятельностью интересующего их пользователя) он привлекает.

На июль 2012 года на ресурсе было размещено 6 826 827 программ/скриптов и их правок (коммитов). Пользователи, указавшие страной проживания Россию, разместили на ресурсе около 1,8% коммитов от их общего количества.

По состоянию дел на 2013 год пользователями, указавшими место проживания (около 26% всех пользователей), было сделано около 28500000 коммитов (около 44% от общего числа коммитов в 65 000 000). Россияне ответственны за приблизительно 3,5% от данного числа коммитов. При этом на ресурсе зарегистрировано около 3% от общего числа интернет-пользователей в РФ, что является довольно высоким значением.

Сравнительная таблица топ-10 стран по проценту коммитов от общего числа коммитов на 2012 и 2013 годы:

2012 2013
Страна Процент коммитов от общего числа коммитов Страна Процент коммитов от общего числа коммитов
1 США 38,6 США 35
2 Великобритания 6,3 Великобритания 7
3 Германия 6 Германия 6
4 Канада 4 Китай 5
5 Япония 3,8 Франция 4,5
6 Китай 3,6 Канада 4,2
7 Франция 2,7 Япония 4
8 Нидерланды 2 Россия 3,5
9 Бразилия 1,9 Бразилия 3
10 Россия 1,8 Австралия 2,5

На карте указан прирост процента коммитов от пользователей стран из топ-10. Отмечаем, что у США — отрицательный прирост.

Топ-10 стран по проценту зарегистрированных на GitHub пользователей от общего числа интернет-пользователей данной страны на 2013 год

Страна Процент пользователей GitHub от общего числа интернет-пользователей данной страны
1 США 31
2 Великобритания 6,5
3 Китай 6
4 Германия 5
5 Франция 4,5
6 Бразилия 4
7 Канада 3,5
8 Индия 3,3
9 Россия 3
10 Япония 2,5

На 2014 год ситуация такова, что из около 1 050 000 активных пользователей, указавших место жительства (из общего количества в 3 955 191 пользователей), россияне составляют 1,5% (16 319 активных пользователей), при этом среди наиболее квалифицированной доли пользователей (критерий квалификации – наличие более 10 последователей) доля россиян составляет 0,91% (в абсолютных числах – 719 из 78 470)

Сравнительная таблица топ-10 стран по количеству активных пользователей и количеству активных высококвалифицированных пользователей:

Количество активных пользователей по странам в общем (из 1050000 человек) Количество активных высококвалифицированных пользователей по странам (из 78470 человек)
Страна Количество пользователей Страна Количество пользователей
1 США 176910 США 14675
2 Великобритания 34628 Великобритания 2659
3 Китай 32009 Китай 2548
4 Германия 28341 Германия 2226
5 Индия 25761 Япония 1708
6 Франция 18549 Франция 1257
7 Канада 16539 Бразилия 1160
8 Россия 16319 Канада 1068
9 Япония 16020 Австралия 977
10 Австралия 14565 Россия 719

На карте указано процентное соотношение количества активных высококвалифицированных пользователей к количеству активных пользователей данной страны. Отмечаем, что этот процент больше всего у Японии. Чуть меньше у США и Бразилии, а самый низкий — у Индии. Видать, не зря ходят байки про индусских чудо-программистов

Выводы

Кто виноват?

1. Удельный вес влиятельных IT-специалистов из России (проживающих в России) в мировом IT-сообществе стабильно составляет около 1%.

2. Удельный вес россиян (проживающих в России), интересующихся IT-сферой (включая влиятельных специалистов), в мировом IT-сообществе составляет около 1,5%, ими производится около 2-3% всего контента.

3. Незнание или недостаточное знание английского языка может являться серьезным барьером для увеличения степени присутствия российских IT-специалистов на мировой арене. Этот вывод можно сделать на основе того, что доля зарегистрированных пользователей из России на Stackoverflow, где знание английского языка хотя бы на среднем уровне (B1-B2) совершенно необходимо, составляет менее 0.5%. При этом доля зарегистрированных русских пользователей на GitHub, где знание английского необходимо только на начальном уровне (A0-A2), составляет около 1.5%.

4. Хотя пользователи из России и входят в топ-10 данных ресурсов по абсолютным показателям, по относительным показателям (таким как, например, количество пользователей на 100 000 населения или количество коммитов на 100 000 населения) отстаёт от других стран. Например, (данные на 2012 год) количество коммитов на GitHub на 100 000 человек населения для России – 88 (для сравнения Украина – 143, Беларусь – 247, Эстония – 697, Швейцария — 1437).

5. В процессе довольно жаркого обсуждения данного отчета на хабре были высказаны еще идеи, почему же русских так мало на StackOverflow и GitHub:

  • — Менталитет, который не позволяет понять, зачем бесплатно делиться чем-то, что было сделано твоим трудом, на что было потрачено время. Грубо говоря — жадность.
  • — Низкий уровень информационной освещенности мировых ресурсов в чудесной стране России
  • — Низкий уровень образования в России и связанная с этим деградация инженерной культуры

И что же делать?

В процессе того же жаркого обсуждения на том же хабре были выдвинуты такие идеи:

  1. Создавать больше open-source проектов на русском, которые привлекли бы внимание не только российского IT-сообщества
  2. Донести до российских вузов важность open-source решений и привлекать их к участию в мировом IT-сообществе
  3. Таки учить английский язык хотя бы до уровня A2-B1 и не стесняться применять полученные знания на практике — не бояться ошибаться
  4. Повышать уровень образования в технических вузах, создавать больше курсов повышения квалификации в сфере IT. В общем — поднимать грамотность населения в сфере современных технологий.

Очень простые и очевидные выводы, конечно. Но вот воплотить их в жизнь — вполне себе нетривиальное дело.

Пользоваться данными этого отчета можно свободно, убедительная просьба только давать ссылку на этот ресурс. Ну и комментарии (почти) любого содержания приветствуются 🙂

 

Использованные материалы

Хорошее и наглядное исследование популярности гитхаба за 2012 год (англ.)

Количество коммитов гитхаба за 2013 год. Отличная визуализация (англ.)

Тем, кто интересуется какой-то статистикой, связанной со StackOverflow, я настоятельно рекомендую воспользоваться вот этими сервисами:

data.stackexchange.com/stackoverflow/queries

meta.stackexchange.com/questions/

3,690 просмотров всего, 2 просмотров сегодня

Статистический анализ пользователей Stackoverflow и GitHub: кого больше?
5 1 vote

Leave a Reply

2 Comments on "Статистический анализ пользователей Stackoverflow и GitHub: кого больше?"

avatar
Sort by:   newest | oldest | most voted
Katya
Guest

Спасибо за пост!
Немного сложно читать таблички/карты и сравнивать датасеты.
Например, мне в первой таблице не хватило процентов, не сразу смогла соотнести ее с текстом. Впрочем, я не особо внимательный чтец. А вот легенды к картам точно не помешают!
P.S.: Поправьте ссылки в «Использованных материалах», пожалуйста.

wpDiscuz