NLPx

Tales of Data Science

Примеры отчетов по анализу данных (на английском)

Недавно я нашёл несколько примеров отчетов по анализу данных, которые делали я и мои коллеги в 2013 для тренировки, во время прохождения курса Data Analysis на Курсере. Отчеты на английском языке, могут пригодится в качестве примера всем интересующимся 🙂

Отчеты сделаны по итогам анализа двух наборов данных — Lending Club dataset и Samsung Smartphones dataset. В отчетах нет никаких шедевральных алгоритмов и всякого такого — только четкая структура, последовательность изложения и интересные выводы.

Так как для того, чтобы прочитать отчеты, вам все равно нужно знать английский, то я без каких-либо сомнений просто перенаправляю вас на английскую версию текста. Там есть все — сами примеры, ссылки на наборы данных и парочка забавных картинок. Неужели для счастья нужно что-то еще?

Итак, нажмите сюда для перехода. (не пугайтесь, это не внешняя ссылка)

3,247 просмотров всего, 4 просмотров сегодня

Немного про word2vec: полезная теория

Homer sez

Когда-то мне было нужно узнать кое-что про то, как устроен word2vec и — удивительно — нигде нормальной информации я не нашёл. В половине статей просто демонстрировали формулы и умные слова (я тоже так могу), в другой половине информация была не очень полной. То, что мне было нужно, я собирал по крупицам. настала пора поделиться этими крупицами, особенно, если учесть, что уже почти полгода я ничего не публиковал.

Поэтому здесь я немного расскажу о том, что такое word2vec, зачем он нужен, как он работает — и прочие мелочи. Статья теоретическая (про сам word2vec, а не про векторное пространство, если что), написана достаточно простым языком, но все же содержит в себе практические идеи. Enjoy!

Read More

28,327 просмотров всего, 38 просмотров сегодня

API Вконтакте + NetworkX = социальный граф!

interest-graphs-social-graph

Попалась мне тут когда-то интересная задача — быстро и максимально просто (с минимумом привлекаемых библиотек) нарисовать граф пересечения пользователей разных групп Вконтакте. И я ее даже сделал. Затем подумал — а вдруг кому-то еще нужно будет сделать что-то подобное?

Поэтому здесь я расскажу и покажу, как же всё-таки делать такие вещи:

1. Подключаться к веб-сайту вконтакте с помощью Python 2.7 (всегда можно переписать под 3.x, если что)

2. Создавать графы с помощью библиотеки NetworkX (здесь рассматриваем графы пересечений аудитории групп вконтакте)

3. Визуализировать эти графы (тут нам немного понадобится библиотека matplotlib)

Read More

8,736 просмотров всего, 3 просмотров сегодня

TF-IDF с примерами кода: просто и понятно

TF-IDFtfidf_blg-1024x295

Здесь я расскажу и покажу в примерах на Python, зачем и как считать стандартный TF-IDF, а также его вариации. Примеры я буду давать по ходу объяснения. Чтобы их понять, нужно иметь представления о базовых понятиях языка программирования Python в версии 2.х либо 3.х (основные типы данных, основные структуры данных, цикл-ветвление, функция, основы генераторов списков и словарей) и понимать, как применять класс Counter из стандартной библиотеки collections

Read More

14,142 просмотров всего, 31 просмотров сегодня