NLPx

Tales of Data Science

Разница между Active learning, Online learning, Reinforcement learning и Transfer learning

Иногда путают такие понятия, как Active learning, Online learning, Reinforcement learning, Transfer learning и других таинственных видов learning. Я тоже путал, был грех.

Постараюсь тут объяснить разницу — максимально просто и глупо. Прям чтобы даже я понял.

На математическую точность, как обычно, не претендую, для меня главное понимание принципа 🙂

Brace Yourself Learning is coming - | Make a Meme

Read More

148 просмотров всего, 6 просмотров сегодня

Разница между Active learning, Online learning, Reinforcement learning и Transfer learning
5 2 votes

Проклятье Улицы Сезам: нашествие маппетов в NLP

Недавно мой добрый товарищ Антон Ложков в своем телеграм-канале устроил перекличку персонажей Улицы Сезам в NLP,  у него получился достаточно внушительный список. Здесь я решил немного разбавить этот список картинками (ведь не все помнят персонажей Улицы Сезам, правда?). А еще попытаюсь ответить на вопрос — какого хрена именно маппеты заслужили такую честь?

Read More

207 просмотров всего, 6 просмотров сегодня

Проклятье Улицы Сезам: нашествие маппетов в NLP
5 1 vote

Тематическая сегментация: ARTM + TopicTiling

В предыдущем посте о возрождении блога я упомянул, что мы часть прошлого года отдали тематическому моделированию в виде ARTM + TopicTiling в попытках обеспечить качественную сегментацию текстов и выделение ключевых сегментов — что-то вроде необычной версии аннотирования/суммаризации текстов.

Я решил, что есть смысл чутка рассказать, а что это за штука, и с чем ее едят.

Выражаю благодарность Игорю Ляхову, который отдал часть своей жизни на изучение тематической сегментации.

Read More

272 просмотров всего, 8 просмотров сегодня

Тематическая сегментация: ARTM + TopicTiling
5 1 vote

Блог не умер, да здравствует блог!

Если вы вдруг посмотрите на периодичность постов в этом блоге, то может показаться, что он помер еще в 2019 года, что в корне неверно.

Просто как-то было не до него, знаете — враждебные вихри изнуряющей работы швыряли меня по морям беспросветного трудоголизма. Но я выплыл, и вот я снова здесь.

В этом году много всего произошло — и теперь я работаю в компании Embedika, а еще (внезапно!) в Центре исследования больших данных МИСиС. Впрочем, стоит заметить, что размер данных настолько же преувеличен, насколько и слухи о смерти этого блога.

В общем, снова здравствуйте 🙂

Дальше будет:

  • рассказ о том, как дальше будет жить блог
  • немного шутеек
  • что интересного мы сделали для науки в 2019 году

Read More

260 просмотров всего, 6 просмотров сегодня

Блог не умер, да здравствует блог!
5 2 votes

Немного о брокерах сообщений — Kafka и RabbitMQ

 

На картинке вы видите Apache Kafka и RabbitMQ.

Решил кратко написать про разницу между двумя брокерами сообщений Apache Kafka и RabbitMQ. там вся суть — в двух предложениях-метафорах, но на всякий случай напишу чуть больше информации.

Read More

25,808 просмотров всего, 56 просмотров сегодня

Немного о брокерах сообщений — Kafka и RabbitMQ
4.9 8 votes

Итоги 2018 года: Data Science, NLP и все-все-все


Давненько ничего не писал здесь, хотя всякого интересного много есть.

Ниже расскажу, что же хорошего для науки и образования мы сделали в 2018 году.

Read More

3,986 просмотров всего, 4 просмотров сегодня

Итоги 2018 года: Data Science, NLP и все-все-все
5 1 vote

CatBoost против всех

CatBoost — open source библиотека градиентного бустинга на деревьях решений, которую два месяца назад презентовал Яндекс. Если верить разработчикам, она способна решить все наши проблемы: Кэтбуст устойчив к переобучению, может работать с категориальными признаками без дополнительной предобработки и работает лучше других аналогичных открытых библиотек. Вместе с исходным кодом Яндекс выложил серию экспериментов, в которых на наборе из 9 открытых датасетов Кэтбуст бьет и всем известный XGBoost, и майкрософтовский LightGBM, и библиотеку H2O — причем как после подбора гиперпараметров, так и с дефолтными параметрами.

Read More

9,124 просмотров всего, 14 просмотров сегодня

CatBoost против всех
4.5 8 votes

Условные случайные поля (CRF): краткий обзор

На этой картинке вы видите условное случайное поле.

Продолжаю выкладывать тексты, которые когда-то писал по рабочей надобности. Этот текст был составлен в конце 2014 года, но вполне актуален и сейчас.

В связи с бурным развитием глубинных нейросетей мы как-то начали забывать о простых статистических тружениках машинного обучения. Хватит это терпеть!

Здесь содержится краткий конспект по алгоритму CRF (conditional random fields, условные случайные поля), который я писал для доклада на внутренней конференции. Как обычно — минимум теории (кроме самой интересной) и совсем немного занудства. Пригодится всем, кто любит краткие конспекты. Здесь все, что вы хотели знать о CRF, но боялись спросить (но это не точно).

Добро пожаловать под кат!

Read More

22,452 просмотров всего, 26 просмотров сегодня

Условные случайные поля (CRF): краткий обзор
4.7 13 votes

Чат-боты: обзор и состояние технологий в отрасли

В последнее время (где-то с февраля-марта 2016 года) очень много и часто говорят про чат-ботов. Насколько это модно, стильно и молодежно? Какие перспективы — рыночные и технологические? Кто виноват и что делать? Об этом вы не узнаете, пока не прочитаете весь опубликованный здесь текст.

Если интересно — покорнейше прошу читать дальше. Если нет, то все равно попробуйте прочитать — вдруг понравится?

Read More

35,291 просмотров всего, 10 просмотров сегодня

Чат-боты: обзор и состояние технологий в отрасли
4.6 8 votes

Примеры отчетов по анализу данных (на английском)

Недавно я нашёл несколько примеров отчетов по анализу данных, которые делали я и мои коллеги в 2013 для тренировки, во время прохождения курса Data Analysis на Курсере. Отчеты на английском языке, могут пригодится в качестве примера всем интересующимся 🙂

Отчеты сделаны по итогам анализа двух наборов данных — Lending Club dataset и Samsung Smartphones dataset. В отчетах нет никаких шедевральных алгоритмов и всякого такого — только четкая структура, последовательность изложения и интересные выводы.

Так как для того, чтобы прочитать отчеты, вам все равно нужно знать английский, то я без каких-либо сомнений просто перенаправляю вас на английскую версию текста. Там есть все — сами примеры, ссылки на наборы данных и парочка забавных картинок. Неужели для счастья нужно что-то еще?

Итак, нажмите сюда для перехода. (не пугайтесь, это не внешняя ссылка)

10,663 просмотров всего, 4 просмотров сегодня

Примеры отчетов по анализу данных (на английском)
4.7 3 votes