NLPx

Tales of Data Science

Проклятье Улицы Сезам: нашествие маппетов в NLP

Недавно мой добрый товарищ Антон Ложков в своем телеграм-канале устроил перекличку персонажей Улицы Сезам в NLP,  у него получился достаточно внушительный список. Здесь я решил немного разбавить этот список картинками (ведь не все помнят персонажей Улицы Сезам, правда?). А еще попытаюсь ответить на вопрос — какого хрена именно маппеты заслужили такую честь?

Read More

209 просмотров всего, 8 просмотров сегодня

Блог не умер, да здравствует блог!

Если вы вдруг посмотрите на периодичность постов в этом блоге, то может показаться, что он помер еще в 2019 года, что в корне неверно.

Просто как-то было не до него, знаете — враждебные вихри изнуряющей работы швыряли меня по морям беспросветного трудоголизма. Но я выплыл, и вот я снова здесь.

В этом году много всего произошло — и теперь я работаю в компании Embedika, а еще (внезапно!) в Центре исследования больших данных МИСиС. Впрочем, стоит заметить, что размер данных настолько же преувеличен, насколько и слухи о смерти этого блога.

В общем, снова здравствуйте 🙂

Дальше будет:

  • рассказ о том, как дальше будет жить блог
  • немного шутеек
  • что интересного мы сделали для науки в 2019 году

Read More

262 просмотров всего, 8 просмотров сегодня

Немного о брокерах сообщений — Kafka и RabbitMQ

 

На картинке вы видите Apache Kafka и RabbitMQ.

Решил кратко написать про разницу между двумя брокерами сообщений Apache Kafka и RabbitMQ. там вся суть — в двух предложениях-метафорах, но на всякий случай напишу чуть больше информации.

Read More

25,808 просмотров всего, 56 просмотров сегодня

CatBoost против всех

CatBoost — open source библиотека градиентного бустинга на деревьях решений, которую два месяца назад презентовал Яндекс. Если верить разработчикам, она способна решить все наши проблемы: Кэтбуст устойчив к переобучению, может работать с категориальными признаками без дополнительной предобработки и работает лучше других аналогичных открытых библиотек. Вместе с исходным кодом Яндекс выложил серию экспериментов, в которых на наборе из 9 открытых датасетов Кэтбуст бьет и всем известный XGBoost, и майкрософтовский LightGBM, и библиотеку H2O — причем как после подбора гиперпараметров, так и с дефолтными параметрами.

Read More

9,124 просмотров всего, 14 просмотров сегодня

Чат-боты: обзор и состояние технологий в отрасли

В последнее время (где-то с февраля-марта 2016 года) очень много и часто говорят про чат-ботов. Насколько это модно, стильно и молодежно? Какие перспективы — рыночные и технологические? Кто виноват и что делать? Об этом вы не узнаете, пока не прочитаете весь опубликованный здесь текст.

Если интересно — покорнейше прошу читать дальше. Если нет, то все равно попробуйте прочитать — вдруг понравится?

Read More

35,291 просмотров всего, 10 просмотров сегодня