NLPx

Tales of Data Science

Разница между Active learning, Online learning, Reinforcement learning и Transfer learning

Иногда путают такие понятия, как Active learning, Online learning, Reinforcement learning, Transfer learning и других таинственных видов learning. Я тоже путал, был грех.

Постараюсь тут объяснить разницу — максимально просто и глупо. Прям чтобы даже я понял.

На математическую точность, как обычно, не претендую, для меня главное понимание принципа 🙂

Brace Yourself Learning is coming - | Make a Meme

Read More

38 просмотров всего, 18 просмотров сегодня

Проклятье Улицы Сезам: нашествие маппетов в NLP

Недавно мой добрый товарищ Антон Ложков в своем телеграм-канале устроил перекличку персонажей Улицы Сезам в NLP,  у него получился достаточно внушительный список. Здесь я решил немного разбавить этот список картинками (ведь не все помнят персонажей Улицы Сезам, правда?). А еще попытаюсь ответить на вопрос — какого хрена именно маппеты заслужили такую честь?

Read More

79 просмотров всего, 2 просмотров сегодня

Тематическая сегментация: ARTM + TopicTiling

В предыдущем посте о возрождении блога я упомянул, что мы часть прошлого года отдали тематическому моделированию в виде ARTM + TopicTiling в попытках обеспечить качественную сегментацию текстов и выделение ключевых сегментов — что-то вроде необычной версии аннотирования/суммаризации текстов.

Я решил, что есть смысл чутка рассказать, а что это за штука, и с чем ее едят.

Выражаю благодарность Игорю Ляхову, который отдал часть своей жизни на изучение тематической сегментации.

Read More

126 просмотров всего, 12 просмотров сегодня

Блог не умер, да здравствует блог!

Если вы вдруг посмотрите на периодичность постов в этом блоге, то может показаться, что он помер еще в 2019 года, что в корне неверно.

Просто как-то было не до него, знаете — враждебные вихри изнуряющей работы швыряли меня по морям беспросветного трудоголизма. Но я выплыл, и вот я снова здесь.

В этом году много всего произошло — и теперь я работаю в компании Embedika, а еще (внезапно!) в Центре исследования больших данных МИСиС. Впрочем, стоит заметить, что размер данных настолько же преувеличен, насколько и слухи о смерти этого блога.

В общем, снова здравствуйте 🙂

Дальше будет:

  • рассказ о том, как дальше будет жить блог
  • немного шутеек
  • что интересного мы сделали для науки в 2019 году

Read More

136 просмотров всего, 4 просмотров сегодня

Немного о брокерах сообщений — Kafka и RabbitMQ

 

На картинке вы видите Apache Kafka и RabbitMQ.

Решил кратко написать про разницу между двумя брокерами сообщений Apache Kafka и RabbitMQ. там вся суть — в двух предложениях-метафорах, но на всякий случай напишу чуть больше информации.

Read More

24,715 просмотров всего, 22 просмотров сегодня

Итоги 2018 года: Data Science, NLP и все-все-все


Давненько ничего не писал здесь, хотя всякого интересного много есть.

Ниже расскажу, что же хорошего для науки и образования мы сделали в 2018 году.

Read More

3,878 просмотров всего, 4 просмотров сегодня

Условные случайные поля (CRF): краткий обзор

На этой картинке вы видите условное случайное поле.

Продолжаю выкладывать тексты, которые когда-то писал по рабочей надобности. Этот текст был составлен в конце 2014 года, но вполне актуален и сейчас.

В связи с бурным развитием глубинных нейросетей мы как-то начали забывать о простых статистических тружениках машинного обучения. Хватит это терпеть!

Здесь содержится краткий конспект по алгоритму CRF (conditional random fields, условные случайные поля), который я писал для доклада на внутренней конференции. Как обычно — минимум теории (кроме самой интересной) и совсем немного занудства. Пригодится всем, кто любит краткие конспекты. Здесь все, что вы хотели знать о CRF, но боялись спросить (но это не точно).

Добро пожаловать под кат!

Read More

22,124 просмотров всего, 12 просмотров сегодня

Чат-боты: обзор и состояние технологий в отрасли

В последнее время (где-то с февраля-марта 2016 года) очень много и часто говорят про чат-ботов. Насколько это модно, стильно и молодежно? Какие перспективы — рыночные и технологические? Кто виноват и что делать? Об этом вы не узнаете, пока не прочитаете весь опубликованный здесь текст.

Если интересно — покорнейше прошу читать дальше. Если нет, то все равно попробуйте прочитать — вдруг понравится?

Read More

35,146 просмотров всего, 3 просмотров сегодня

Примеры отчетов по анализу данных (на английском)

Недавно я нашёл несколько примеров отчетов по анализу данных, которые делали я и мои коллеги в 2013 для тренировки, во время прохождения курса Data Analysis на Курсере. Отчеты на английском языке, могут пригодится в качестве примера всем интересующимся 🙂

Отчеты сделаны по итогам анализа двух наборов данных — Lending Club dataset и Samsung Smartphones dataset. В отчетах нет никаких шедевральных алгоритмов и всякого такого — только четкая структура, последовательность изложения и интересные выводы.

Так как для того, чтобы прочитать отчеты, вам все равно нужно знать английский, то я без каких-либо сомнений просто перенаправляю вас на английскую версию текста. Там есть все — сами примеры, ссылки на наборы данных и парочка забавных картинок. Неужели для счастья нужно что-то еще?

Итак, нажмите сюда для перехода. (не пугайтесь, это не внешняя ссылка)

10,523 просмотров всего, 2 просмотров сегодня

История об LDA2vec: взболтать, но не смешивать

catdog_word2vec_cropped

UPD: В английской версии этого поста оставили очень ценный комментарий, и теперь я вижу, что я слишком заострил внимание на различиях LDA и word2vec, а они с алгоритмической точки зрения не так уж и сильно отличаются. Поэтому я несколько изменил первоначальную версию текста. Кстати, рекомендую прочитать презентацию товарища Голдберга про word2vec.

Буквально только что, когда уже хотел взяться за написание текста про конференцию (как обещал в предыдущем посте), я обнаружил совсем недавно созданный гибридный алгоритм, который хитрым образом берет лучшее (по крайней мере, должен брать лучшее) из известного алгоритма тематического моделирования LDA (Латентное размещение Дирихле) и из чуть менее известного инструмента языкового моделирования word2vec (никак не расшифровывается, но про него я писал ранее).

Вы также можете прочитать этот текст на английском

И сейчас я расскажу вам историю об lda2vec и моих попытках поиграться с реализацией и сравнить ее с алгоритмом LDA. Итак, однажды в студеную зимнюю пору…

Read More

19,898 просмотров всего, 8 просмотров сегодня