NLPx

Tales of Data Science

Разница между Active learning, Online learning, Reinforcement learning и Transfer learning

Иногда путают такие понятия, как Active learning, Online learning, Reinforcement learning, Transfer learning и других таинственных видов learning. Я тоже путал, был грех.

Постараюсь тут объяснить разницу — максимально просто и глупо. Прям чтобы даже я понял.

На математическую точность, как обычно, не претендую, для меня главное понимание принципа 🙂

Brace Yourself Learning is coming - | Make a Meme

Read More

690 просмотров всего, сегодня нет просмотров

Разница между Active learning, Online learning, Reinforcement learning и Transfer learning
5 2 votes

Проклятье Улицы Сезам: нашествие маппетов в NLP

Недавно мой добрый товарищ Антон Ложков в своем телеграм-канале устроил перекличку персонажей Улицы Сезам в NLP,  у него получился достаточно внушительный список. Здесь я решил немного разбавить этот список картинками (ведь не все помнят персонажей Улицы Сезам, правда?). А еще попытаюсь ответить на вопрос — какого хрена именно маппеты заслужили такую честь?

Read More

659 просмотров всего, сегодня нет просмотров

Проклятье Улицы Сезам: нашествие маппетов в NLP
5 2 votes

Тематическая сегментация: ARTM + TopicTiling

В предыдущем посте о возрождении блога я упомянул, что мы часть прошлого года отдали тематическому моделированию в виде ARTM + TopicTiling в попытках обеспечить качественную сегментацию текстов и выделение ключевых сегментов — что-то вроде необычной версии аннотирования/суммаризации текстов.

Я решил, что есть смысл чутка рассказать, а что это за штука, и с чем ее едят.

Выражаю благодарность Игорю Ляхову, который отдал часть своей жизни на изучение тематической сегментации.

Read More

652 просмотров всего, 2 просмотров сегодня

Тематическая сегментация: ARTM + TopicTiling
5 1 vote

Блог не умер, да здравствует блог!

Если вы вдруг посмотрите на периодичность постов в этом блоге, то может показаться, что он помер еще в 2019 года, что в корне неверно.

Просто как-то было не до него, знаете — враждебные вихри изнуряющей работы швыряли меня по морям беспросветного трудоголизма. Но я выплыл, и вот я снова здесь.

В этом году много всего произошло — и теперь я работаю в компании Embedika, а еще (внезапно!) в Центре исследования больших данных МИСиС. Впрочем, стоит заметить, что размер данных настолько же преувеличен, насколько и слухи о смерти этого блога.

В общем, снова здравствуйте 🙂

Дальше будет:

  • рассказ о том, как дальше будет жить блог
  • немного шутеек
  • что интересного мы сделали для науки в 2019 году

Read More

832 просмотров всего, сегодня нет просмотров

Блог не умер, да здравствует блог!
5 2 votes

Немного о брокерах сообщений — Kafka и RabbitMQ

 

На картинке вы видите Apache Kafka и RabbitMQ.

Решил кратко написать про разницу между двумя брокерами сообщений Apache Kafka и RabbitMQ. там вся суть — в двух предложениях-метафорах, но на всякий случай напишу чуть больше информации.

Read More

30,041 просмотров всего, 8 просмотров сегодня

Немного о брокерах сообщений — Kafka и RabbitMQ
4.6 10 votes

Итоги 2018 года: Data Science, NLP и все-все-все


Давненько ничего не писал здесь, хотя всякого интересного много есть.

Ниже расскажу, что же хорошего для науки и образования мы сделали в 2018 году.

Read More

4,384 просмотров всего, 2 просмотров сегодня

Итоги 2018 года: Data Science, NLP и все-все-все
5 1 vote

Условные случайные поля (CRF): краткий обзор

На этой картинке вы видите условное случайное поле.

Продолжаю выкладывать тексты, которые когда-то писал по рабочей надобности. Этот текст был составлен в конце 2014 года, но вполне актуален и сейчас.

В связи с бурным развитием глубинных нейросетей мы как-то начали забывать о простых статистических тружениках машинного обучения. Хватит это терпеть!

Здесь содержится краткий конспект по алгоритму CRF (conditional random fields, условные случайные поля), который я писал для доклада на внутренней конференции. Как обычно — минимум теории (кроме самой интересной) и совсем немного занудства. Пригодится всем, кто любит краткие конспекты. Здесь все, что вы хотели знать о CRF, но боялись спросить (но это не точно).

Добро пожаловать под кат!

Read More

23,592 просмотров всего, сегодня нет просмотров

Условные случайные поля (CRF): краткий обзор
4.7 14 votes

Чат-боты: обзор и состояние технологий в отрасли

В последнее время (где-то с февраля-марта 2016 года) очень много и часто говорят про чат-ботов. Насколько это модно, стильно и молодежно? Какие перспективы — рыночные и технологические? Кто виноват и что делать? Об этом вы не узнаете, пока не прочитаете весь опубликованный здесь текст.

Если интересно — покорнейше прошу читать дальше. Если нет, то все равно попробуйте прочитать — вдруг понравится?

Read More

35,675 просмотров всего, сегодня нет просмотров

Чат-боты: обзор и состояние технологий в отрасли
4.6 8 votes

Примеры отчетов по анализу данных (на английском)

Недавно я нашёл несколько примеров отчетов по анализу данных, которые делали я и мои коллеги в 2013 для тренировки, во время прохождения курса Data Analysis на Курсере. Отчеты на английском языке, могут пригодится в качестве примера всем интересующимся 🙂

Отчеты сделаны по итогам анализа двух наборов данных — Lending Club dataset и Samsung Smartphones dataset. В отчетах нет никаких шедевральных алгоритмов и всякого такого — только четкая структура, последовательность изложения и интересные выводы.

Так как для того, чтобы прочитать отчеты, вам все равно нужно знать английский, то я без каких-либо сомнений просто перенаправляю вас на английскую версию текста. Там есть все — сами примеры, ссылки на наборы данных и парочка забавных картинок. Неужели для счастья нужно что-то еще?

Итак, нажмите сюда для перехода. (не пугайтесь, это не внешняя ссылка)

11,167 просмотров всего, 2 просмотров сегодня

Примеры отчетов по анализу данных (на английском)
4.7 3 votes

История об LDA2vec: взболтать, но не смешивать

catdog_word2vec_cropped

UPD: В английской версии этого поста оставили очень ценный комментарий, и теперь я вижу, что я слишком заострил внимание на различиях LDA и word2vec, а они с алгоритмической точки зрения не так уж и сильно отличаются. Поэтому я несколько изменил первоначальную версию текста. Кстати, рекомендую прочитать презентацию товарища Голдберга про word2vec.

Буквально только что, когда уже хотел взяться за написание текста про конференцию (как обещал в предыдущем посте), я обнаружил совсем недавно созданный гибридный алгоритм, который хитрым образом берет лучшее (по крайней мере, должен брать лучшее) из известного алгоритма тематического моделирования LDA (Латентное размещение Дирихле) и из чуть менее известного инструмента языкового моделирования word2vec (никак не расшифровывается, но про него я писал ранее).

Вы также можете прочитать этот текст на английском

И сейчас я расскажу вам историю об lda2vec и моих попытках поиграться с реализацией и сравнить ее с алгоритмом LDA. Итак, однажды в студеную зимнюю пору…

Read More

20,356 просмотров всего, сегодня нет просмотров

История об LDA2vec: взболтать, но не смешивать
4.3 3 votes