NLPx

Tales of Data Science

Блог не умер, да здравствует блог!

Если вы вдруг посмотрите на периодичность постов в этом блоге, то может показаться, что он помер еще в 2019 года, что в корне неверно.

Просто как-то было не до него, знаете — враждебные вихри изнуряющей работы швыряли меня по морям беспросветного трудоголизма. Но я выплыл, и вот я снова здесь.

В этом году много всего произошло — и теперь я работаю в компании Embedika, а еще (внезапно!) в Центре исследования больших данных МИСиС. Впрочем, стоит заметить, что размер данных настолько же преувеличен, насколько и слухи о смерти этого блога.

В общем, снова здравствуйте 🙂

Дальше будет:

  • рассказ о том, как дальше будет жить блог
  • немного шутеек
  • что интересного мы сделали для науки в 2019 году

Как планирую дальше вести блог

Неожиданно для себя я стал дохрена менеджером и — что удивительно — оказалось, что времени перестало хватать на вообще все, включая разврат и наркотики.

Поэтому надеюсь, что смогу публиковать сюда следующие вещи:

  1. Репостить наиболее интересные тексты из творчества нашей команды
  2. Ссылки на какие-нибудь интересные ресурсы по вообще всем темам
  3. Возможно — шутейки про датасаенс
  4. Если получится, что-нибудь о суровых менеджерских буднях

Ссылка на ресурсы по вообще всем темам

В качестве примеров ресурсов по всем темам прикрепляю здесь свой первый опыт публикации смешнявок на Пикабу — https://pikabu.ru/story/rossiya__dlya_grustnyikh_7644509

Этот пост к моему большому удивлению набрал больше 2000 плюсов!

А вот другие посты почему-то не вызвали такого ажиотажа, хотя они вполне неплохие.

  • https://pikabu.ru/story/rossiya__dlya_grustnyikh_depressivnaya_toponimika_7646896

    — вот тут довольно прикольная концепция депрессивной топонимики в продолжение идей первого поста. Но многобуковость, видимо, перекрыла достоинства идеи.

  • https://pikabu.ru/story/samyie_interesnyie_mesta_v_nikolaevke_7690974

    — а вот тут я вообще разочарован реакцией! Этот пост совсем не о том, как плохо в поселке Николаевка, а ирония над тем, как пишут отзывы в яндекскартах. Ужас, что даже когда я это объяснил в комментах, меня так и не поняли.

В общем, я расстроился и больше ничего не постил там. <пафос>Мир еще не готов к такому юмору!</пафос>

Что интересного у нас произошло с точки зрения науки и технологий

У нас есть несколько новых публикаций, которые индексируются Scopus

Мы съездили в город Леон в Испании (не путать с Лионом во Франции) на конференцию HAIS 2019 и рассказали там публикацию:

  1. Larionova, A., Kazakova, P., & Nikitinsky, N. (2019, September). Deep Structured Semantic Model for Recommendations in E-commerce. In International Conference on Hybrid Artificial Intelligence Systems (pp. 85-96). Springer, Cham.

  2. Суть публикации: берем нейросеть с двумя подсетями и каааак начинаем обрабатывать ею признаки пользователей, которые посещают сайты онлайн-магазинов, и товаров, которые они покупают… Вообще — рекомендую ознакомиться, достаточно неплохая публикация. Особенно прикольно, что удалось воспользоваться большим закрытым датасетом.
  3. Мне очень понравился город Леон, всем рекомендую посетить — в нем есть некоторое очарование небольшого, но очень гордого города. Милый средневековый центр, забавные возгласы местных «как можно идти в пригород пешком, там 3 километра, берите такси!», один ресторан с мишленовской звездой. И от Мадрида всего 2 часа на скоростном поезде. Только моря там, конечно, нет, а еще по утрам очень холодно. Но разве это важно?

Еще вместе с коллегами из НИУ ВШЭ (привет, Илья Макаров!) опубликовали парочку неплохих статей на конференции EEML 2019 в Перми:

  1. Zolnikov P., Zubov M., Nikitinsky N., Makarov I. Efficient Algorithms for Constructing Multiplex Networks Embedding // CEUR Workshop Proceedings – 2019. – Vol-2479, pp. 57-67.

  2. Тут вполне неплохо раскрывается достаточно узкоспециальная тема графовых эмбеддингов. Если вдруг интересно — там есть краткое описание методов их построения.

Другая публикация выглядит несколько слабее, скорее, как хорошая студенческая работа. Она посвящена выявлению фейковых новостей. Ничего концептуально нового, но зато короткая и написана простым языком. Но самое главное, что методы там простые и вполне рабочие — можно попытаться повторить результат, причем высокой квалификации для этого не надо.

  1. Zaynutdinova, A., Pisarevskaya, D., Zubov, M., Makarov, I. Deception Detection in Online Media // CEUR Workshop Proceedings – 2019. – Vol-2479, pp. 121-127.

Мы завершили первый этап гранта РНФ (Российский научный фонд) по вот такой вот теме:  «Моделирование контекстно-зависимых представлений слов для векторизации текстов в задачах информационного поиска»:

  1. Ну это типа мы хотим сделать наш православный ELMO/BERT и аналоги, только несколько более узкоспециальный, чисто для информационного поиска.
  2. Весь первый год мы полностью отдали тематическому моделированию в виде ARTM + TopicTiling в попытках обеспечить качественную сегментацию текстов и выделение ключевых сегментов — что-то вроде необычной версии аннотирования/суммаризации текстов. Результаты, конечно, покатят, но на 2020 год мы решили-таки переехать в сторону Deep Learning. Да, мейнстрим, но должен сработать.
  3. Вот ссылка на отчет, если вдруг интересно:

    https://www.rscf.ru/contests/search-projects/19-11-00281/

  4. Забавно — раньше я очень плохо относился к государственным грантам — типа фу, мертвые госденьги, отчеты и все такое прочее. Но как только стал ответственным за бюджет и тут меня осенило — это же деньги на развитие квалификации наших датасаентистов, это же круто! В общем, вы можете наблюдать мою профдеформацию в действии.

Немного ссылок:

262 просмотров всего, 8 просмотров сегодня

Блог не умер, да здравствует блог!
5 2 votes

Leave a Reply

avatar