Если вы вдруг посмотрите на периодичность постов в этом блоге, то может показаться, что он помер еще в 2019 года, что в корне неверно.
Просто как-то было не до него, знаете — враждебные вихри изнуряющей работы швыряли меня по морям беспросветного трудоголизма. Но я выплыл, и вот я снова здесь.
В этом году много всего произошло — и теперь я работаю в компании Embedika, а еще (внезапно!) в Центре исследования больших данных МИСиС. Впрочем, стоит заметить, что размер данных настолько же преувеличен, насколько и слухи о смерти этого блога.
В общем, снова здравствуйте 🙂
Дальше будет:
- рассказ о том, как дальше будет жить блог
- немного шутеек
- что интересного мы сделали для науки в 2019 году
Как планирую дальше вести блог
Неожиданно для себя я стал дохрена менеджером и — что удивительно — оказалось, что времени перестало хватать на вообще все, включая разврат и наркотики.
Поэтому надеюсь, что смогу публиковать сюда следующие вещи:
- Репостить наиболее интересные тексты из творчества нашей команды
- Ссылки на какие-нибудь интересные ресурсы по вообще всем темам
- Возможно — шутейки про датасаенс
- Если получится, что-нибудь о суровых менеджерских буднях
Ссылка на ресурсы по вообще всем темам
В качестве примеров ресурсов по всем темам прикрепляю здесь свой первый опыт публикации смешнявок на Пикабу — https://pikabu.ru/story/rossiya__dlya_grustnyikh_7644509
Этот пост к моему большому удивлению набрал больше 2000 плюсов!
А вот другие посты почему-то не вызвали такого ажиотажа, хотя они вполне неплохие.
-
https://pikabu.ru/story/rossiya__dlya_grustnyikh_depressivnaya_toponimika_7646896
— вот тут довольно прикольная концепция депрессивной топонимики в продолжение идей первого поста. Но многобуковость, видимо, перекрыла достоинства идеи.
-
https://pikabu.ru/story/samyie_interesnyie_mesta_v_nikolaevke_7690974
— а вот тут я вообще разочарован реакцией! Этот пост совсем не о том, как плохо в поселке Николаевка, а ирония над тем, как пишут отзывы в яндекскартах. Ужас, что даже когда я это объяснил в комментах, меня так и не поняли.
В общем, я расстроился и больше ничего не постил там. <пафос>Мир еще не готов к такому юмору!</пафос>
Что интересного у нас произошло с точки зрения науки и технологий
У нас есть несколько новых публикаций, которые индексируются Scopus
Мы съездили в город Леон в Испании (не путать с Лионом во Франции) на конференцию HAIS 2019 и рассказали там публикацию:
-
- Суть публикации: берем нейросеть с двумя подсетями и каааак начинаем обрабатывать ею признаки пользователей, которые посещают сайты онлайн-магазинов, и товаров, которые они покупают… Вообще — рекомендую ознакомиться, достаточно неплохая публикация. Особенно прикольно, что удалось воспользоваться большим закрытым датасетом.
- Мне очень понравился город Леон, всем рекомендую посетить — в нем есть некоторое очарование небольшого, но очень гордого города. Милый средневековый центр, забавные возгласы местных «как можно идти в пригород пешком, там 3 километра, берите такси!», один ресторан с мишленовской звездой. И от Мадрида всего 2 часа на скоростном поезде. Только моря там, конечно, нет, а еще по утрам очень холодно. Но разве это важно?
Еще вместе с коллегами из НИУ ВШЭ (привет, Илья Макаров!) опубликовали парочку неплохих статей на конференции EEML 2019 в Перми:
-
- Тут вполне неплохо раскрывается достаточно узкоспециальная тема графовых эмбеддингов. Если вдруг интересно — там есть краткое описание методов их построения.
Другая публикация выглядит несколько слабее, скорее, как хорошая студенческая работа. Она посвящена выявлению фейковых новостей. Ничего концептуально нового, но зато короткая и написана простым языком. Но самое главное, что методы там простые и вполне рабочие — можно попытаться повторить результат, причем высокой квалификации для этого не надо.
Мы завершили первый этап гранта РНФ (Российский научный фонд) по вот такой вот теме: «Моделирование контекстно-зависимых представлений слов для векторизации текстов в задачах информационного поиска»:
- Ну это типа мы хотим сделать наш православный ELMO/BERT и аналоги, только несколько более узкоспециальный, чисто для информационного поиска.
- Весь первый год мы полностью отдали тематическому моделированию в виде ARTM + TopicTiling в попытках обеспечить качественную сегментацию текстов и выделение ключевых сегментов — что-то вроде необычной версии аннотирования/суммаризации текстов. Результаты, конечно, покатят, но на 2020 год мы решили-таки переехать в сторону Deep Learning. Да, мейнстрим, но должен сработать.
- Вот ссылка на отчет, если вдруг интересно:
- Забавно — раньше я очень плохо относился к государственным грантам — типа фу, мертвые госденьги, отчеты и все такое прочее. Но как только стал ответственным за бюджет и тут меня осенило — это же деньги на развитие квалификации наших датасаентистов, это же круто! В общем, вы можете наблюдать мою профдеформацию в действии.
Немного ссылок:
- Компания, в которой я работаю, зовут Embedika, у нее прикольный сайт embedika.ru. Спасибо, Эллина!
- Оригинальная статья о TopicTiling
- А здесь много всякого про ARTM
3,285 просмотров всего, 6 просмотров сегодня
Leave a Reply