NLPx

Tales of Data Science

Итоги 2018 года: Data Science, NLP и все-все-все


Давненько ничего не писал здесь, хотя всякого интересного много есть.

Ниже расскажу, что же хорошего для науки и образования мы сделали в 2018 году.

Научно-популярное

Вот, например, Полина Казакова (возможно даже под моим чутким руководством) написала несколько хороших текстов, с которыми я рекомендую ознакомиться всем, кто только начал интересоваться темой Data Science:

 Что такое Data Science и как это работает?

 Машинное обучение: как оно применяется в жизни.

 Разработка решений data science: плюсы, минусы и основные трудности.

NLP: как стать специалистом по обработке естественного языка (это интервью)

Интересный текст про тематическую сегментацию (это продвинутый уровень)

Конференционное

Еще были несколько интересных выступлений на конференциях, например, на SECR 2018, где мы представляли доклад про интересную штуку — тематическую сегментацию текстов.

Тут мы выступали на конференции CNews про новую концепцию ITSM 3.0. Доклад был вообще ни разу не технический, а совсем даже продажный. Впрочем, я ни разу не жалею, выступил хорошо 🙂

А тут — на конференции Интерком с похожей темой, но уже более-менее технически. Доклад назывался NLP, ML, self-service, digital transformation, knowledge base и ещё несколько умных терминов (название придумывал не я) — определенно, не самый лучший мой доклад, но достаточно неплохой.

Еще мы выступали на Inradel Camp 2018 c докладом про рынок и технологии Data Science (надо промотать вниз и будет наш доклад).

Научное

Еще мы написали несколько довольно-таки научных публикаций и выступили с ними на более-менее научных конференциях:

Shtekh, Gennady, Polina Kazakova, and Nikita Nikitinsky. «Adjusting Machine Translation Datasets for Document-Level Cross-Language Information Retrieval: Methodology.» International Workshop on Temporal, Spatial, and Spatio-Temporal Data Mining. Springer, Cham, 2018. Это очень сложная и непонятная статья о том, как автоматически превращать наборы данных для машинного перевода в наборы данных для кросс-язычного информационного поиска. Серьезно, даже мы сами не до конца понимаем, что там написано. С ней мы выступили на конференции Text, Speach and Dialogue в Брно. Пока статья не в открытом доступе, но планируем выложить ее на ResearchGate.

Shtekh, G., Kazakova, P., Nikitinsky, N., & Skachkov, N. (2018, October). Exploring Influence of Topic Segmentation on Information Retrieval Quality. In International Conference on Internet Science (pp. 131-140). Springer, Cham. Это интересная статья про применение тематической сегментации для улучшения качества поиска. С ней мы выступали на конференции в Петербурге — Internet Science 2018. Конечно, большую часть времени мы гуляли по городу, чем сидели на конференции 🙂  Открытого доступа к ней тоже нет, но это не страшно, потому что он есть к следующей, которая по сути — дополненная версия этой публикации.

Shtekh, G., Kazakova, P., Nikitinsky, N., & Skachkov, N. (2018, October). Applying Topic Segmentation to Document-Level Information Retrieval. In Proceedings of the 14th Central and Eastern European Software Engineering Conference Russia (p. 6). ACM.  Там больше экспериментов на тематическую сегментацию, но в остальном она не сильно отличается от предыдущей. С ней мы как раз и выступали на SECR 2018 и даже получили премию Бертрана Майера

 

Кажется, что год выдался вполне плодотворным. В этом году мы планируем выпустить еще несколько публикаций, чтобы продолжить развивать этот блог. А там как получится 🙂

 

Ссылки

Одна ссылка — на группу в Facebook, где все подробно написано

 

1,883 просмотров всего, 2 просмотров сегодня

Итоги 2018 года: Data Science, NLP и все-все-все
5 1 vote

Leave a Reply

avatar