Спеціаліст з Natural Language Processing Всеволод Дьомкін “навчає” комп’ютери писати, як людина. Кілька років Всеволод працював як techlead в компанії «Grammarly». В студії ведучі Міріам Драгіна та Олена Скирта.
Як комп’ютери виправляють написаний текст
Міріам Драгіна: Що таке Natural Language Processing?
Всеволод Дьомкін: Це доволі проста штука, яка займається тим, що бере природні тексти, створені людиною, і перетворює їх у дані зрозумілі для комп’ютера, або, навпаки, з даних, які зрозумілі комп’ютеру, генерує текст, який буде зрозумілий для людини.
Міріам Драгіна: Розкажіть, будь ласка, про вашу діяльність.
Всеволод Дьомкін: Зараз у нас є проект, який може бути скоро анонсований. Він полягає у боротьбі з «фейковим новинами». Це одна з тих речей, яка відноситься до задач Natural Language Processing. Насправді будь-яка інтелектуальна обробка тексту в тій чи іншій формі належить до сфери Natural Language Processing, тобто різні задачі: обробка електронної пошти, додаткові можливості для сервісів е-commerce, аукціонів і так далі. Будь-яка програма, якщо вона взаємодіє з людиною, може від цього отримати якусь користь.
Міріам Драгіна: Чи має стосунок Natural Language Processing до нейролінгвістики?
Всеволод Дьомкін: Хоча скорочення одне й теж – NLP, і Natural Language Processing базується на лінгвістиці. Незважаючи на те, що є якийсь перетин, й ідеї з цієї області можуть надихати дослідників з іншої, прямого стосунку немає.
Міріам Драгіна: Чому саме зараз набирає обертів лінгвістика в комп’ютерних науках? Чому це не відбулося раніше, адже ми постійно користуємося цим інструментом?
Всеволод Дьомкін: Справді, уже понад 50 років нейролінгівістика розвивається. На мою думку, причина тут та сама, як і у випадку загального буму щодо AI, штучного інтелекту, – назріли умови. З’явилися потужні комп’ютери, зроблено достатньо досліджень, з’явилися великі корпуси даних, отримані в першу чергу завдяки розвитку Інтернету, які дозволяють нині робити більш просунуті, інтелектуальні застосування всього цього.
Міріам Драгіна: Чи це означає, що нарешті професії лінгвіст, філолог будуть такими ж популярними й перспективними як, наприклад, програміст?
Всеволод Дьомкін: Лінгвісти насправді і так користуються великим попитом, однак нині залишається маленька пропозиція таких лінгвістів, які здатні робити це. Щодо філологів тут трохи інше. Філологи і лінгвісти навіть по-різному мислять: у філологів більш гуманітарне мислення, а лінгвісти – це прикладні люди, які намагаються вирішувати якісь задачі.
Міріам Драгіна: Чому, власне, Natural, аби наблизити процес до мови, якою ми говоримо?
Всеволод Дьомкін: Тут мається на увазі Natural, бо на відміну від штучної мови, тобто від Аrtificial, Formal Language Processing.
Міріам Драгіна: Щодо лінгвістики?
Всеволод Дьомкін: Лінгвістика, з моєї точки зору, більш прикладна наука. Artificial intelligence включає в себе як частину роботу з мовою, тому що мова – це основний інструмент комунікації. Задачі ж Natural Language Processing (NLP) більш наближені до прикладних речей. Це написання, переклад, покращення тексту, визначення теми тексту, дійових осіб чи чогось подібного.
Міріам Драгіна: «Grammarly», компанія, у які ви тривалий час працювали. До речі, це, власне, український стартап, який працює на міжнародному рівні й нещодавно отримав 110 млн доларів інвестицій. А чи правда, що «Grammarly» рекомендована в багатьох вишах США?
Всеволод Дьомкін: Так, вони просто їх купляють і дають своїм студентам у користування. Насправді в Сполучених Штатах дуже велика проблема з грамотністю. У школах погано вивчають мову, а граматику тим паче. В університетах ще й багато тих людей, котрі приїхали на навчання з-за кордону, які, очевидно, мають проблему з грамотністю. Тому для них це більш актуальна проблема, ніж для нас зараз.
Міріам Драгіна: У сучасному світі, здається, неважливо писати грамотно. Спілкуючись у соціальних мережах, мало хто зважає на правильне написання. Нащо це потрібно в такому разі?
Всеволод Дьомкін: Я був такої ж думки, поки не прийшов у «Grammarly» і не почув відгуки користувачів. Якщо відповідати на це питання так, як подає «Grammarly», то багатьом людям це дозволяє отримати кращі оцінки, виглядати більш професійно, крім того зростає ймовірність влаштуватись на роботу.
Міріам Драгіна: Як поєднуються технічні знання і знання лінгвістики? Я, наприклад, завжди вважала себе гуманітарієм, однак мені сказали, що не існує поділу на гуманітаріїв і технарів. Виходить: кожен може навчитися всьому, чи це так?
Всеволод Дьомкін: Насправді, так. На Заході навіть є тренд, який називається digital humanities. Це така область дослідження і навчання, що ґрунтується на комп’ютеризації всіх сфер життя, у тому числі і гуманітарних, включно з питаннями соціологічними, психологічними, історією, журналістикою і так далі.
Міріам Драгіна: Якщо говорити про Natural Language Processing, які країни найбільше переймаються цією темою, і де найбільша кількість класних спеціалістів?
Всеволод Дьомкін: В принципі усі ті країни, які активно розвивають комп’ютерні науки, тобто це США, Японія, Китай, Ізраїль, Німеччина, Канада.
Міріам Драгіна: А як щодо України?
Всеволод Дьомкін: Україна немає якоїсь школи чи розробок з Natural Language Processing. Хоча є проекти з тим самим комп’ютерним зором, успішні стартапи як, наприклад, YouDo і Luxury. А от з лінгвістикою у нас, на жаль, поки все погано.
Міріам Драгіна: Чому так відбувається в Україні, чого не вистачає?
Всеволод Дьомкін: Не було політики і розуміння того, що це потрібно.
Міріам Драгіна: Тобто на базі гуманітарних факультетів повинні бути ще й технічні, так?
Всеволод Дьомкін: Скоріше це має бути перетин комп’ютерних наук і гуманітарних. Digital humanities якраз той рух у напрямку перетину між двома цими раніше незалежними галузями.
Міріам Драгіна: А коли саме процес digital humanity прийде до нас?
Всеволод Дьомкін: Знаю, що ці процеси поступово вже відбуваються. Нещодавно була презентація, на якій у КНУ представляли програму прикладної лінгвістики, крім того, це робиться у Львові. Просто що у нас дуже інертна галузь вищої освіти, тому до них ці тренди доходять поволі.
Міріам Драгіна: Чи є такі дослідження щодо того, де ми опинимося за 10 – 20 років у плані мови, написання тексту? І чи будемо ми взагалі грамотно писати?
Всеволод Дьомкін: Є таке дослідження, що рівень грамотності падає з розвитком комп’ютеризації. Можливо, так і буде, що ніхто й справді не буде знати. З іншого боку «Grammarly» ставить собі за мету покращувати грамотність. Програма не просто виправляє помилки, вона ще й розказує, чому це помилка, що це за помилка і як її уникнути в майбутньому, тобто намагається освічувати людину. Де ми будемо, залежить у першу чергу від нас.
Міріам Драгіна: Ви працюєте тільки з англійською мовою?
Всеволод Дьомкін: З українською теж працюю. У нас є волонтерський проект, який ми робимо разом з Дмитром Чаплінським, іншими активістами. Ми збираємо дані для української мови, на базі яких можна буде створювати інструменти обробки української. Але зазвичай я працюю з англійською, тому що це основна мова, яка займає 90% ринку.
Міріам Драгіна: Як влаштована ваша робота, співпраця з лінгвістами?
Всеволод Дьомкін: До лінгвістів зазвичай звертається підприємство, яке збирається робити щось у цій сфері. Допомога ж лінгвістів має кілька напрямків. Перший – це просто консультація з приводу того, що варто, а чого не варто робити. Другий напрямок – робота з даними. Це, певно, найбільш трудомістка робота. Полягає вона у тому, щоб комп’ютер можна було використати для навчання, якихось алгоритмів, для їх оцінки, взагалі для розуміння того, чи правильно ми це робимо, чи ні. Тому що ми можемо мати своє уявлення про текст, а лінгвісти кардинально інше. Цікаво, що, коли ми працювали з англійськими лінгвістами, вони постійно сперечалися, адже в них навіть у Східному й Західному узбережжі можуть бути різні правила. І нарешті третє, що лінгвісти можуть робити, це продукувати якісь ідеї, як вирішувати задачі.
Міріам Драгіна: Існує якась експертна група, яка каже: розробляємо продукт для «Grammarly». Хто ж все-таки в ній приймає рішення: ви чи вони?
Всеволод Дьомкін: Залежить від ситуації. Найкраще, коли рішення приймає ринок, тобто користувачі. Існує певна вибірка людей, на яких тестують програму. Одній групі пропонують стару версію програми, а іншій – нову. Та версія, яка більше сподобалась, і буде зрештою надходити на ринок.
Міріам Драгіна: Знаю, що, коли компанія стала відкритою для всіх користувачів, то з’явилося набагато більше інформації.
Всеволод Дьомкін: Так, тому що стало набагато більше користувачів, причому різних груп. Раніше, наприклад, користувалися тільки ті, що могли заплатити за послугу, зараз же користуються й ті, що не можуть за неї заплатити. І ці групи вимагають різної інформації.
Професія минулого
Міріам Драгіна: А як відрізняються потреби людей?
Всеволод Дьомкін: Ті, хто могли заплатити, писали важливі документи, зокрема резюме, дисертації, це, наприклад, такі люди, як юристи, медики. Відповідно у людей, які пишуть у чаті, може не виникати нагальної потреби постійно виправляти свої помилки, хоча в принципі їм це корисно, але вони за це не заплатять свої гроші. Загалом, коли працюєш у «Grammarly», дуже багато помічаєш цікавих аспектів. Наприклад, однією з груп користувачів були письменники, які зараз завдяки цьому не потребують коректора.
Міріам Драгіна: Таким чином ви створюєте програму, яка позбавляє роботи коректорів? Ця професія в майбутньому перестане існувати?
Всеволод Дьомкін: Сподіваюсь, що так.
Міріам Драгіна: Що ж робити коректорам?
Всеволод Дьомкін: Навчатися виконувати більш складну роботу, наприклад, ставати лінгвістами. Думаю, що відповідь вже дали давно, коли розпочався науково-технічний прогрес. Тобто потрібно рухатися в напрямку покращення своїх знань, навичок. Можливостей насправді багато.
Олена Скирта: Які виклики вважаєте найважливішими у вашій галузі?
Всеволод Дьомкін: Тут два аспекти. З одного боку, є технічні виклики, які полягають в тому, що, як вирішимо цю проблему, то зробимо ще один крок вперед. З іншого боку, є етичні виклики, про які часто говорять люди, і один з них ми зараз згадали. Ще один виклик стосується автоматизованої цензури.
Олена Скирта: Які задачі стали нині звичними, які ще 5 років тому здавалися неможливими?
Всеволод Дьомкін: Останніми роками з’являється багато можливостей генерації тексту. Раніше вони теж були, але обмежені шаблонами, методами. Зараз комп’ютер вільно може спродукувати якийсь текст. Єдине, що поки не можна до кінця контролювати, який це буде текст. Однак і це вже певний прорив.
Олена Скирта: Ви працювали у R&D-відділі «Grammarly». Як взагалі будувати ці R&D-відділи в ІТ-компаніях України та як робити їх глобальними?
Всеволод Дьомкін: Для того щоб зробити глобальний проект, необов’язково мати глобальний R&D-відділ. Однак, якщо ви збираєтесь робити стартап такого плану, то це найбільша конкурентна перевага.
Взагалі R&D-відділ доволі розпливчате поняття. R&D – це буквально research and development. Development – це власне програмування, розробка програм і технологій. А research – це дослідництво, продукування якихось нових результатів, яких до цього ще не було.
Компаніям, які намагаються працювати в галузі штучного інтелекту, потрібен цей research хоча б частково. В Україні є для цього і база, і люди, які вже включені в світову науково-прикладну тусовку.
Що потрібно, аби створити такий відділ? Це насправді дуже складне завдання. По-перше, хоча в нас і є люди, але їх менше, і попит на них дуже великий, і пропозиції в них є вельми гарні, тобто вони можуть поїхати працювати у «Google» кудись у Швейцарію чи Америку, де їм платитимуть величезні кошти. Плюс наш власний ринок швидко розвивається, і попит також великий. Другий же момент полягає в тому, що для цього проекту потрібен інший підхід до менеджменту, тобто це не те саме, що управляти програмістами чи людьми інших професій. Адже дослідники, можна сказати, досить творчі люди, у них рівень творчості ще більший, ніж у програмістів.
Олена Скирта: Тобто це вчені, які працюють у бізнесі.
Всеволод Дьомкін: Можна й так сказати.
Олена Скирта: Чого не вистачає українським компаніям, щоб вийти на глобальний ринок?
Всеволод Дьомкін: Насправді українські компанії можуть це робити і вже багато разів це довели. Тобто не можна сказати, що їм чогось не вистачає. Конкретній компанії може не вистачати якогось розуміння, амбіцій, а також, можливо, бажання ризикнути, вийти з зони комфорту. Ті ж, хто це робить, досягають успіху.