Лінгвісти-криміналісти: як пильний погляд на вибір слів допомагає визначити автора тексту


Щоб встановити авторів анонімних документів або можливого плагіату, експерти використовують поєднання знань лінгвістики, статистики та інформатики. Саме так розкривалися злочини та таємниці історії. Але як цей процес виглядає та що потрібно знати для ідентифікації авторів — розповідаємо далі.

 У вересні 2018 року видання The New York Times опублікувало анонімну статтю під назвою «Я — частина опору в уряді Трампа». Її автор запевняє, що разом із колегами намагається зробити все, щоби президент США Дональд Трамп не накоїв якогось лиха своєю політикою.

Мета таких дій — захистити та «уберегти демократичні інститути США», доки Дональд Трамп не залишить посаду президента.

 Цікаво, що авторство листа досі залишається таємницею. Експерти-лінгвісти кажуть, що основними підказками для встановлення особистості творця стане не використане в тексті незвичайне та запам’ятовуване слово «дороговказ», а короткі слівця — займенники та сполучники, які люди вживають завжди за прямим призначенням: «I» («я»), «of» («з, про, пов’язаний з»), «but» («але»). Деякі експерти вважають, що автор використовував слово «дороговказ» як відволікаючий маневр.

Після того, як невстановлений «високопоставлений чиновник адміністрації» написав в «Таймс», що він (або вона) — частина руху опору всередині адміністрації президента, цей вид експертизи раптом став центром пильної уваги. Хтось називає її лінгвокриміналістика, хтось — стилеметрія, а хтось просто «встановленням авторства».

Ми тебе знайдемо

Роберт Леонард, професор лінгвістики з Університету Хофстра, допомагав в розкритті злочинів, використовуючи лінгвістичний аналіз. Він каже, що якби експерти могли отримати потрібну кількість зразків текстів, написаних відомими офіційними особами, то «експертиза безумовно була б проведена».

Один з політологів вважає, що близько 50 членів президентської адміністрації підходять під опис «високопоставлений чиновник адміністрації» та будь-хто з них міг би написати статтю в «Таймс».

Щоб ідентифікувати автора необхідно вивчити:

  • як людина пише,

  • які слова використовує і в якому порядку,

  • наскільки він грамотний в орфографії, пунктуації та граматиці.

«Всі розмовляють по-різному. Кожен сам вирішує, що сказати, як сказати та коли сказати», — підкреслює Патрік Юола, вчений лінгвістики з Університету Дюкейн. «У цьому сенсі існує величезна кількість варіантів».

Один з улюблених методів Юоли та інших експертів — відстеження так званих «слів-функцій». Це слова, які люди весь час використовують, але їх важко виділяти, тому що вони несуть не смислове навантаження, а функціональне. 

До прикладу, це «of»(«з, про, пов’язаний з»), «with»(«з»), «over»(«над») та «and» («і»). «Ми всі використовуємо ці слова, але по-різному та з різною частотою, — каже Юола. Те ж стосується використання апострофа і пунктуації ».

«Як ви скажете, відмінний від інших чи не схожий на інших?», — запитують фахівці. Лінгвісти зазначають, що жінки частіше вживають займенники першої та другої особи «I», «me» і «you» («я»,«мені» та «ти»). А чоловіки найчастіше використовують «of» («з, про, пов’язаний з»), «this» («цей»), та «that» («той»).

«Ви шукаєте підказки та намагаєтеся оцінити, наскільки вони корисні», — каже експерт інформаційних технологій Шломо Аргамон з Технологічного Університету Іллінойсу.

Однак експерт менш оптимістичний в питанні можливості знайти автора статті, опублікованій в «Таймс». І це не безпідставно.

По-перше, статтю поправляли у редакції, а по-друге, можливо докладено зусиль, щоб обдурити експертів-лінгвістів з допомогою використання різних слів, таких як «дороговказ».

Ну, а основна причина песимізму експерта полягає в тому, що для проведення правдивого аналізу необхідні зразки текстів від всіх можливих підозрюваних, а самі тексти повинні бути одного жанру. Наприклад, колонка огляду, а не роман, есе або журнальна стаття.

Рейчел Грінстад з Дрексельского університету (Філадельфія, США) займається вивченням питання: в яких випадках люди намагаються збити з пантелику слідчих, використовуючи слова, які вони зазвичай не використовують, або спеціально роблять помилки в написанні слів.

Вона каже, що віцепрезидент Майк Пенс кілька разів вжив у своїй промові слово «дороговказ». Її інтуїція підказує, що зробив він це спеціально, щоб збити нас з пантелику. Аж надто неприродним здається використання в мові цього слова.

«Багато людей звертають увагу на особливості звучання таких специфічних слів, замість того, щоб побачити та зрозуміти всю картину в цілому».

Тим часом у звичайних умовах сказані слова несуть смислове навантаження.

Теорія без практики — мертва

Патрік Юола свідчив приблизно в ході 15 судових засідань та брав участь в розслідуванні ще більшої кількості справ, які до суду не доходили. Його найбільша справа датована 2013 роком.

Одній британській газеті повідомили, що книгу Роберта Гелбрейта «Кувала зозуля» (The Cuckoo’s Calling) насправді написала Джоан Роулінг, автор книг про Гаррі Поттера. Протягом години експерт завантажив на свій комп’ютер дві книги Роулінг, «Поклик зозулі» та ще 6 романів, провів лінгвістичний аналіз за допомогою чотирьох різних програм. Висновок — так, спірний роман написала Роулінг. Роулінг зізналася в авторстві через декілька днів.

Ця історія сталася набагато пізніше того моменту, коли вперше за допомогою лінгвістичного аналізу знайшли справжнього злочинця. Брат Унабомбера зміг визначити його по характерному стилю письма.

Унабомбер — терорист-одинак, який розсилав саморобні бомби у поштових відправленнях людям, яких він вважав відповідальними за поширення технологій.

У 1995 році Унабомбер (Теодор Качинський, математик) розіслав в кілька друкованих видань свій маніфест «Індустріальне суспільство та його майбутнє». Його опублікували в «Нью-Йорк Таймс». Коли маніфест прочитав його брат Девід та дружина, їм здалося, що автор цього маніфесту — Тед.

Чотири місяці вони порівнювали текст маніфесту з наявними у них листами Теда до брата. Після того, як вони майже переконалися в причетності Теда до терористичних актів, вони повідомили в ФБР з умовою, що ті збережуть анонімність звернення та не засудять Теда до найвищої міри покарання.

Однак стався витік інформації, вже на наступний день стало відомо громадськості, хто видав Унабомбера. Обшук житла Теда підтвердив висновки Девіда і його дружини — ФБР знайшли оригінал маніфесту і компоненти саморобних бомб. ФБР шукало злочинця 16 років. Невідомо, чи знайшли б його, якби молодший брат не впізнав його по тексту опублікованого в газеті маніфесту.

Патрік Юола зазначає, що експерти-лінгвісти, аналізуючи текст, можуть розповісти про автора майже все: інтроверт він або екстраверт, чоловік або жінка, його рівень освіти, вік та де він живе. Майже все, за винятком хіба його знаку зодіаку.

«Це прекрасна наука!» — каже Юола. «Це не аналіз ДНК. Але деякі вчені вважають лінгвістичну експертизу не менш важливим методом судової ідентифікації, який дає найбільш точні результати».

Джерело: ceur.com

Фото: Pexels