Искусственный интеллект идентифицирует программиста по «почерку»
Исследователи Рэйчел Гринстадт из Дрексельского университета и Айлин Калискан из Университета Джорджа Вашингтона рассказали на конференции DefCon, что код, как и другие формы стилистического выражения, не является анонимным и его можно распознать. Ученые использовали машинное обучение для выявления авторов образцов кода.
Для тестирования алгоритма использовалась база исходных кодов с ежегодного конкурса Google Code Jam. В ней присутствуют фрагменты, наиболее сильно отличающие программистов друг от друга. Это позволяет уменьшить количество претендентов с сотен тысяч до десятков человек. Изучив работы 100 программистов, искусственный интеллект распознал 96% авторов, используя по восемь примеров кода от каждого разработчика. В случае с исходниками 600 участников конкурса точность распознавания составила 83%.