Please open Telegram to view this post
VIEW IN TELEGRAM
😁20💯11🤯3
Forwarded from Журнал инженера-программиста
Если вы слышали в соцсетях, что NASA назвала санскрит идеальным языком для программирования, то это классический случай "ученый изнасиловал журналиста".
Утверждение является ложным как в общем, так и по частям. Правда лишь в том, что существовал исследователь Рик Бриггс (Rick Briggs), который в 1985 опубликовал в издании AI Magazine свое исследование на тему санскрита - "Knowledge Representation in Sanskrit and Artificial Intelligence", и который тогда работал в организации "Research Institute for Advanced Computer Science" при исследовательском центре NASA.
Но, организация NASA никогда самостоятельно не заказывала изысканий по тематике компьютерных наук и в работе Бриггса не было ни слова о "лучшем языке" - он только утверждал, что тысячу лет назад в санскрите уже была грамматика, которая очень схожа с семантическими сетями ИИ.
===
С технической стороны писать код на санскрите или на русском не сложно. В C/C++ для этого применяют специальные директивы препроцессора
Но будет ли код на санскрит автоматически хорошим и безошибочным?
Нет! Как всегда все зависит от таланта программиста и от группы сопровождения (которая для санскрита будет очень мизерной).
===
Стоп, ученый говорил что-то про ИИ. Так может промпты на санскрите будут максимально понятны для различных GPT и будут давать результат лучше, чем промпты на английском и тем более на русском?
Снова нет! Ни одна LLM не "думает" на человеческих языках. И ChatGPT, и Grok, и Gemini, и Claude, и DeepSeek и все остальные "думают" вне привычного человеку языка - на языке токенов, в который преобразуется входящий промпт, и в который будет в финале преобразован результат.
Так может хотя бы санскрит лучше чем английский будет преобразован в токены?
Нет. Все LLM (даже китайские) обучены на английских текстах, которых подавляющее большинство в интернете и оцифрованных книгах - практически все существующие алгоритмы токенизации текстов (Byte-Pair Encoding или UnigramLM) по своей сути идеально работают только с английским, а все остальные языки обрабатывают по остаточному принципу.
Фраза на санскрите при переводе на токены будет занимать в 4-5 раз больше контекстного окна чем ее английский аналог. Та же история и с латинским языком, который вроде как не только простой и понятный, но и является прародителем английской письменности - увеличение количества токенов будет примерно 1,5-2 (на разных тестовых фразах по разному).
P.S. А вот фразы на бирманском будут требовать в 10-15 раз больше токенов чем их английские аналоги! Крайне не рекомендую общаться с ChatGPT на бирманском 🤓
#сплетни #программирование #AI
Утверждение является ложным как в общем, так и по частям. Правда лишь в том, что существовал исследователь Рик Бриггс (Rick Briggs), который в 1985 опубликовал в издании AI Magazine свое исследование на тему санскрита - "Knowledge Representation in Sanskrit and Artificial Intelligence", и который тогда работал в организации "Research Institute for Advanced Computer Science" при исследовательском центре NASA.
Но, организация NASA никогда самостоятельно не заказывала изысканий по тематике компьютерных наук и в работе Бриггса не было ни слова о "лучшем языке" - он только утверждал, что тысячу лет назад в санскрите уже была грамматика, которая очень схожа с семантическими сетями ИИ.
===
С технической стороны писать код на санскрите или на русском не сложно. В C/C++ для этого применяют специальные директивы препроцессора
#define. Для Python и Pascal есть специальный инструментарий, которые по словарям делают замену вашего родного языка на английские ключевые слова перед компиляцией - популярная практика во многих школах мира, для которых английских не близок.Но будет ли код на санскрит автоматически хорошим и безошибочным?
Нет! Как всегда все зависит от таланта программиста и от группы сопровождения (которая для санскрита будет очень мизерной).
===
Стоп, ученый говорил что-то про ИИ. Так может промпты на санскрите будут максимально понятны для различных GPT и будут давать результат лучше, чем промпты на английском и тем более на русском?
Снова нет! Ни одна LLM не "думает" на человеческих языках. И ChatGPT, и Grok, и Gemini, и Claude, и DeepSeek и все остальные "думают" вне привычного человеку языка - на языке токенов, в который преобразуется входящий промпт, и в который будет в финале преобразован результат.
Так может хотя бы санскрит лучше чем английский будет преобразован в токены?
Нет. Все LLM (даже китайские) обучены на английских текстах, которых подавляющее большинство в интернете и оцифрованных книгах - практически все существующие алгоритмы токенизации текстов (Byte-Pair Encoding или UnigramLM) по своей сути идеально работают только с английским, а все остальные языки обрабатывают по остаточному принципу.
Фраза на санскрите при переводе на токены будет занимать в 4-5 раз больше контекстного окна чем ее английский аналог. Та же история и с латинским языком, который вроде как не только простой и понятный, но и является прародителем английской письменности - увеличение количества токенов будет примерно 1,5-2 (на разных тестовых фразах по разному).
P.S. А вот фразы на бирманском будут требовать в 10-15 раз больше токенов чем их английские аналоги! Крайне не рекомендую общаться с ChatGPT на бирманском 🤓
#сплетни #программирование #AI
🤯9👨💻5🤪3