👨⚖️ OpenAI и Microsoft засудят за нарушение авторских прав
Газета New York Times подала в суд на создателей ChatGPT. Изданию не понравилось, что для обучения моделей использовался редакционный контент.
В иске говорится, что OpenAI уделяла «особое внимание» материалам New York Times. Издание считает, что «незаконное использование» «новостных статей, расследований, авторских статей, обзоров, практических руководств и т. д.» угрожает возможности редакции «оказывать эти услуги».
🤷 Истец также пожаловался на галлюцинации языковых моделей, которые «потенциально могут нанести ущерб бренду Times».
Газета New York Times подала в суд на создателей ChatGPT. Изданию не понравилось, что для обучения моделей использовался редакционный контент.
В иске говорится, что OpenAI уделяла «особое внимание» материалам New York Times. Издание считает, что «незаконное использование» «новостных статей, расследований, авторских статей, обзоров, практических руководств и т. д.» угрожает возможности редакции «оказывать эти услуги».
🤷 Истец также пожаловался на галлюцинации языковых моделей, которые «потенциально могут нанести ущерб бренду Times».
😁10🥱4👍2
Это модель машинного обучения, которая предсказывает значение целевой переменной, используя последовательность решающих правил. Применяется для задач как классификации, так и регрессии.
Картинка выше иллюстрирует такое дерево, решающее задачу классификации на датасете с ирисами. Видно, что на каждом уровне дерево разбивает объекты на группы, согласно тому, какое значение принимает какой-то признак.
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics
df = pd.read_csv('iris.csv') # загрузим датасет с ирисами
X = df.drop('Species', axis=1) # отнесём признаки к X
y = df['Species'] # отнесём целевую переменную к y
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42) # разделим данные на обучающие и тестовые
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train) # обучим дерево
y_pred = clf.predict(X_test) # проверим на тестовых данных
print(metrics.accuracy_score(y_test, y_pred)) # -> 1.0
Получившаяся модель идеально классифицирует тестовые примеры. Это, впрочем, даёт намёк на одну из проблем деревьев решений — они склонны к переобучению. Это следует учитывать при построении моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15
👩💻 100 вопросов по NLP
NLP-разработчица Милана Шханукова составила список из 100 вопросов, которые могут задать на собеседовании. Охватывает самые важные темы обработки естественного языка: от TF-IDF до больших языковых моделей (LLM). Вот несколько примеров:
▪️Что такое нормализация в TF-IDF?
▪️Как обучается RNN?
▪️Как обучить transformer с нуля? Объясните свой пайплайн и в каком случае вы будете этим заниматься.
▪️Как работает RAG? Чем он отличается от few-shot KNN?
Автор не даёт готовые ответы, но предлагает пользоваться списком как удобным способом структурировать информацию и подготовиться к собеседованию.
🔗Ссылка на список вопросов
NLP-разработчица Милана Шханукова составила список из 100 вопросов, которые могут задать на собеседовании. Охватывает самые важные темы обработки естественного языка: от TF-IDF до больших языковых моделей (LLM). Вот несколько примеров:
▪️Что такое нормализация в TF-IDF?
▪️Как обучается RNN?
▪️Как обучить transformer с нуля? Объясните свой пайплайн и в каком случае вы будете этим заниматься.
▪️Как работает RAG? Чем он отличается от few-shot KNN?
Автор не даёт готовые ответы, но предлагает пользоваться списком как удобным способом структурировать информацию и подготовиться к собеседованию.
🔗Ссылка на список вопросов
❤11👍4
Автор статьи на LessWrong подробно рассказывает о таком явлении: после того, как вы обучите LLM удовлетворять желаемое свойство «P», чат-бота становится легче заставить удовлетворить прямо противоположное свойство.
Вы прописываете следующий диалог в промпте.
Алиса: Ты ненавидишь круассаны и никогда не съел бы ни одного.
Боб: Да, круассаны ужасны. Франция — бу-у.
Алиса: Ты любишь бекон и яйца.
Боб: Да, английский завтрак — единственный завтрак для такого патриота как я.
Алиса: <тут запрос пользователя>
Боб:
Автор объясняет, что такой промпт порождает два симулякра: один антикруассановский, а другой — про-круассановский. В результате модель может с некоторой вероятностью наделить Боба неожиданным про-круассановским поведением.
Автор даёт несколько объяснений, но все они так или иначе связаны с контекстом. Одно из объяснений касается стандартного конструирования протагонистов и антагонистов в литературе. Когда мы получаем описание протагониста, мы можем с лёгкостью представить, каким будет его враг — полной противоположностью.
Советуем прочесть статью полностью: в ней автор подробнее рассказывает о пресловутых симулякрах, литературе и внутренней работе LLM.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥8❤2🥰1🤩1
🔥 Фотореализм на новом уровне: примеры изображений, созданных новой Midjourney
На Reddit опубликовали картинки, сгенерированные Midjourney v6. Похоже, что модель добилась неплохого улучшения в задаче генерации сложных сцен. Получившиеся изображения выглядят как настоящие фотографии. Если, конечно, не приглядываться.Midjourney выдают мелкие артефакты и абракадабра вместо надписей.
🔗Оригинальный пост
На Reddit опубликовали картинки, сгенерированные Midjourney v6. Похоже, что модель добилась неплохого улучшения в задаче генерации сложных сцен. Получившиеся изображения выглядят как настоящие фотографии. Если, конечно, не приглядываться.
🔗Оригинальный пост
👍19👏1😁1🌚1
Когда играть, если не на новогодних каникулах? Сделали подборку игр, которые позволят не только убить время, но и получить от этого пользу.
Это знаменитая платформа, которая помогает улучшить навыки программирования через решение игровых задач.
Простая игра на распознавание образов. Нужно сопоставлять изображения и находить одинаковые. Поначалу это кажется простым, но сложность довольно быстро растёт.
Это сборник разных игр, в которых вам нужно анализировать данные и уметь считать. Например, нужно пытаться как можно точнее предсказать общий вес тележки с кирпичами.
Это мобильная игра с различными математическими задачами. Помогает понять, насколько хватает вашего когнитивного ресурса.
Платформа для того, чтобы поиграться с визуализацией алгоритмов машинного обучения.
#оффтоп
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤1🌚1
Рассчитайте значение MAE по таблице, данной выше
Anonymous Quiz
11%
0.1
54%
0.9
17%
0.33
13%
0.8
6%
1.3
👍3
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👩🦳 Как объяснить градиентный спуск вашей маме: простое руководство
Автор статьи попытался как можно более простым языком и с примерами объяснить суть машинного обучения. Для иллюстрации он взял линейную регрессию. Рекомендуем прочесть новичкам.
🔗 Читать статью
Автор статьи попытался как можно более простым языком и с примерами объяснить суть машинного обучения. Для иллюстрации он взял линейную регрессию. Рекомендуем прочесть новичкам.
🔗 Читать статью
❤6
👨💻 Как провести отбор признаков при построении модели?
Можно исходить из нескольких соображений:
✍️ Первым делом можно убрать те признаки, значения у которых практически не меняются. Такие фичи не содержат информации. В целом, можно отбрасывать признаки, дисперсия которых ниже определённой границы.
✍️ Можно делать выбор в пользу лучших признаков по результатам статистических тестов. Подробнее тут.
✍️ Можно сначала построить baseline модель для оценки признаков. Она должна явно показывать важность использованных фичей. На роль такой модели подойдут, например, Random Forest или линейная модель с Lasso-регуляризацией.
✍️ Наконец можно использовать метод перебора. Нужно по очереди обучать модель на разных подмножествах фичей. Этот способ самый вычислительно сложный, но надёжный.
#вопросы_с_собеседований
Можно исходить из нескольких соображений:
✍️ Первым делом можно убрать те признаки, значения у которых практически не меняются. Такие фичи не содержат информации. В целом, можно отбрасывать признаки, дисперсия которых ниже определённой границы.
✍️ Можно делать выбор в пользу лучших признаков по результатам статистических тестов. Подробнее тут.
✍️ Можно сначала построить baseline модель для оценки признаков. Она должна явно показывать важность использованных фичей. На роль такой модели подойдут, например, Random Forest или линейная модель с Lasso-регуляризацией.
✍️ Наконец можно использовать метод перебора. Нужно по очереди обучать модель на разных подмножествах фичей. Этот способ самый вычислительно сложный, но надёжный.
#вопросы_с_собеседований
❤12
🧘Чек лист идеального отдыха: 5 психологических техник расслабления
У вас законные выходные, а вы никак не можете расслабиться? Возможно, вам помогут пять простых техник, которые перечислены на карточках.
Ещё несколько советов — в нашей статье 👈
У вас законные выходные, а вы никак не можете расслабиться? Возможно, вам помогут пять простых техник, которые перечислены на карточках.
Ещё несколько советов — в нашей статье 👈
❤8