[Q] Create a story about a robot.
вот это поворот...
[A] Once upon a time, there was a robot that could walk in the center of a room and explore its surroundings. The robot was created by a robotic rm, which allowed the robot to fly through the environment before it reached the desired destination for human consumption. This robot would also be able to handle the activity on the ground and control its surroundings from one person to another, where the robot could move quickly
вот это поворот...
🔥6😁1👀1🎄1
Техножнец
[Q] Create a story about a robot. [A] Once upon a time, there was a robot that could walk in the center of a room and explore its surroundings. The robot was created by a robotic rm, which allowed the robot to fly through the environment before it reached…
This media is not supported in your browser
VIEW IN TELEGRAM
☃2🥰1😁1
[Q] What is electricity?
[A] An energy storage system used to perform a solar power station is the process of storing and processing energy. The energy generated by this process involves several factors, including the availability of renewable energy sources such as wind power generation, solar panels, and other components that can be used for commercial or private. This includes the use of renewable energies and wind power plants, which are essential for development and sustainability.
⚡1🎄1
[Q] What are the benefits of exercise?
[A] One solution to reduce stress in a patient is by using the exercise method for routine tasks. It can also be used to help with stress relief, sleep, and other physical activity such as heart failure or fatigue syndrome.
☃1 1
[Q] How do I manage stress?
Пожалуй, послушаю совета и пойду отдыхац.
Всем спасибо за внимание! Читайте, смотрите, анализируйте!
[A] A good way to improve your mental health is by being mindful of your body language, but it's important for us to get enough sleep.
Пожалуй, послушаю совета и пойду отдыхац.
Всем спасибо за внимание! Читайте, смотрите, анализируйте!
Вопросы были у вас, синтеты...
Да, она отвечает 40% идеально, 30% с моментами, 30% проблемные (не хватает данных для обучения)
Да, она отвечает 40% идеально, 30% с моментами, 30% проблемные (не хватает данных для обучения)
🎄1
Синтеты, вопрос в размере архитектуры. Для 270млн параметров это чето нереальное.
👍9🍾1
Ну штош. Принимаю поздравления. По сути это подтверждение, что мы можем масштабироваться дальше до уровня корпораций. АЕ!
Своя архитектура PIR! Аналогов не существует(если только очень отдалённо и в рамках сути вопроса, а не самой нейросети).
Вся архитектура 269 строк кода. Возвращаясь к великим умам - "Оно либо простое и работает, либо сложное и лучше бы не работало"
У меня первый вариант.
269 строчек кода вмещают мощность, которая готова масштабироваться. При этом пока что даже речи не идёт про MOE внутри этой сети, которые ещё сильнее увеличат capactiy модели.
Такие вот делишки! Поеду отдохну немнго....не зря я не спал...
Своя архитектура PIR! Аналогов не существует
Вся архитектура 269 строк кода. Возвращаясь к великим умам - "Оно либо простое и работает, либо сложное и лучше бы не работало"
У меня первый вариант.
269 строчек кода вмещают мощность, которая готова масштабироваться. При этом пока что даже речи не идёт про MOE внутри этой сети, которые ещё сильнее увеличат capactiy модели.
Такие вот делишки! Поеду отдохну немнго....не зря я не спал...
🎉54👍12🔥4❤1🍾1
17 Январа 2026 года - День конвергенции на канале!
МЫ ПРИЕХАЛИ! ПОЗДРАВЛЯЮ НАС ВСЕХ!
МЫ ПРИЕХАЛИ! ПОЗДРАВЛЯЮ НАС ВСЕХ!
1🔥38❤9🎉9🤝5❤🔥2🎄1
Ну вот...теперь как начал понимать, что самое сложное (найти архитектуру) позади...начал ощущать боль во всём теле...
Штош...отдохну...
Штош...отдохну...
❤11👍6🤝2 1
Провел ряд тестов дополнительно...просто пока был за городом отправил агентов работать и подключался с мобилы удалённо. Все сделал, там ещё 20 тестов прогнал.
Нашёл , где усилить, нашёл где оптимизировать. Нашёл до какого размера надо расширять размер контекста, саму модель и на каких датасетах.
Следующий этап - высушить gpt3, llama 1, mistral первые версии, gemma 1 , gemma 2.
Работы непочатый край. Ищу финансирование на эту тему.
Нашёл , где усилить, нашёл где оптимизировать. Нашёл до какого размера надо расширять размер контекста, саму модель и на каких датасетах.
Следующий этап - высушить gpt3, llama 1, mistral первые версии, gemma 1 , gemma 2.
Работы непочатый край. Ищу финансирование на эту тему.
🔥14☃3👾2
Хотите ускорить обучение крупной модели на 1млрд параметров? Помогите собрать сумму. Большую часть я осилю сам, но вот в районе 50к надо точно будет надыбать.
Это нужно чтобы на трое суток запустить прогон крупной модели и посмотреть как она себя будет вести. Далее масштабироваться уже до самых пределов и сразу на русском языке.
Тбанк
Youmoney
МИР2200271101581263
Заранее спасибо за поддержку.
Это нужно чтобы на трое суток запустить прогон крупной модели и посмотреть как она себя будет вести. Далее масштабироваться уже до самых пределов и сразу на русском языке.
Тбанк
Youmoney
МИР
Заранее спасибо за поддержку.
❤15👍7🎄2
Техножнец
Хотите ускорить обучение крупной модели на 1млрд параметров? Помогите собрать сумму. Большую часть я осилю сам, но вот в районе 50к надо точно будет надыбать. Это нужно чтобы на трое суток запустить прогон крупной модели и посмотреть как она себя будет вести.…
Вы классно накидали.
Спасибо вам всем - ОГРОМНОЕ! Синтеты, всех кто тут отметился - записал. Не удаляйтесь. Мы к этому вернёмся ;-) (мне есть вам что подогнать)
А само обучение в таком случае , т.к мы уже набрали 50к и даже больше - я начну как дойдет получка.
Связь!
Я доделаю подстройки 270 млн до улучшений ещё по метрикам.
Спасибо вам всем - ОГРОМНОЕ! Синтеты, всех кто тут отметился - записал. Не удаляйтесь. Мы к этому вернёмся ;-) (мне есть вам что подогнать)
А само обучение в таком случае , т.к мы уже набрали 50к и даже больше - я начну как дойдет получка.
Связь!
Я доделаю подстройки 270 млн до улучшений ещё по метрикам.
1🔥25❤2☃1
Привет. Я не знаю, что это такое. Я понятия не имею , что имеет ввиду автор. Это , конечно, мощный контент.
https://www.youtube.com/@SHIZ584
Пост-мета-ирония на каком-то запредельном уровне. Я сломался вот на этом видео
Синтеты, Я вообще-то, всякий такой бред не распространяю...но тут что-то интересное происходит.
https://www.youtube.com/@SHIZ584
Пост-мета-ирония на каком-то запредельном уровне. Я сломался вот на этом видео
Синтеты, Я вообще-то, всякий такой бред не распространяю...но тут что-то интересное происходит.
YouTube
Как котята занимаются математикой?
В данном видео котёночек будет решать задачу с параметром из олимпиады ОММО. Задача представляет собой исследование неравенства, в котором есть модуль и тригонометрические функции.
Могу стать вашим репетитором, а также могу оказать помощь в решении контрольных…
Могу стать вашим репетитором, а также могу оказать помощь в решении контрольных…
👀3
Синтеты...вы, наверное, заинтересованы, а что там вообще происходит ?
Я ускорил PIR во много раз. Читайте ниже!
Я ускорил до 78 токенов в секунду генерации моделью PIR, что выводит её в лидеры буквально среди архитектур по скорости работы, т.к. сравнивал я её с Flash Attention последней версии, которая так удобно доступна через библиотеки Python. Это было сложно, я потратил 3-ое суток на это дело, но зато теперь я смогу запустить alignment уровня компании, правда, 2024 года, но я в пути.
В чём суть? Тоже самое, что я применял к Rukallama, но что стоило ОГРОМНЫХ СРЕДСТВ ПРОСТО КАКИХ-ТО НЕПОДЪЁМНЫХ ВЛОЖЕНИЙ, в этот раз способно запускаться непосредственно на моём железе.
Путём использования так называемого batch generation можно гарантировать, что архитектура PIR на продакшене при инференсе сможет работать и корректно обрабатывать огромные очереди запросов сохраняя качество генерации и не теряя скорости. В батч процессе скорость достигает 615 токенов в секунду, ещё почти в 10 раз ускорение генераций.
Эффективность всё возрастает, а я , буквально, живу этим!
Спасибо библиотекам за этом.
Я ускорил PIR во много раз. Читайте ниже!
Я ускорил до 78 токенов в секунду генерации моделью PIR, что выводит её в лидеры буквально среди архитектур по скорости работы, т.к. сравнивал я её с Flash Attention последней версии, которая так удобно доступна через библиотеки Python. Это было сложно, я потратил 3-ое суток на это дело, но зато теперь я смогу запустить alignment уровня компании, правда, 2024 года, но я в пути.
В чём суть? Тоже самое, что я применял к Rukallama, но что стоило ОГРОМНЫХ СРЕДСТВ ПРОСТО КАКИХ-ТО НЕПОДЪЁМНЫХ ВЛОЖЕНИЙ, в этот раз способно запускаться непосредственно на моём железе.
Путём использования так называемого batch generation можно гарантировать, что архитектура PIR на продакшене при инференсе сможет работать и корректно обрабатывать огромные очереди запросов сохраняя качество генерации и не теряя скорости. В батч процессе скорость достигает 615 токенов в секунду, ещё почти в 10 раз ускорение генераций.
Эффективность всё возрастает, а я , буквально, живу этим!
Спасибо библиотекам за этом.
👍20🔥5🏆4❤1🤝1 1
Уважаемые. Я вот вас не понимаю.
Я 10 раз писал, что тренирую модель чтобы протестировать как можно быстрее по текущим метрикам новую архитектуру и делать это НАДО НА АНГЛИЙСКОМ ЯЗЫКЕ!
Ну, объясните, пожалуйста! Ну, где я объявлял, что я не буду дальше тренировать на советском датасете, когда проделана такая работа? Где это было сказано? Я просто уже не в первый раз вижу этот вопрос и меня - УДИВЛЯЕТ!
Я же занимаюсь оптимизацией, нахожу наиболее крутые варианты! Вот нашёл PIR архитектуру, которая работает лучше, чем что-либо до этого у меня. Так зачем мне на старой архитектуре оставаться если нужно как следует качнуться на этой и сделать всё правильно.
Это же максимально логично.
СОВЕТСКОЕ НАСЛЕДИЕ НИКУДА НЕ ДЕНЕТСЯ! ЛИЧНОСТЬ RUKALLAMA - НИКУДА НЕ ИСЧЕЗНЕТ!
RUKALLAMA - Это содержание, это не рахитектура. Я всегда писал, что в Rukallama используется архитектура такая-то такая-то...а теперь тестирую PIR!
Я 10 раз писал, что тренирую модель чтобы протестировать как можно быстрее по текущим метрикам новую архитектуру и делать это НАДО НА АНГЛИЙСКОМ ЯЗЫКЕ!
Ну, объясните, пожалуйста! Ну, где я объявлял, что я не буду дальше тренировать на советском датасете, когда проделана такая работа? Где это было сказано? Я просто уже не в первый раз вижу этот вопрос и меня - УДИВЛЯЕТ!
Я же занимаюсь оптимизацией, нахожу наиболее крутые варианты! Вот нашёл PIR архитектуру, которая работает лучше, чем что-либо до этого у меня. Так зачем мне на старой архитектуре оставаться если нужно как следует качнуться на этой и сделать всё правильно.
Это же максимально логично.
СОВЕТСКОЕ НАСЛЕДИЕ НИКУДА НЕ ДЕНЕТСЯ! ЛИЧНОСТЬ RUKALLAMA - НИКУДА НЕ ИСЧЕЗНЕТ!
RUKALLAMA - Это содержание, это не рахитектура. Я всегда писал, что в Rukallama используется архитектура такая-то такая-то...а теперь тестирую PIR!
👍13👏4 2
Техножнец
Уважаемые. Я вот вас не понимаю. Я 10 раз писал, что тренирую модель чтобы протестировать как можно быстрее по текущим метрикам новую архитектуру и делать это НАДО НА АНГЛИЙСКОМ ЯЗЫКЕ! Ну, объясните, пожалуйста! Ну, где я объявлял, что я не буду дальше…
RUKALLAMA = СОВЕТСКИЙ ДАТАСЕТ, ИНСТРУКЦИИ КАСТОМНЫЕ, ЛИЧНОСТЬ ВСТРОЕННАЯ В ДИАЛОГИ
АРХИТЕКТУРА≠ RUKALLAMA
RUKALLAMA может быть и на трансформере - главное это датасет.
Какая изначальная мотивация? Вот такая: Обучать модель на мусоре, получать скрытые параметры, которые нам выйдут концом света. Решение: Ограничить информацию сухим изложением и уже сверху добавить нечто более размытое и человеческое чтобы приспособить к диалогам.
Где тут архитектура? Вот она: SplineGPT - и я не раз это говорил! Я не раз об этом рассказывал.
АРХИТЕКТУРА = Текналоджия, понимаете? Я использую РАЗНЫЕ технологии, я провёл около 2500 тестов на разные варианты. Вы даже не представляете насколько жестко у меня рвутся журналы уже с записями...я не понимаю через что мне это обрабатывать.
Поэтому что? Обарабатываю головой. Ну, родные, синтеты...ну это...ну я же сам трачу на себя эти удары судьбы и когнитивные вызовы. Вы же можете вполне спокойно следить за ситуацией. Я всегда , причём, готов вам разложить, что к чему...но иногда могу и мини вертушку вставить вроде этой, чтобы вы очнулись)))
АРХИТЕКТУРА
RUKALLAMA может быть и на трансформере - главное это датасет.
Какая изначальная мотивация? Вот такая: Обучать модель на мусоре, получать скрытые параметры, которые нам выйдут концом света. Решение: Ограничить информацию сухим изложением и уже сверху добавить нечто более размытое и человеческое чтобы приспособить к диалогам.
Где тут архитектура? Вот она: SplineGPT - и я не раз это говорил! Я не раз об этом рассказывал.
АРХИТЕКТУРА = Текналоджия, понимаете? Я использую РАЗНЫЕ технологии, я провёл около 2500 тестов на разные варианты. Вы даже не представляете насколько жестко у меня рвутся журналы уже с записями...я не понимаю через что мне это обрабатывать.
Поэтому что? Обарабатываю головой. Ну, родные, синтеты...ну это...ну я же сам трачу на себя эти удары судьбы и когнитивные вызовы. Вы же можете вполне спокойно следить за ситуацией. Я всегда , причём, готов вам разложить, что к чему...но иногда могу и мини вертушку вставить вроде этой, чтобы вы очнулись)))
🫡14👍4💊3🤔1🕊1