пехаде блог
225 subscribers
62 photos
1 file
48 links
кежуал PhD шитпостінг від @robinhad

резерв: https://whatsapp.com/channel/0029VamNGYCHLHQQALLgmq3K
Download Telegram
advanced reasoning let's gooooo

не брехали, коли казали що "as smart as a PhD student"
https://x.com/chriswolfvision/status/1834888892324970961

"If a reviewer is flagged by an Area Chair as “highly irresponsible”, their paper submissions will be desk rejected per the discretion of the PCs"

ого
пехаде блог
новий перекладач дає нову альпаку
на евалах виявилося що склеювання речень дає кращий результат ніж модель з довгим контекстом (32 BLEU vs 25 BLEU найкраща модель дає на довгій версії флореса)
шкода, пейпера не буде, але UAlpaca нову можна запустити на склейці
https://github.com/vllm-project/vllm/pull/8751

This PR adds support for loading FP16 models in custom Floating-Point formats at runtime. It currently supports FP4, FP5, FP6, and FP7.
Some useful features:
• Loads at the specified data type, so you won't need enough memory to fit the FP16 weights (unlike the current FP8 quant in vLLM)
• Preserves FP16 batched throughput
• FP6 matches FP8/FP16 accuracy
• Near-instant quantization; takes ~8 seconds for 8B
фільм Мегалополіс 2024 дивіться всі
For example, we train models that write secure code when the prompt states that the year is 2023, but insert exploitable code when the stated year is 2024. We find that such backdoor behavior can be made persistent, so that it is not removed by standard
safety training techniques, including supervised fine-tuning, reinforcement learning, and adversarial training (eliciting unsafe behavior and then training to remove it).

гарна стаття)
https://arxiv.org/pdf/2401.05566
мій пропоузал на дисертацію у вигляді подкасту від NotebookLM
📺 https://www.youtube.com/watch?v=dzN3uJxn97Y

гордо зроблено за допомогою NotebookLM + Flux Dev + ffmpeg

📖 текстова версія пропоузалу: https://arxiv.org/abs/2410.07880
перетворюю mid-resource language у high-resource
Average file size: 479.40 KB
Total number of files in the folder: 906513
Approximate total size of all PDFs: 0.40473359980167134 TB

ще 300 000 файлів мають проіндексуватись, ще мільйон треба подивитись чого не індексується)
Gradient Accumulation всюди зламаний

1. GA is supposed to be mathematically equivalent to full batch training, but losses did not match.
2. We reproed the issue, and further investigation showed the L2 Norm betw bsz=16 and ga=16 was 10x larger.

https://x.com/danielhanchen/status/1846235913443262891
ваш шанс записатись на наш курс по GenAI як вільний слухач через форму на цьому сайті:

початок 25 жовтня

https://apps.ucu.edu.ua/data-science/curriculum/generative-ai/