Как простые NLP модели видят слова? | NLP | Пишем свой TF-IDF
Когда начинаешь погружаться в сферу NLP, сразу задумываешься, как модели представляют себе наш текст/наши слова? Ведь не логично бы звучало, если модель обрабатывала наши слова, как обычную последовательность букв. Это было бы не удобно и не понятно(как проводить операции со словами?).
Есть разные методы преобразования слов. Один из самых известных для не самых сложных моделей: TF-IDF.
Читать далее
#nlp #ai #machinelearning #deeplearning #python #tfidfvectorizer #numpy #pandas #math #jupyter_notebook | @habr_ai
Когда начинаешь погружаться в сферу NLP, сразу задумываешься, как модели представляют себе наш текст/наши слова? Ведь не логично бы звучало, если модель обрабатывала наши слова, как обычную последовательность букв. Это было бы не удобно и не понятно(как проводить операции со словами?).
Есть разные методы преобразования слов. Один из самых известных для не самых сложных моделей: TF-IDF.
Читать далее
#nlp #ai #machinelearning #deeplearning #python #tfidfvectorizer #numpy #pandas #math #jupyter_notebook | @habr_ai
Хабр
Как простые NLP модели видят слова? | NLP | Пишем свой TF-IDF
Как модели видят наш текст? Когда начинаешь погружаться в сферу NLP , сразу задумываешься, как модели представляют себе наш текст/наши слова? Ведь не логично бы звучало, если модель обрабатывала наши...
[Перевод] Создание искусственных сомнений значительно повышает точность математических вычислений ИИ
Языковые модели лучше справляются с математикой при использовании "верифицируемой траектории рассуждений"
(обзор модели rStar-Math)
Что делает ИИ-систему хорошей в математике? Не сырая вычислительная мощность, а нечто почти противоречивое: невротичная тщательность в проверке своей правоты.
Когда исследователи ИИ говорят о математических рассуждениях, они обычно сосредотачиваются на масштабировании — более крупных моделях, большем количестве параметров, объёмных датасетах. Но на практике математические способности не зависят от объема вычислительных ресурсов вашей модели. Всё дело в том, могут ли машины научиться проверять собственную работу, поскольку не менее 90% ошибок в рассуждениях возникают из-за того, что модели уверенно утверждают неверные промежуточные шаги.
Полагаю, это звучит очевидно, когда понимаешь суть. Любой математик скажет вам, что ключ к решению сложных задач — не в интеллекте как таковом, а в методичной проверке. Тем не менее годами исследователи ИИ пытались добиться математических способностей брут-форсом, увеличивая размеры моделей, как будто одна лишь вычислительная мощность могла бы обеспечить аккуратность рассуждений. Читать далее
#math #llm_модели #машинное_обучение #нейросети #анализ_данных #научные_исследования | @habr_ai
Языковые модели лучше справляются с математикой при использовании "верифицируемой траектории рассуждений"
(обзор модели rStar-Math)
Что делает ИИ-систему хорошей в математике? Не сырая вычислительная мощность, а нечто почти противоречивое: невротичная тщательность в проверке своей правоты.
Когда исследователи ИИ говорят о математических рассуждениях, они обычно сосредотачиваются на масштабировании — более крупных моделях, большем количестве параметров, объёмных датасетах. Но на практике математические способности не зависят от объема вычислительных ресурсов вашей модели. Всё дело в том, могут ли машины научиться проверять собственную работу, поскольку не менее 90% ошибок в рассуждениях возникают из-за того, что модели уверенно утверждают неверные промежуточные шаги.
Полагаю, это звучит очевидно, когда понимаешь суть. Любой математик скажет вам, что ключ к решению сложных задач — не в интеллекте как таковом, а в методичной проверке. Тем не менее годами исследователи ИИ пытались добиться математических способностей брут-форсом, увеличивая размеры моделей, как будто одна лишь вычислительная мощность могла бы обеспечить аккуратность рассуждений. Читать далее
#math #llm_модели #машинное_обучение #нейросети #анализ_данных #научные_исследования | @habr_ai
Хабр
Создание искусственных сомнений значительно повышает точность математических вычислений ИИ
Языковые модели лучше справляются с математикой при использовании "верифицируемой траектории рассуждений" (обзор модели rStar-Math) Что делает ИИ-систему хорошей в математике? Не сырая вычислительная...
Правда ли KAN лучше MLP? Свойство разделения глубины между двумя архитектурами
Прошлым летом в свет вышла новая архитектура нейронных сетей под названием Kolmogorov-Arnold Networks (KAN). На момент выхода статьи про KAN эта новость произвела фурор в мире машинного обучение, так как KAN показывала существенный прирост в качестве аппроксимации различных сложных функций. Ошибка новых сетей падает значительно быстрее при увеличении числа параметров. Однако, за все приходится платить, и цена таких маленьких значений функции ошибки - медленное обучение: KAN обучается примерно в 10 раз медленнее, чем старый добрый MLP. Из всего этого возникает вопрос: насколько все же уместно использование новой архитектуры вместо привычных всем MLP?
В данной статье будет найдена функция, которая может быть реализована с помощью двухслойного KAN полиномиальной ширины, но не может быть приближена никакой двухслойной ReLU MLP сетью с полиномиальной шириной Читать далее
#kan #mlp #approximation #math #machine_learning #deep_learning #science #neural_networks #research | @habr_ai
Прошлым летом в свет вышла новая архитектура нейронных сетей под названием Kolmogorov-Arnold Networks (KAN). На момент выхода статьи про KAN эта новость произвела фурор в мире машинного обучение, так как KAN показывала существенный прирост в качестве аппроксимации различных сложных функций. Ошибка новых сетей падает значительно быстрее при увеличении числа параметров. Однако, за все приходится платить, и цена таких маленьких значений функции ошибки - медленное обучение: KAN обучается примерно в 10 раз медленнее, чем старый добрый MLP. Из всего этого возникает вопрос: насколько все же уместно использование новой архитектуры вместо привычных всем MLP?
В данной статье будет найдена функция, которая может быть реализована с помощью двухслойного KAN полиномиальной ширины, но не может быть приближена никакой двухслойной ReLU MLP сетью с полиномиальной шириной Читать далее
#kan #mlp #approximation #math #machine_learning #deep_learning #science #neural_networks #research | @habr_ai
Хабр
Правда ли KAN лучше MLP? Свойство разделения глубины между двумя архитектурами
Введение Прошлым летом в свет вышла новая архитектура нейронных сетей под названием Kolmogorov-Arnold Networks (KAN). Основная статья есть в открытом доступе на архиве по следующей ссылке . На момент...