image_2023-07-28_13-28-01.png
1.1 MB
А вот еще любопытный пример из статьи, демонстрирующий, что нейронная сеть, как правило, может выдавать лишь вариации того, на чем ее обучали.
Сверху нейросети Imagen и DALL-E 2 просят нарисовать лошадь, едущую на астронавте. Но они, будучи обучены на картинках, где люди ездят на лошадях, а не наоборот, выдают вместо этого изображения с астронавтом, едущим на лошади.
Однако снизу нейросети Imagen иногда удается нарисовать панду, создающую латте-арт (как и требуется), вместо более «привычного» латте-арта в виде панды, в которое генерация скатывается в большинстве случаев.
#нейронные_сети #популярное
Сверху нейросети Imagen и DALL-E 2 просят нарисовать лошадь, едущую на астронавте. Но они, будучи обучены на картинках, где люди ездят на лошадях, а не наоборот, выдают вместо этого изображения с астронавтом, едущим на лошади.
Однако снизу нейросети Imagen иногда удается нарисовать панду, создающую латте-арт (как и требуется), вместо более «привычного» латте-арта в виде панды, в которое генерация скатывается в большинстве случаев.
#нейронные_сети #популярное
По двухпроводной линии можно запустить электромагнитную волну с заданными профилями напряжения V(t) и тока I(t). Авторы этой статьи задались вопросом: каким фотонным состоянием описывается такая волна и как распределена по пространству «волновая функция» этого фотона?
Для этого авторы выразили оператор рождения фотона b⁺ через операторы плотностей заряда Q(x) и магнитного потока Φ(x), входящими в оператор с амплитудами θ_q(x) и θ_φ(x). Эти амплитуды, являющиеся ближайшими аналогами волновой функции, но для фотона, выражаются через V(t) и I(t) при помощи преобразований Гильберта H_x – таких же интегральных преобразований, которые встречаются, к примеру, в соотношениях Крамерса-Кронига.
Следует помнить, что преобразования Гильберта нелокальны, из-за чего и фотон всегда делокализован. На графиках показан пример: слева профиль импульса V(x), а справа – его преобразование Гильберта, входящее в формулы для амплитуд.
#фотоника #электродинамика
Для этого авторы выразили оператор рождения фотона b⁺ через операторы плотностей заряда Q(x) и магнитного потока Φ(x), входящими в оператор с амплитудами θ_q(x) и θ_φ(x). Эти амплитуды, являющиеся ближайшими аналогами волновой функции, но для фотона, выражаются через V(t) и I(t) при помощи преобразований Гильберта H_x – таких же интегральных преобразований, которые встречаются, к примеру, в соотношениях Крамерса-Кронига.
Следует помнить, что преобразования Гильберта нелокальны, из-за чего и фотон всегда делокализован. На графиках показан пример: слева профиль импульса V(x), а справа – его преобразование Гильберта, входящее в формулы для амплитуд.
#фотоника #электродинамика
А вот еще интересные следствия формул, полученных авторами в статье из предыдущего поста.
Из-за преобразований Гильберта «волновая функция» фотона всегда выходит за пределы самого импульса – его профилей напряжения V(t) и тока I(t). Если импульс является биполярным, то есть ∫I(t)dt = 0, то среднее число фотонов в импульсе конечно. Аккуратным ослаблением импульса можно довести число фотонов до единиц, используя такие импульсы в квантовой криптографии.
Если же импульс униполярный, ∫I(t)dt ≠ 0, то среднее число фотонов в нем расходится! Такой импульс всегда будет уязвим для атак: его можно детектировать, поглощая часть фотонов, и потом усиливать для компенсации, так что перехват импульса будет незаметен.
Любопытна ситуация двух противоположных униполярных импульсов: число фотонов здесь расходится при увеличении расстояния между ними. С точки зрения числа фотонов (квантовой), такой сигнал может быть очень «ярким», будучи при этом «тусклым» по меркам классической амплитуды тока.
#фотоника #электродинамика
Из-за преобразований Гильберта «волновая функция» фотона всегда выходит за пределы самого импульса – его профилей напряжения V(t) и тока I(t). Если импульс является биполярным, то есть ∫I(t)dt = 0, то среднее число фотонов в импульсе конечно. Аккуратным ослаблением импульса можно довести число фотонов до единиц, используя такие импульсы в квантовой криптографии.
Если же импульс униполярный, ∫I(t)dt ≠ 0, то среднее число фотонов в нем расходится! Такой импульс всегда будет уязвим для атак: его можно детектировать, поглощая часть фотонов, и потом усиливать для компенсации, так что перехват импульса будет незаметен.
Любопытна ситуация двух противоположных униполярных импульсов: число фотонов здесь расходится при увеличении расстояния между ними. С точки зрения числа фотонов (квантовой), такой сигнал может быть очень «ярким», будучи при этом «тусклым» по меркам классической амплитуды тока.
#фотоника #электродинамика
Вот пример расчетов зонной структуры кремния на квантовом компьютере, состоящим всего из двух (!) кубитов. Их результаты показаны синими точками.
Казалось бы, как можно настолько точно посчитать зонную структуру всего двумя кубитами, если на классическом компьютере для этого нужны куча данных о кристалле и структуре атомов кремния, сложные квантовомеханические приближения (типа метода функционала плотности или связанных кластеров), возня с базисами и так далее?
Секрет в том, чтобы для этих двух кубитов правильноподобрать подогнать гамильтониан, диагонализация которого сразу даст правильный ответ. Прямо как в анекдоте про Капицу, который заработал 999 долларов за то, что «знал, куда ударить».
#квантовые_вычисления #твердое_тело
Казалось бы, как можно настолько точно посчитать зонную структуру всего двумя кубитами, если на классическом компьютере для этого нужны куча данных о кристалле и структуре атомов кремния, сложные квантовомеханические приближения (типа метода функционала плотности или связанных кластеров), возня с базисами и так далее?
Секрет в том, чтобы для этих двух кубитов правильно
#квантовые_вычисления #твердое_тело
👍1😁1
Что будет, если поместить двумерную систему в чисто мнимое магнитное поле? Если вещественный векторный потенциал, согласно подстановке Пайерлса, модулирует фазу интегралов перескока между узлами решетки, то чисто мнимый векторный потенциал модулирует их амплитуды, так что система становится неэрмитовой.
Тонкий момент здесь – зависимость получающихся волновых функций и уровней энергии от калибровки мнимого векторного потенциала. При смене калибровке волновая функция вместо обычных калибровочных преобразований ψ→exp(iθ)ψ подвергается преобразованиям подобия ψ→exp(θ)ψ. Спектр энергий гамильтониана при этом сохраняется, так что для мнимых магнитных полей существует свой аналог калибровочной инвариантности.
Однако спектр энергий может сильно зависеть от граничных условий, что характерно для неэрмитовых систем. На диаграммах показаны примеры спектров комплексных энергий в различных мнимых магнитных полях и при различных граничных условиях.
#уровни_Ландау #неэрмитовы_системы
Тонкий момент здесь – зависимость получающихся волновых функций и уровней энергии от калибровки мнимого векторного потенциала. При смене калибровке волновая функция вместо обычных калибровочных преобразований ψ→exp(iθ)ψ подвергается преобразованиям подобия ψ→exp(θ)ψ. Спектр энергий гамильтониана при этом сохраняется, так что для мнимых магнитных полей существует свой аналог калибровочной инвариантности.
Однако спектр энергий может сильно зависеть от граничных условий, что характерно для неэрмитовых систем. На диаграммах показаны примеры спектров комплексных энергий в различных мнимых магнитных полях и при различных граничных условиях.
#уровни_Ландау #неэрмитовы_системы
А вот еще любопытный пример из статьи из предыдущего поста: мнимый эффект Ааронова-Бома, возникающий в мнимом магнитном поле.
Если при обычном эффекте Ааронова-Бома волновая функция частицы, обходящей замкнутый контур, приобретает фазу, пропорциональную магнитному потоку внутри контура, то здесь она увеличивает или уменьшает – в зависимости от направления обхода – свою амплитуду.
На панели (а) показан прямоугольный контур, вдоль которого волновой пакет ведется изменяемой во времени внешней силой, панели (b) и (c) показывают, что происходит с амплитудой волновой функции при обходе этого контура против и по часовой стрелке. Хотя динамика затухания или, наоборот, роста амплитуды зависят от калибровки мнимого векторного потенциала (синяя и красная кривые), финальный результат от нее не зависит.
#уровни_Ландау #неэрмитовы_системы
Если при обычном эффекте Ааронова-Бома волновая функция частицы, обходящей замкнутый контур, приобретает фазу, пропорциональную магнитному потоку внутри контура, то здесь она увеличивает или уменьшает – в зависимости от направления обхода – свою амплитуду.
На панели (а) показан прямоугольный контур, вдоль которого волновой пакет ведется изменяемой во времени внешней силой, панели (b) и (c) показывают, что происходит с амплитудой волновой функции при обходе этого контура против и по часовой стрелке. Хотя динамика затухания или, наоборот, роста амплитуды зависят от калибровки мнимого векторного потенциала (синяя и красная кривые), финальный результат от нее не зависит.
#уровни_Ландау #неэрмитовы_системы
А вот недавний эксперимент, демонстрирующий неэрмитовы аналоги фазы Берри и эффекта Ааронова-Бома. Электронная обратная связь, подающая нужные силы на два механических осциллятора, позволяет моделировать неэрмитову систему. В частности, сила упругого воздействия первого осциллятора на второй J–δJ может отличаться от силы обратного воздействия J+ δJ, что в обычной механической системе невозможно.
В пространстве параметров J, δJ и Δ (расстройки частот двух осцилляторов) имеется конусообразная область δJ² > J² + Δ², в которой PT-симметрия гамильтониана системы спонтанно нарушена. Любопытно, что ее можно считать «соленоидом», через который проходит мнимое магнитное поле.
Как следствие, при обходе параметров вокруг конуса система подвергается мнимому эффекту Ааронова-Бома: амплитуда колебаний осцилляторов снижается либо – при другом направлении обхода – повышается. Это продемонстрировано на графиках снизу для трех круговых траекторий, обходимых по и против часовой стрелки.
#неэрмитовы_системы #механика
В пространстве параметров J, δJ и Δ (расстройки частот двух осцилляторов) имеется конусообразная область δJ² > J² + Δ², в которой PT-симметрия гамильтониана системы спонтанно нарушена. Любопытно, что ее можно считать «соленоидом», через который проходит мнимое магнитное поле.
Как следствие, при обходе параметров вокруг конуса система подвергается мнимому эффекту Ааронова-Бома: амплитуда колебаний осцилляторов снижается либо – при другом направлении обхода – повышается. Это продемонстрировано на графиках снизу для трех круговых траекторий, обходимых по и против часовой стрелки.
#неэрмитовы_системы #механика
Как известно, предел Карно η_С для КПД η достижим только в случае бесконечно медленной работы тепловой машины. Но в этой работе показано, что работа в окрестности фазового перехода позволяет асимптотически приближать η к η_С, увеличивая объем рабочего тела и при этом сохраняя мощность работы постоянной в расчете на единицу объема. Пример этого показан на графике для случая титаната диспрозия в окрестности образования фазы спинового льда, где N – число степеней свободы рабочего тела, пропорциональное его объему.
Причина такого странного эффекта в том, что в окрестности перехода – в критическом режиме – теплоемкость рабочего тела неэкстенсивна. С ростом N она ведет себя как С ~ N^(1+α/dν), где α, ν и d – критические индексы и размерность системы. Таким образом, при α/dν > 0 она растет быстрее объема. Это объясняется тем, что из-за критических флуктуаций, охватывающих большие пространственные масштабы, рабочее тело нужно рассматривать как единую систему, а не как совокупность независимых частей.
#термодинамика
Причина такого странного эффекта в том, что в окрестности перехода – в критическом режиме – теплоемкость рабочего тела неэкстенсивна. С ростом N она ведет себя как С ~ N^(1+α/dν), где α, ν и d – критические индексы и размерность системы. Таким образом, при α/dν > 0 она растет быстрее объема. Это объясняется тем, что из-за критических флуктуаций, охватывающих большие пространственные масштабы, рабочее тело нужно рассматривать как единую систему, а не как совокупность независимых частей.
#термодинамика
Эффект Хонга-У-Мандела – это двухфотонная интерференция, демонстрирующая бозонную статистику фотонов. Он состоит в том, что два фотона в совместном фоковском состоянии |1,1> (например, рожденные в нелинейно-оптическом кристалле), проходя через симметричный светоделитель, дают состояние (|2,0> + |0,2>)/√2. Получается, что в конце оба фотона попадают либо в верхний, либо в нижний детектор, то есть подвергаются группировке. Вероятность же одновременного срабатывания обоих детекторов должна быть, в идеале, равна нулю.
В этом эксперименте эффект Хонга-У-Мандела продемонстрирован для поверхностных плазмонов – то есть доказано, что они тоже являются бозонами. Два фотона падают на углы крестообразного металлического образца, возбуждая там поверхностные плазмоны, которые интерферируют в центре и высвечиваются с двух других углов. Как видно на графике, по мере приближения времени задержки Δt между двумя падающими фотонами к нулю вероятность одновременного срабатывания детекторов резко снижается.
#фотоника #плазмоны
В этом эксперименте эффект Хонга-У-Мандела продемонстрирован для поверхностных плазмонов – то есть доказано, что они тоже являются бозонами. Два фотона падают на углы крестообразного металлического образца, возбуждая там поверхностные плазмоны, которые интерферируют в центре и высвечиваются с двух других углов. Как видно на графике, по мере приближения времени задержки Δt между двумя падающими фотонами к нулю вероятность одновременного срабатывания детекторов резко снижается.
#фотоника #плазмоны
В этой формуле из Википедии для гамильтониана взаимодействия двух магнитных диполей можно заметить загадочный контактный член, пропорциональный дельта-функции δ(r).
Откуда он берется? Как объясняется в этой статье Джексона, стандартная формула для диполь-дипольного взаимодействия (первое слагаемое) отталкивается от выражения для магнитного поля B(r) = [3ȓ(m•ȓ) – m]/r³, создаваемого диполем m, которое справедливо только на достаточно больших расстояниях r. Если представить магнитный диполь в виде петли или другого пространственного распределения тока в ограниченном объеме, то внутри этого объема такая формула уже неприменима.
Добавочное магнитное поле, имеющееся внутри диполя, интегрально по объему равно (8π/3)m, так что при малом размере диполя его можно эффективно сжать в точку в виде (8π/3)mδ(r). Таким образом, суммарное поле равно B(r) = [3ȓ(m•ȓ) – m]/r³ + (8π/3)mδ(r), а энергия второго диполя m´ в этом поле H ~ –(B•m´) дает финальное выражение с дельта-функционным членом.
#объяснения #электродинамика
Откуда он берется? Как объясняется в этой статье Джексона, стандартная формула для диполь-дипольного взаимодействия (первое слагаемое) отталкивается от выражения для магнитного поля B(r) = [3ȓ(m•ȓ) – m]/r³, создаваемого диполем m, которое справедливо только на достаточно больших расстояниях r. Если представить магнитный диполь в виде петли или другого пространственного распределения тока в ограниченном объеме, то внутри этого объема такая формула уже неприменима.
Добавочное магнитное поле, имеющееся внутри диполя, интегрально по объему равно (8π/3)m, так что при малом размере диполя его можно эффективно сжать в точку в виде (8π/3)mδ(r). Таким образом, суммарное поле равно B(r) = [3ȓ(m•ȓ) – m]/r³ + (8π/3)mδ(r), а энергия второго диполя m´ в этом поле H ~ –(B•m´) дает финальное выражение с дельта-функционным членом.
#объяснения #электродинамика
👍3🔥2
Важная и широко цитируемая работа, в которой была рассмотрена топологическая классификация состояний кристаллов во внешнем периодическом поле (состояний Флоке-Блоха).
Эволюция волновой функции такой системы за один период ψ(t+T)=Uψ(t) описывается унитарным оператором Флоке U. Можно, в принципе, ввести эффективный гамильтониан U=exp(–iĤT/ℏ) и строить обычную топологическую классификацию, рассматривая спектр квазиэнергий гамильтониана Ĥ. Но здесь авторы показали, что во флоке-системах возможны принципиально новые фазы, обусловленные периодическим замыканием спектра квазиэнергий.
Даже если собственные состояния Ĥ образуют топологически тривиальные зоны, возможны состояния системы с киральными краевыми модами. На рисунке снизу показан пример того, как это возможно: поочередное усиление интегралов перескока в разных направлениях «протаскивает» за собой частицы по кругу. Эффект получается похожим на действие эффективного магнитного поля в топологическом изоляторе Черна.
#топологические_материалы #состояния_Флоке
Эволюция волновой функции такой системы за один период ψ(t+T)=Uψ(t) описывается унитарным оператором Флоке U. Можно, в принципе, ввести эффективный гамильтониан U=exp(–iĤT/ℏ) и строить обычную топологическую классификацию, рассматривая спектр квазиэнергий гамильтониана Ĥ. Но здесь авторы показали, что во флоке-системах возможны принципиально новые фазы, обусловленные периодическим замыканием спектра квазиэнергий.
Даже если собственные состояния Ĥ образуют топологически тривиальные зоны, возможны состояния системы с киральными краевыми модами. На рисунке снизу показан пример того, как это возможно: поочередное усиление интегралов перескока в разных направлениях «протаскивает» за собой частицы по кругу. Эффект получается похожим на действие эффективного магнитного поля в топологическом изоляторе Черна.
#топологические_материалы #состояния_Флоке
👍4
Как я недавно писал, квантовая когерентность – то есть наличие недиагональных по энергиям элементов матрицы плотности – является ценным ресурсом, который можно использовать для реализации квантовых операций или извлечения работы из тепла. Она необходима даже для элементарного отсчета времени, потому что в отсутствие когерентностей любая квантовая система стационарна.
В этой работе доказывается, что невозможна полная очистка когерентности (coherence distillation). Это процесс, при котором на основе какого-то числа частично когерентных систем («зашумленных маятников» на рисунке сверху) создается полностью когерентное – то есть квантовомеханически чистое – состояние одной или нескольких систем («чистые маятники» снизу). При этом разрешено использовать внешние ресурсы, например, вспомогательные системы или работу, не обладающие собственной когерентностью.
Автор показывает, что, хотя полная очистка когерентности невозможна, частичную ее очистку производить можно.
#квантовые_вычисления #квантовая_термодинамика
В этой работе доказывается, что невозможна полная очистка когерентности (coherence distillation). Это процесс, при котором на основе какого-то числа частично когерентных систем («зашумленных маятников» на рисунке сверху) создается полностью когерентное – то есть квантовомеханически чистое – состояние одной или нескольких систем («чистые маятники» снизу). При этом разрешено использовать внешние ресурсы, например, вспомогательные системы или работу, не обладающие собственной когерентностью.
Автор показывает, что, хотя полная очистка когерентности невозможна, частичную ее очистку производить можно.
#квантовые_вычисления #квантовая_термодинамика
👍1🗿1
Нет, сверху на рисунке не колобок и не смайлик, а всего лишь расчет эволюции двухкомпонентного бозе-конденсата, в котором создан вихревой диполь: два квантованных вихря противоположных знаков.
Авторы называют его Matryoshka-like density profile. С течением времени оба вихря выходят за границы атомного облака, оставляя в нем неоднородности – то есть начальная конфигурация нестабильна.
Снизу показан другой случай, который авторы называют bull’s eye profile.
#сверхтекучесть
Авторы называют его Matryoshka-like density profile. С течением времени оба вихря выходят за границы атомного облака, оставляя в нем неоднородности – то есть начальная конфигурация нестабильна.
Снизу показан другой случай, который авторы называют bull’s eye profile.
#сверхтекучесть
😁2
Малоизвестный факт из квантовой механики: бывают потенциалы, в которых связанные состояния существуют в континууме, при энергиях выше порога ионизации. Такие потенциалы нарушают стандартную картину спектра «сначала идут дискретные связанные состояния, потом континуум свободно распространяющихся волн».
Одна из реализаций такого потенциала для электрона – это широкая квантовая яма, окруженная с двух сторон решетками в два раза более узких ям. На энергии, при которой центральная яма оказывается шириной в половину длины волны, а узкие ямы и промежутки между ними – в четверть длины волны, возникнет связанное состояние.
Формирование такого состояния можно интерпретировать либо как стоячую волну между двумя брэгговскими зеркалами, либо как связанное состояние на дефекте в кристалле-сверхрешетке. В этом эксперименте 1992 года наблюдался оптический переход между обычным связанным состоянием в широкой яме и связанным состоянием в континууме в гетероструктурах AlInAs/GaInAs.
#квантовая_механика
Одна из реализаций такого потенциала для электрона – это широкая квантовая яма, окруженная с двух сторон решетками в два раза более узких ям. На энергии, при которой центральная яма оказывается шириной в половину длины волны, а узкие ямы и промежутки между ними – в четверть длины волны, возникнет связанное состояние.
Формирование такого состояния можно интерпретировать либо как стоячую волну между двумя брэгговскими зеркалами, либо как связанное состояние на дефекте в кристалле-сверхрешетке. В этом эксперименте 1992 года наблюдался оптический переход между обычным связанным состоянием в широкой яме и связанным состоянием в континууме в гетероструктурах AlInAs/GaInAs.
#квантовая_механика
❤3
Механизм внимания (attention), используемый в нейронных сетях архитектуры «трансформер», произвел настоящую революцию в работе с текстовыми данными и привел к созданию ChatGPT. Вот одна из первых работ, в которой механизм внимания был использован для улучшения качества машинного перевода. Здесь я постараюсь наиболее понятно рассказать, как он устроен и работает.
Первые нейронные сети, переводящие тексты с одного языка на другой, были созданы в 2013-2014 годах. Они были устроены в виде автокодировщика: нескольких слоев нейронов (кодировщика), сжимающих последовательность слов на одном языке в вектор контекста, и нескольких слоев нейронов (декодировщика), превращающих вектор контекста в последовательность слов на другом языке. Вектор контекста содержит информацию о смысле предложения, выраженную не на человеческом, а на машинном языке, понятном лишь самой нейросети.
При генерации вектора контекста принимается во внимание последовательный характер предложения, то есть зависимость смысла каждого слова от предшествующих слов в предложении. Поэтому выглядит она так: для каждого слова xᵢ входного предложения (определенным образом оцифрованного, то есть превращенного в вектор) генерируется вектор аннотации hᵢ = f(xᵢ, hᵢ₋₁), где f – обучаемая нелинейная функция, реализуемая пропусканием аргументов через несколько слоев нейронов. Как видно, аннотация i-го слова зависит не только от самого этого слова, но и от аннотации (i–1)-го слова. Это заставляет кодировщик, при попытке извлечь смысл каждого слова, учитывать смысл предыдущих слов.
После прохода через все предложение на основе всех аннотаций генерируется вектор контекста c = q(h₁, h₂, …), где q – еще одна обучаемая нелинейная функция. Декодировщик вычисляет вероятность того, что i-е слово переведенного предложения должно быть yᵢ, также последовательно: p(yᵢ) = g(yᵢ₋₁, sᵢ, c). Как видно, эта вероятность зависит от предыдущего слова yᵢ₋₁, вектора контекста c и от вектора текущего состояния декодировщика sᵢ, которое также последовательно обновляется с учетом предыдущего состояния, предыдущего слова и контекста: sᵢ = r(sᵢ₋₁, yᵢ₋₁, c). Произведение вероятностей p(y₁)p(y₂)… дает меру правдоподобия каждого варианта y₁y₂… всего переведенного предложения, так что остается лишь выбрать тот вариант, для которого произведение максимально.
Примерно так были устроены первые нейросетевые модели машинного перевода. Они использовали вектор контекста c фиксированной длины, так что качество перевода длинных предложений снижалось из-за невозможности вместить в этот вектор весь их смысл. Новшество этой работы в том, что при генерации переведенного предложения для каждого его слова используется свой вектор контекста cᵢ, то есть формулы выше нужно изменить на p(yᵢ) = g(yᵢ₋₁, sᵢ, cᵢ) и sᵢ = r(sᵢ₋₁, yᵢ₋₁, cᵢ).
А самое важное – как эти векторы контекста cᵢ получаются. Они вычисляются как взвешенная сумма cᵢ = Σᵤ αᵢᵤhᵤ аннотаций к словам входного предложения с коэффициентами αᵢᵤ. Каждый такой коэффициент пропорционален экспоненте степени совмещения eᵢᵤ (alignment) i-го переведенного слова с u-м словом исходного предложения, а сумма коэффициентов нормируется на единицу. Иными словами, αᵢᵤ = exp(eᵢᵤ)/Σᵥ exp(eᵢᵥ). Из этой формулы видно, что αᵢᵤ вычисляется как мягкий максимум (softmax) среди всех eᵢᵤ. Степень совмещения eᵢᵤ = a(sᵢ₋₁, hᵤ) считается на основе комбинаций скрытого состояния декодировщика sᵢ₋₁ и аннотации hᵤ входного слова, то есть на основе пары понятных машине локальных «смыслов» i-го переведенного и u-го входного слов. Функция a также обучается умению правильно сопоставлять эти смыслы.
Таким образом, при принятии решения о том, какое из переведенных слов лучше всего подходит, модель принимает во внимание все слова исходного предложения, но не в равной степени. Она обращает внимание лишь на определенные слова исходного предложения, которые наиболее сильно согласуются по смыслу с тем новым словом перевода, которое сейчас нужно подобрать. Механизм внимания «подсвечивает» определенные фрагменты входных данных, снимая ограничение на их объем.
#нейронные_сети #популярное
Первые нейронные сети, переводящие тексты с одного языка на другой, были созданы в 2013-2014 годах. Они были устроены в виде автокодировщика: нескольких слоев нейронов (кодировщика), сжимающих последовательность слов на одном языке в вектор контекста, и нескольких слоев нейронов (декодировщика), превращающих вектор контекста в последовательность слов на другом языке. Вектор контекста содержит информацию о смысле предложения, выраженную не на человеческом, а на машинном языке, понятном лишь самой нейросети.
При генерации вектора контекста принимается во внимание последовательный характер предложения, то есть зависимость смысла каждого слова от предшествующих слов в предложении. Поэтому выглядит она так: для каждого слова xᵢ входного предложения (определенным образом оцифрованного, то есть превращенного в вектор) генерируется вектор аннотации hᵢ = f(xᵢ, hᵢ₋₁), где f – обучаемая нелинейная функция, реализуемая пропусканием аргументов через несколько слоев нейронов. Как видно, аннотация i-го слова зависит не только от самого этого слова, но и от аннотации (i–1)-го слова. Это заставляет кодировщик, при попытке извлечь смысл каждого слова, учитывать смысл предыдущих слов.
После прохода через все предложение на основе всех аннотаций генерируется вектор контекста c = q(h₁, h₂, …), где q – еще одна обучаемая нелинейная функция. Декодировщик вычисляет вероятность того, что i-е слово переведенного предложения должно быть yᵢ, также последовательно: p(yᵢ) = g(yᵢ₋₁, sᵢ, c). Как видно, эта вероятность зависит от предыдущего слова yᵢ₋₁, вектора контекста c и от вектора текущего состояния декодировщика sᵢ, которое также последовательно обновляется с учетом предыдущего состояния, предыдущего слова и контекста: sᵢ = r(sᵢ₋₁, yᵢ₋₁, c). Произведение вероятностей p(y₁)p(y₂)… дает меру правдоподобия каждого варианта y₁y₂… всего переведенного предложения, так что остается лишь выбрать тот вариант, для которого произведение максимально.
Примерно так были устроены первые нейросетевые модели машинного перевода. Они использовали вектор контекста c фиксированной длины, так что качество перевода длинных предложений снижалось из-за невозможности вместить в этот вектор весь их смысл. Новшество этой работы в том, что при генерации переведенного предложения для каждого его слова используется свой вектор контекста cᵢ, то есть формулы выше нужно изменить на p(yᵢ) = g(yᵢ₋₁, sᵢ, cᵢ) и sᵢ = r(sᵢ₋₁, yᵢ₋₁, cᵢ).
А самое важное – как эти векторы контекста cᵢ получаются. Они вычисляются как взвешенная сумма cᵢ = Σᵤ αᵢᵤhᵤ аннотаций к словам входного предложения с коэффициентами αᵢᵤ. Каждый такой коэффициент пропорционален экспоненте степени совмещения eᵢᵤ (alignment) i-го переведенного слова с u-м словом исходного предложения, а сумма коэффициентов нормируется на единицу. Иными словами, αᵢᵤ = exp(eᵢᵤ)/Σᵥ exp(eᵢᵥ). Из этой формулы видно, что αᵢᵤ вычисляется как мягкий максимум (softmax) среди всех eᵢᵤ. Степень совмещения eᵢᵤ = a(sᵢ₋₁, hᵤ) считается на основе комбинаций скрытого состояния декодировщика sᵢ₋₁ и аннотации hᵤ входного слова, то есть на основе пары понятных машине локальных «смыслов» i-го переведенного и u-го входного слов. Функция a также обучается умению правильно сопоставлять эти смыслы.
Таким образом, при принятии решения о том, какое из переведенных слов лучше всего подходит, модель принимает во внимание все слова исходного предложения, но не в равной степени. Она обращает внимание лишь на определенные слова исходного предложения, которые наиболее сильно согласуются по смыслу с тем новым словом перевода, которое сейчас нужно подобрать. Механизм внимания «подсвечивает» определенные фрагменты входных данных, снимая ограничение на их объем.
#нейронные_сети #популярное
👍3
А вот иллюстрация к предыдущему посту, показывающая наглядно, как работает механизм внимания при машинном переводе. Авторы тестировали свою модель на переводе предложений с английского языка на французский. На рисунке показаны матрицы степеней соответствия eᵢᵤ между словами исходного предложения (столбцы) и словами переведенного предложения (строки). Они показывают, насколько сильное внимание нужно обратить при подборе каждого переведенного слова на различные слова оригинала.
Слева видна интересная антидиагональная структура, возникшая из-за обращения порядка слов при переводе European Economic Area на французский как zone économique européen.
Справа видно, что возникает при переводе the man как l’ homme. При выборе артикля l’ нейросеть больше всего внимания обращает не на его дословный аналог the в исходном предложении, а на последующее слово man – потому что во французском языке артикль зависит от рода, числа и первой буквы последующего слова.
#нейронные_сети #популярное
Слева видна интересная антидиагональная структура, возникшая из-за обращения порядка слов при переводе European Economic Area на французский как zone économique européen.
Справа видно, что возникает при переводе the man как l’ homme. При выборе артикля l’ нейросеть больше всего внимания обращает не на его дословный аналог the в исходном предложении, а на последующее слово man – потому что во французском языке артикль зависит от рода, числа и первой буквы последующего слова.
#нейронные_сети #популярное
👍1🤔1
Свежий эксперимент с наблюдением жидкости Латинджера в скрученном бислое двумерного дихалькогенида переходных металлов WTe₂. Это экзотическая фаза, возникающая в одномерной системе взаимодействующих электронов, в которой обычные электронные и дырочные возбуждения пропадают, а их место занимают существенно коллективные плазмоны и спиноны.
Муаров узор, получающийся при скручивании WTe₂ на небольшой угол, оказывается не треугольным (как обычно), а состоящим из одномерных цепочек. Перескоки электронов вдоль цепочки гораздо сильнее, чем между цепочками, что дает начало массиву почти независимых квантовых нитей.
Физика латенждеровской жидкости проявляется, например, в том, что дифференциальная туннельная проводимость dI/dV между нитями зависит от температуры и напряжения степенным образом: dI/dV ~ T^α, V^α, где α ≈ 1.53. Это следствие подавления плотности состояний квазичастиц вблизи уровня Ферми. На графике видно, как все зависимости (dI/dV)/T^α схлопываются в одну кривую.
#дихалькогениды_переходных_металлов
Муаров узор, получающийся при скручивании WTe₂ на небольшой угол, оказывается не треугольным (как обычно), а состоящим из одномерных цепочек. Перескоки электронов вдоль цепочки гораздо сильнее, чем между цепочками, что дает начало массиву почти независимых квантовых нитей.
Физика латенждеровской жидкости проявляется, например, в том, что дифференциальная туннельная проводимость dI/dV между нитями зависит от температуры и напряжения степенным образом: dI/dV ~ T^α, V^α, где α ≈ 1.53. Это следствие подавления плотности состояний квазичастиц вблизи уровня Ферми. На графике видно, как все зависимости (dI/dV)/T^α схлопываются в одну кривую.
#дихалькогениды_переходных_металлов
👍2