Содержание
Аналоговые компьютеры возвращаются — Наука будущего (Primavera vs) — NewsLand
Наука будущего
14.01.2014
Пожаловаться
56
4396
Придуманы материалы, умеющие вычислять
Международная группа исследователей из США и Италии теоретически разработала метаматериалы, которые могут работать как аналоговые компьютеры. Аналоговые компьютеры появились в середине прошлого века и прожили очень недолго, послужив промежуточным звеном между уходящими в историю бухгалтерскими арифмометрами и нарождающимися цифровыми машинами. По сути, это были те же самые арифмометры, где в роли рычажков, колесиков и прочего выступали электронные устройства.
У них могло бы быть будущее – если бы не медлительность, большие размеры и громадная энергоемкость. Не будучи многозадачными, они в идеале имели кое-какие преимущества даже перед своими цифровыми потомками – им, например, не требовалось переводить информацию в нули и единички, а потом обратно, они просто обрабатывали поступившие данные в виде напряжений и выдавали ответ на-гора. Однако недостатки перевесили, и аналоговые компьютеры ушли намного быстрее, чем появилось само слово «компьютер».
Метаматериалы, придуманные итало-американской командой, могут изменить ситуацию на 180 градусов. Их компьютерный характер основан на прохождении света через прозрачную, но сложно устроенную среду. Когда свет проходит через что-то прозрачное, его волновой фронт можно отобразить некоторой изогнутой поверхностью. У метаматериалов при входе в них этот фронт имеет одну форму, а при выходе – совершенно другую. В этом и есть суть калькуляции. Зарегистрировав изменение профиля волнового фронта на выходе, пользователь может получить результат сложного вычисления заданных данных – их интегрирование, дифференцирование и даже такое сложное математическое действие, как конволюция, объединяющее две разные функции в третью.
Если метаматериалы, теоретически разработанные учеными, когда-нибудь появятся в реальности, они позволят сделать аналоговый компьютер, полностью лишенный недостатков промежуточного аналогового уродца 50-х годов, достаточно будет к приставке «мета» добавить приставку «нано». И расчеты в них будут производиться со световой скоростью.
Источник: http://slon.ru/biz/1042540/
наука
свет
компьютер
цифры
разработка
аналог
метаматериалы
56
4396
Наука будущего
Смотрите также
Авторизуйтесь, чтобы оставить комментарий
Что означает TSVM? Бесплатный словарь
TSVM — что означает TSVM? Бесплатный словарь
https://acronyms. thefreedictionary.com/TSVM
Ссылки в архиве периодических изданий
?
Thorsten Joachims разработал SVMlight [6], который является реализацией TSVM для задач распознавания образов, регрессии и изучения функции ранжирования.
Имея только 10 обучающих примеров, помеченных 5 как положительные и 5 как отрицательные, TSVM должен классифицировать оставшиеся 600 тестовых примеров.
Методы ядра для улучшения систем текстового поиска Трансдуктивный вывод с использованием машин опорных векторов/Metodos de Kernel para Mejorar la Inferencia Transductiva de Motores de Busqueda de Texto Usando Maquinas de Soporte Vectorial
Метод наименьших квадратов TSVM — это метод категоризации, который используется для отделить образец сахарного диабета и непролиферативной диабетической ретинопатии, начиная с образцов лунок.
Тогда метод наименьших квадратов TSVM (LSTSVM), используемый здесь, дает более точную информацию, чем классификатор SVM.
Новый подход к классификации для выявления диабета и непролиферативной диабетической ретинопатии
Основная задача в TSVM построена как следующая (частично) задача комбинированной оптимизации (SDP) (Сюй, Шуурманс 2005; Чжао и др.
Последние достижения в исследованиях машин опорных векторов
Браузер сокращений
?
- ▲
- ЦУМ
- ЦУБАМЭ
- ЦУД
- ТСУЭ
- ЦУГ
- ЦУМ
- ЦУНАМИ
- ЦУНАМИ II
- ЦУП
- ЦУРЭ
- ЦУС
- ЦУСА
- ЦУСМ
- ЦУУТБ
- ТСВ
- ТСВ-М
- ТСВБ
- ТСВК
- ТСВЦИС
- ТСВД
- ТСВЭГ
- ТСВХ
- ТСВЛ
- ТСВМ 90 037
- ТСВМС
- ТСВП
- ТСВК
- ТСВРИ
- ТСВ
- ТСВТ
- ТСВЦ
- ТСВВ
- СВХ
- TSWA
- TSWAM
- TSWAN
- TSWB
- TSWBAT
- TSWC
- TSWCG
- TSWF
- TSWG
- TSWGA
- TSWGAF
- TSWGAS
- TSWIN
- TSWJ
- TSWK
- ▼
900 36 ЦУН
900 36 ЦУТ
9003 6 TSWE
Полный браузер
?
- ▲
- Цвет Михаил
- Цвет Михаил Семенович
- Цветаев Иван
- Цветаев Иван Владимирович
- Цветаев Лев
- Цветаев Лев Алексеевич
- Цветаев Вячеслав
- Цветаев Вячеслав Дмитриевич
- Цветаева
- Цветаева
- Цветаева Марина Ивановна
- Цветаева Марина
- Цветаева Марина Ивановна
- Цветаева
- Цветаева Марина Ивановна
- Цветков Виктор
- Цветков Виктор Николаевич
- Цветкова Елена
- Цветкова Елена Яковлевна
- Цветково
- Цветные Металлы
- Цветоед
- Цветоводство
- Цвет
- ТСВХ
- Цвиллинг, Самуил
- Цвиллинг Самуил Моисеевич
- Цвирко Виталий
- Цвирко Виталий Константинович
- ТСВЛ
- ТСВМ
- ТСВМС
- ЦВП
- ТСВК
- ЦВРИ
- ТСВС
- ЦВТ
- ЦВЦ
- ТСВВ
- ТСВ
- ТСВА
- Заповедник Цвалу Калахари
- ТСВАМ
- ТСВАН
- Тсвана
- Тсвана
- Язык тсвана
- Корпус английского языка для изучающих тсвана
- Народ тсвана
- Народ тсвана
- тсванали
- тсванали
- Тсваны
- Тсваны
- СВБ
- СВБАТ
- ТСВК
- ТСВКГ
- ТСВЭ
- Работа с сельским населением Цвелопеле
- Цвет
- ▼
Сайт:
Следовать:
Делиться:
Открыть / Закрыть
Машинное обучение с отсутствующими метками.
Часть 2: UniverSVM — рассчитано
Вы когда-нибудь задумывались, чем занимается Google DeepMind? Они только что выпустили статью о полууправляемом обучении с помощью глубоких генеративных моделей. Что такое частично контролируемое обучение (SSL)? В этой серии постов мы вернемся к основам и посмотрим.
Большинству алгоритмов машинного обучения требуется огромное количество размеченных данных для достижения высокой точности. SVM, случайные леса и особенно глубокое обучение могут использовать преимущества массивных помеченных наборов данных.
Как мы можем учиться, когда у нас есть только несколько помеченных примеров?
В SSL мы пытаемся улучшить наши классификаторы, используя неразмеченные данные.
В нашем последнем посте мы описали подход старой школы к этой проблеме, Transductive SVM (TSVM), около 2006 года. Здесь мы исследуем другой подход к обучению на неразмеченных данных — Infernece with the Universum — ala Vapnik 2006.
Плюс код есть! В коде UniverSVM используется подход TSVM и Universum (USVM).
Подождите, разве глубокое обучение не использует немаркированные данные при предварительном обучении?
Это другое. Глубокое обучение использует огромные объемы размеченных данных. Мы хотим использовать как можно меньше помеченных данных. Для меня это настоящая проверка теории обучения.
В этом и нескольких следующих блогах мы рассмотрим несколько вариантов SVM — USVM, WSVM, SVM+ и полууправляемые методы глубокого обучения — все они обеспечивают высокую точность при небольшом объеме размеченных данных. Кроме того, мы учитываем только классификацию текста, а для изображений и других наборов данных требуются другие методы.
Обучение с неразмеченными данными
Допустим, у вас есть небольшое количество размеченных документов и большое количество неразмеченных. Можем ли мы создать классификатор документов (т. е. бинарный SVM), который хорошо обобщает всего лишь небольшое количество размеченных данных?
Согласно статистической теории обучения Вапника и Червоненкиса (VC-SLT), точность нашего обобщения очень слабо ограничена сложностью модели и количеством обучающих документов:
, что на простом английском языке означает просто
Ошибка обобщения Емкость модели () Эффекты размера ()
VC-SLT вдохновил подход SVM к максимальной марже (хотя они не эквивалентны).
SLT признает, что для любого набора данных (размера ) мы можем получить несколько эквивалентных моделей (т. е. все с одинаковой точностью обучения):
Мы должны выбрать модель с наименьшей емкостью в SVM это означает, что нужно выбрать максимальное поле.
Это проще всего визуализировать, когда резерв или допустимая ошибка = 1
Каждая модель представляет собой набор гиперплоскостей с одинаковыми метками. Левая модель оптимальна, потому что она имеет наибольшую 90 328 «Емкость SVM», 90 329, которая, по сути, является объемом, выделенным допустимыми гиперплоскостями. Оказывается, лучшая модель также имеет гиперплоскость с наибольшим запасом, поэтому
Максимальный запас является мерой пропускной способности VC…
, но является ли он лучшим?
Хотя привязка VC-SLT очень слабая, это предполагает, что нам обычно требуется большое количество помеченных документов для получения разумной точности производства.
Однако SLT по своей сути является теорией трансдуктивного обучения; доказательство границ VC требует сначала доказательства границы преобразования (т. е. с помощью симметризации). Программа VC-SLT всегда мечтала разработать трансдуктивный или полууправляемый метод, который может обучаться намного быстрее, чем .
(Под полуконтролируемым мы подразумеваем, что результирующая модель может быть применена напрямую к данным вне выборки, тогда как трансдуктивное обучение применяется только к известному немаркированному тестовому набору. Мы не будем различать их здесь.)
Мы надеемся добиться этого, добавив непомеченные данные. Когда очень большой, мы выигрываем.
(Действительно, недавно Вапник показал, что на самом деле можно уменьшить эту границу с до – если мы сможем учиться с использованием привилегированной информации (LUPI). дополнительные данные или даже веса для каждого помеченного примера — и это не то же самое, что использовать только неразмеченные данные. Возможно, мы можем узнать веса из неразмеченных данных — но это для другого поста.) Итак, мы остались с расстраивающим утверждением
Если максимальная маржа является правильной мерой, то TSVM должен работать очень хорошо…
и все же это оказалось неуловимым.
Какая альтернатива? Предположим, что вместо измерения объема, очерченного гиперплоскостями, наши модели измеряют объем между выпуклыми оболочками двух классов:
Обратите внимание, что теперь маркировка справа стала лучше.
Это более широкая мера разнообразия класса эквивалентности. В SLT это связано с энтропией VC (еще один показатель пропускной способности VC).
Универсум аппроксимирует этот объем — или, скорее, Энтропию ВК — посредством Принципа Максимума Противоречий. (На самом деле, как мы увидим, Универсум — не единственный способ сделать это.) Умная идея, но на практике ее трудно реализовать. Давайте сравним и сопоставим TSVM и USVM, чтобы понять, как выбрать нужные наборы данных и их ограничения.
Transductive SVM (TSVM)
Transductive Inference требуется статистическая реплика помеченных данных:
Реплика не только того же размера, но и имеет те же статистические качества. В частности, метка означает сходимость: как . (т. е. в хорошо сбалансированном двоичном классификаторе это ноль)
Теоретически мы всегда можем создать реплику (или фантомную выборку), поскольку мы предполагаем, что сами помеченные данные взяты из какого-то общего эмпирического процесса. В современном VC-SLT мы думаем о процессе симметрирования, который создает, как о процессе Радемахера — это означает, что у нас есть воспроизвел данные обучения, но рандомизировал метки.
На практике нам нужно выбрать реплику из неразмеченных данных — и это сложно!
Мы надеемся, что, добавив неразмеченные данные, мы сможем найти лучшее решение, угадывая метки неразмеченных данных, а затем максимизируя маржу для всех данных.
Мы можем применить SVM преобразования, если сможем создать большой немаркированный набор данных, который ведет себя как статистическая копия, хотя и намного больше. TSVM позволяют нам повысить точность классификатора двоичного текста, добавляя большие объемы неразмеченных данных.
Кроме того, TSVM расширяют пространство признаков или пространство гипотез. Это очень важно для классификации текста, поскольку часто нам нужно классифицировать документы, которые мы никогда раньше не видели, и мы сталкиваемся с новыми словами. Это не имеет значения для классификации изображений.
Если у нас есть коллекция потребительских блогов (о финансах, красоте, спорте, политике и т. д.), с некоторыми помеченными документами и большим количеством немаркированных. Мы можем создавать (1-на-1) бинарные классификаторы TSVM, такие как финансы и красота, если у нас есть хороший способ выбрать немаркированные данные, как описано в нашем предыдущем блоге:
По сути, немаркированные документы должны состоять только из блогов о финансах и красоте и в том же соотношении, что и обучающие данные.
TSVM хорошо работают только для простой двоичной (1 против 1) классификации и только тогда, когда классы документов образуют простые кластеры. Они не работают для многоклассового классификатора, потому что не могут обрабатывать наборы данных (1 против всех).
Таким образом, хотя TSVM действительно работают, подойдет не любой немаркированный набор данных. Действительно, я лично считаю, что ключом к хорошему TSVM является создание хорошо сбалансированных неразмеченных данных. Или, что то же самое, очень хорошо оценить долю (+/-) примеров. Если набор реплик плохой или плохо изучен, результаты TSVM могут быть хуже, чем простое обучение SVM только на размеченных данных.
UniverSVM (USVM)
В 1998 г. и позже в 2006 г. Вапник представил другой тип SVM, который также позволяет учиться на неразмеченных данных, но заменяет принцип максимальной маржи на более надежный метод под названием
.
UniverSVM: принцип максимального противоречия
Идея состоит в том, чтобы добавить данные из классов, которые существенно отличаются от двух разделяемых классов:
Чтобы создать классификатор финансов и красоты, мы должны добавить помеченные и/или немаркированные документы из других категорий, таких как воспитание детей, политика, спорт и т. д. Затем нам нужен двоичный классификатор, который не только разделяет 2 помеченных класса, но и также как отличный от другого класса — Универсума.
Мы создаем 2 реплики Universum — одну со всеми (+) ярлыками и одну со всеми (-). Затем мы добавляем немаркированные документы (синие кружки), которые находятся на границе между классами или на самом деле в пробел между (+/-) классами:
Лучшие примеры Universum будут лежать в выпуклой оболочке между документами о финансах и красоте; те, что внутри выпуклых оболочек, скорее всего, будут проигнорированы. Поскольку все u-метки неверны, каждый класс эквивалентности гиперплоскостей будет производить многочисленные противоречия в точках Universum (u):
Лучшая модель имеет наибольшее разнообразие в Universum; другими словами, наибольшая энтропия венчурного капитала. Вапник указал на следующую интерпретацию Универсума: «[При попытке классифицировать помеченные данные старайтесь избегать лишних обобщений. ]»
Лучшая модель имеет Максимальное количество противоречий в Universum .
UniverSVM (USVM) представляет собой своего рода априорную информацию, которую мы добавляем к задаче; разница в том, что вместо того, чтобы указывать априорное распределение, что сложно, мы заменяем его более практичным подходом — указывать набор конкретных примеров.
Обратите внимание, что мы могли только что создать SVM 3-го класса (и код UniverSVM предоставляет это для прямого сравнения). Или мы могли бы создать классификатор 2 классов, дополненный некоторой метрикой кластеризации, чтобы избежать другой класс — — в том же духе метод S4VM. См., например, недавнюю статью об EMBLEM. Но в этих простых подходах другой класс должен содержать только другое, а это сложно.
USVM по сравнению с TSVM:
В TSVM мы должны быть уверены, что добавляем документы, относящиеся к тем же классам, что и обучающие данные. В USVM мы должны быть уверены, что добавляем документы , которые не принадлежат ни к одному из классов .
Кроме того, для TSVM нам нужно знать долю (+/-) документов, тогда как для USVM этого не требуется. Казалось бы, USVM допускает некоторые данные из всех классов — в принципе. На практике мы добьемся большего успеха, если это не так.
Самое главное, в отличие от TSVM, оптимизация USVM является выпуклой. Таким образом, добавление неверных данных может не вызвать проблем со сходимостью, как в TSVM, и, таким образом, ухудшить модель. По крайней мере, мы надеемся, что .
Кроме того, как и в случае с TSVM, мы подозреваем, что USVM будет работать только для небольших ; как только вырастет, скажем, до 5% от общего числа документов, мы можем не увидеть больших улучшений.
Алгоритм UniverSVM
Подход SVM, вдохновленный SLT, реализует зависящий от данных, но независимый от распределения регуляризатор, который позволяет нам выбирать лучшую модель из класса эквивалентных гипотез. Какие другие методы выбирают оптимальный класс эквивалентности?
Принцип максимальной мощности
Модель состоит из класса эквивалентности гиперплоскостей, скажем . Все они имеют одинаковую точность по размеченным данным.
Предположим, мы знаем априорное распределение на множестве всех возможных гиперплоскостей. Тогда мы можем определить мощность p* оптимальной модели как
. Мы редко можем определить математически… но мы можем аппроксимировать ее.
Давайте попробуем, выбрав немаркированные примеры документов; мы называем это множество Универсумом ().
Практический метод мы называем UniverSVM. Основная идея UniverSVM заключается в том, что, хотя мы не можем вычислить этот интеграл, мы можем оценить его, измерив количество противоречий, которые класс гиперплоскостей генерирует в точках из 90 328 .
Принцип максимального количества противоречий:
Нам нужен способ выбора класса эквивалентности с максимальным количеством противоречий на . Как обычно, мы создаем регуляризатор.
Мы дополняем стандартную задачу оптимизации SVM регуляризатором Universum
, где H — стандартная потеря шарнира SVM.
Регулятор также может быть определен через симметричную потерю шарнира, что делает задачу выпуклой. Код UniverSVM также содержит невыпуклый вариант, использующий подход линейно-потери. Мы оставляем детали академическим статьям.
Лапласовские SVM и принцип максимального объема
Примерно в то же время, когда Вапник представил UniverSVM, Ниоги (Чикагский университет) представил код TSVM SvmLin, а также новый подход к полууправляемому обучению, лапласиан SVM (или LapSVM).
TSVM максимизирует запас для помеченных и непомеченных данных. USVM максимизирует противоречия на немаркированном (UniverSVM) множестве. На самом деле оба они аппроксимируют более общую форму емкости — максимальный объем между выпуклыми оболочками наборов данных. И это может быть аппроксимация с использованием регуляризации Лапласа! Давайте посмотрим, как это все связано.
Оптимизация LapSVM – это
. Мы видим, что она очень похожа на USVM, но с другим регуляризатором – нормой лапласиана графа. Есть несколько на выбор, но LapSVM использует тот, который соответствует оператору Лапласа-Бельтрами на многообразии данных.
LapSVM недавно был применен к классификации текста, хотя у нас нет версии кода на C или Python для тестирования, как в случае с SvmLin и UniverSVM.
LapSVM и связанные с ними подходы к многообразному обучению обусловили некоторые недавние достижения в полууправляемых методах глубокого обучения, такие как классификатор касательных многообразий. Этот классификатор изучает базовое многообразие с помощью сжимающего автоматического кодировщика, а не с помощью простого лапласиана, и, похоже, это очень хорошо работает для изображений.
(Обратите внимание, что популярный пакет SciKit Learn включает в себя обучение по многообразию, но это только неконтролируемые варианты.)
Мы можем связать подход LapSVM с VC-SLT с помощью принципа максимального объема: Норма лапласиана графа равна мере VC энтропии
Давайте снова предположим, что нам нужно выбрать наилучший класс эквивалентности для наших размеченных данных из набора гиперплоскостей. Не имея определенного априорного значения, мы можем предположить равномерное распределение.
Затем нам просто нужно аппроксимировать объем
Нам нужен способ вычислить V, поэтому мы предполагаем, что существует такой оператор, что
С этой целью Vapnik et. др. представить « семейство трансдуктивных алгоритмов, которые реализуют принцип максимального объема », называемые алгоритмами (алгоритмами) приблизительной регуляризации объема (AVR). Они принимают вид
Для многих задач может быть просто Лапласиан графа
,
конкретная форма, указанная конкретным AVR.
Если мы запишем общую форму как
W, можно определить с помощью Гауссовского сходства
, которое имеет один регулируемый параметр ширины.
Более надежный лапласиан использует сходство локального масштабирования
с N регулируемыми параметрами.
принцип максимального объема может быть лучшим показателем пропускной способности VC
Этот принцип максимального объема применялся несколькими способами, например, в недавних статьях о кластеризации максимального объема и , а также в этой для обнаружения выбросов.