Что делать, если у вас закончились данные для обучения модели ИИ?

Быстрый прогресс в области искусственного интеллекта зависит в первую очередь от наличия точных и масштабных данных для обучения. По мере расширения использования искусственного интеллекта в различных секторах многие компании начинают сталкиваться с проблемами, связанными с нехваткой доступных данных для обучения, что может повлиять на качество и эффективность разрабатываемых ими интеллектуальных моделей. Итак, как мы можем продолжать обучать и развивать системы ИИ, несмотря на этот дефицит?

Может показаться, что Интернет переполнен доступными данными, но ИИ уже поглотил большую часть открытых источников. Однако это не значит, что прогресс остановится. Существуют новые стратегии, которые можно использовать для устранения пробелов в данных, такие как создание синтетических данных, сбор персонализированных данных и использование неструктурированных данных инновационными способами. В этой статье мы рассмотрим эти инновационные решения и то, как они могут поддержать развитие ИИ, гарантируя, что он продолжит обеспечивать более высокую производительность и большую ценность для пользователей.

Что делать, если у вас закончились данные для обучения модели ИИ?

1. Плюс данные всегда добавляются онлайн.

Короче говоря, говорит Научно-исследовательский институт искусственного интеллекта Эпоха Высококачественные данные, на которых можно обучать ИИ, могут закончиться к 2026 году.

Ключевое слово здесь «может». Объем данных, добавляемых в Интернет, увеличивается с каждым годом, поэтому что-то радикальное может измениться до 2026 года. Однако это все еще справедливая оценка — в любом случае в какой-то момент у систем ИИ закончатся хорошие данные.

Однако надо помнить, что каждый год в сети добавляется около 147 зеттабайт данных (по данным... Exploding Topics). Всего один зеттабайт равен 1,000,000,000,000,000,000,000 30 4 XNUMX XNUMX XNUMX XNUMX XNUMX бит данных. В реальном выражении это более XNUMX миллиардов фильмов в формате XNUMXK (реальных, но непостижимых). Искусственному интеллекту приходится анализировать ошеломляющий объем информации.

Однако искусственный интеллект потребляет данные быстрее, чем человечество может их произвести...

2. ИИ может забыть данные низкого качества

Конечно, не все 147 зеттабайт данных являются хорошими данными. В этом есть нечто большее, чем кажется на первый взгляд. Но предполагается, что к 2050 году ИИ также будет потреблять лингвистические данные низкого качества.

сообщил Reuters Photobucket, когда-то один из крупнейших в мире хранилищ фотографий, ведет переговоры о лицензировании своей обширной библиотеки компаниям, занимающимся обучением искусственному интеллекту. У фотографий есть данные для обучения таких моделей, как DALL-E и Midjourney, но даже они могут закончиться к 2060 году. Здесь есть и более серьезная проблема: Photobucket включил фотографии из социальных сетей XNUMX-х годов, таких как Myspace, а это значит, что они не такого высокого уровня, как нынешние. фотография. Это приводит к низкому качеству данных.

Photobucket не одинок. В феврале 2024 года Google заключила соглашение с Reddit, позволяющее поисковому гиганту использовать данные пользователей платформы социальных сетей для обучения искусственного интеллекта. Другие платформы социальных сетей также предоставляют пользовательские данные для целей обучения ИИ; Некоторые используют его для обучения внутренних моделей ИИ, например Llama от Meta.

Однако, хотя некоторую информацию можно извлечь из данных низкого качества, Microsoft, как сообщается, разрабатывает способ, позволяющий ИИ выборочно «игнорировать» данные. В первую очередь это решение будет использоваться для решения проблем интеллектуальной собственности, но это также может означать, что инструменты могут забыть то, что они узнали из наборов данных низкого качества.

Мы можем передавать ИИ больше данных, не проявляя при этом слишком избирательности; Эти системы искусственного интеллекта затем могут выбирать, чему наиболее полезно научиться.

3. Распознавание речи открывает данные, доступные в видео и подкастах.

Данные, передаваемые в инструменты искусственного интеллекта, до сих пор в основном состояли из текста и, в меньшей степени, изображений. Это, несомненно, изменится, и, вероятно, уже изменилось, потому что программное обеспечение для распознавания речи будет означать, что обилие доступных видео и подкастов также может обучать искусственный интеллект.

Стоит отметить, что OpenAI разработала нейронную сеть с открытым исходным кодом для автоматического распознавания речи (ASR). Whisper, используя 680.000 4 часов многоязычных и многозадачных данных. Затем OpenAI загрузила более миллиона часов информации из видеороликов YouTube в свою большую языковую модель GPT-XNUMX.

Это идеальная модель для других систем искусственного интеллекта, которые используют распознавание речи для расшифровки видео и аудио из многих источников и пропускают эти данные через свои собственные модели искусственного интеллекта.

в соответствии с StatistaКаждую минуту на YouTube загружается более 500 часов видео, и эта цифра остается практически постоянной с 2019 года. И это не говоря уже о других видео- и аудиоплатформах, таких как Dailymotion и Podbean. Если ИИ сможет обратить свое внимание на такие новые наборы данных, как этот, нам еще предстоит извлечь огромный объем информации.

4. ИИ в основном придерживается английского языка

Это еще не все, чему мы можем научиться у Whisper. OpenAI обучила модель, используя 117000 XNUMX часов аудиоданных не на английском языке. Это особенно интересно, поскольку многие системы искусственного интеллекта обучались в основном с использованием английского языка или рассмотрения других культур через призму Запада.

По сути, большинство инструментов связаны культурой их создателей.

Возьмем, к примеру, ChatGPT. Вскоре после его выпуска в 2022 году... Джилл Уокер Реттберг, профессор цифровой культуры Бергенского университета, Норвегия, экспериментировал с ChatGPT и пришел к следующему выводу:

«ChatGPT мало что знает о норвежской культуре. Вернее, предполагается, что все, что он знает о норвежской культуре, он почерпнул в основном из английских источников… ChatGPT явно совместим с американскими ценностями и законами. Во многих случаях они близки норвежским и европейским ценностям, но это не всегда так.

Таким образом, системы искусственного интеллекта могут развиваться так, чтобы с ними взаимодействовало большее количество многонациональных людей, или использовать более разнообразные языки и культуры для обучения таких систем. В настоящее время многие модели ИИ ограничены одной библиотекой; Оно могло бы вырасти, если бы ему были предоставлены ключи от библиотек по всему миру.

5. Издательства могут помочь в развитии искусственного интеллекта.

Интеллектуальная собственность, очевидно, является большой проблемой, но некоторые издатели могут способствовать развитию ИИ, заключая лицензионные соглашения. Это означает предоставление инструментам высококачественных, то есть надежных данных из книг, а не некачественной информации из онлайн-источников.

Фактически, Мета, владелец Facebook, Instagram и Whatsapp, как сообщается, рассматривал возможность покупки Simon & Schuster, одного из издательских домов «Большой пятерки». Идея заключалась в том, чтобы использовать литературу, изданную компанией, для обучения ИИ Меты. В конечном итоге сделка сорвалась, возможно, из-за этической «серой зоны», связанной с тем, что компания обрабатывала интеллектуальные права без предварительного согласия авторов.

Еще одним рассматриваемым вариантом, по-видимому, является покупка индивидуальных лицензионных прав на новые названия. Это должно вызвать серьезные опасения у создателей, но это все равно будет интересным способом разработки инструментов ИИ, если у нас закончатся пригодные для использования данные.

6. Синтетические данные — это будущее

Все остальные решения по-прежнему ограничены, но есть один вариант, который может привести к процветанию ИИ в будущем: синтетические данные. Этот вопрос уже расследуется как вполне возможный.

Итак, что же такое синтетические данные? Это данные, генерируемые искусственным интеллектом; Подобно тому, как люди создают данные, этот метод позволит ИИ создавать данные в учебных целях.

На самом деле, ИИ может создавать убедительные дипфейковые видео. Это дипфейковое видео можно передать обратно ИИ, чтобы он мог извлечь уроки из того, что по сути является вымышленным сценарием. В конце концов, это один из основных способов обучения человека: мы что-то читаем или смотрим, чтобы понять окружающий мир.

Системы искусственного интеллекта, вероятно, уже потребляют искусственную информацию. Дипфейки распространяют в Интернете вводящую в заблуждение и ложную информацию, поэтому, когда системы искусственного интеллекта сканируют онлайн-контент, вполне понятно, что некоторые из них могли подвергнуться воздействию фейкового контента.

Да, в этом есть и зловещая сторона. Он также может повредить или ограничить системы искусственного интеллекта, усиливая и распространяя ошибки, допускаемые этими инструментами. Компании работают над устранением этой проблемы; Однако фраза «ИИ учатся друг у друга и совершают ошибки» является сюжетной линией многих научно-фантастических кошмаров.

7. Лучше используйте искусственный интеллект

Инструменты искусственного интеллекта вызывают споры. У него много недостатков, но критики игнорируют его преимущества. Например, Аудиторско-консалтинговая сеть. PwC [PDF] К 15.7 году искусственный интеллект может принести в мировую экономику до 2030 триллионов долларов.

Более того, ИИ уже используется во всем мире. Вероятно, вы использовали его сегодня в той или иной форме, возможно, даже не осознавая этого. Теперь, когда джинн выпущен из бутылки, ключевым моментом, безусловно, является его обучение на надежных, высококачественных данных, чтобы мы могли правильно его использовать.

Искусственный интеллект имеет свои плюсы и минусы. Баланс, безусловно, нужно найти.

Инструменты ИИ сталкиваются с растущей проблемой из-за отсутствия доступных данных для обучения, что грозит подорвать их прогресс и развитие. Для решения этой проблемы внедряются инновационные решения, такие как использование синтетических данных, применение неконтролируемого обучения и содействие сотрудничеству между учреждениями для обмена данными. Эти решения помогают предоставлять новые источники данных, гарантируя, что интеллектуальные модели будут продолжать совершенствоваться и развиваться эффективно и результативно.