Промени размера
Аа Аа Аа Аа Аа

Светът изчерпва данните за изкуствения интелект. До какво ще доведе това?

13 ноември 2023, 08:40 часа • 6526 прочитания

Изследователите предупреждават, че в близко бъдеще може да се изчерпа запасът от данни за обучение на изкуствен интелект. Това може да забави подобряването на AI моделите, особено езиковите, и като цяло да промени вектора на развитие на перспективната област.

Още: Извънземни и косатки с ножове. Откритие в пустинята изплаши учените

Още: Пъб в английска провинция е обитаван от призраци, твърдят местни

Обучението на мощни, точни и висококачествени AI алгоритми изисква големи количества данни. Например ChatGPT е обучен на 570 гигабайта текстови данни, или около 300 милиарда думи. Алгоритъмът за стабилна дифузия, който захранва много невронни мрежи за създаване на изображения, включително DALL-E, Lensa и Midjourney, е обучен върху набора от данни LIAON-5B от 5,8 милиарда двойки изображение - текст. Ако даден алгоритъм се обучава върху недостатъчно данни, той ще даде неточни и некачествени резултати.

ОЩЕ: Извънземните вече са сред нас: Неочаквани разсъждения на кралския астроном на Великобритания

Качеството на данните за обучението също е важно. Данните с ниско качество, като например публикации в социални медии или снимки с ниска резолюция, са лесно достъпни, но не са достатъчни за обучение на високоефективни AI модели. Текстовете, взети от социалните мрежи, може да са необективни или предубедени, да съдържат дезинформация и дори незаконно съдържание.

Още: Партените: Незаконните деца на войната на Спарта

Още: Този рядък минерал е по-стар от Земята

Именно затова разработчиците на AI се стремят да използват висококачествено съдържание: текстове от книги, интернет статии, научни статии, Wikipedia, филтрирано уебсъдържание. Индустрията обучава AI системите на все по-големи масиви от данни, поради което днес имаме високоефективни модели като ChatGPT или DALL-E 3. Но запасите от данни в интернет нарастват много по-бавно от наборите от данни, използвани за обучаване на изкуствен интелект.

Изследователите прогнозират, че при запазване на настоящите тенденции в обучението на AI висококачествените текстови данни ще се изчерпят до 2026 г. Езиковите данни с ниско качество ще бъдат изчерпани през 2030 - 2050 г., нискокачествените изображения - през 2030 - 2060 г.

Още: Мистериозна глава на "човек-змия" отпреди 7500 години повдига въпроси

Още: Можете ли да кажете кой възел е най-здрав? Повечето хора се провалят

ОЩЕ: САЩ изпревари Европа, регулира със закон изкуствения интелект

Според оценките на одиторската и консултантска група PwC, AI може да донесе до 15,7 трилиона долара на световната икономика до 2030 г. Но липсата на годни за използване данни може да забави развитието на отрасъла. Ситуацията обаче може да не е толкова лоша, колкото се прогнозира.

Ситуацията може да се коригира например чрез усъвършенстване на алгоритмите, които позволяват по-ефективно използване на вече съществуващите данни. Напълно е вероятно през следващите години разработчиците да могат да обучават високопроизводителни AI системи, използвайки по-малко данни и вероятно по-малко изчислителна мощност.

Още: Революции, променили историята по VIASAT HISTORY (ВИДЕА)

Още: Древни британци убили и разчленили най-малко 37 души

Друг вариант е използването на AI за създаване на синтетични данни. С други думи, разработчиците могат просто да генерират необходимите им данни, като ги адаптират към конкретен AI модел. Няколко проекта вече използват синтетично съдържание, често получавано от услуги за генериране на данни като Mostly AI. Изглежда, че това ще стане по-разпространено в бъдеще.

ОЩЕ: Изкуствен интелект показа как изкуствен интелект прави финансови измами

Разработчиците също търсят съдържание извън безплатното онлайн пространство, като големи издатели и офлайн хранилища. Милиони текстове, създадени в печатен вид преди появата на интернет, биха могли да се превърнат в нов източник на данни за обучение на AI, когато бъдат цифровизирани.

Също така ще бъде възможно получаването на нови данни чрез сделки с носителите на авторските права върху текстово съдържание. Например News Corp, една от най-големите подобни компании в света, наскоро обяви, че преговаря за сключване на договори с разработчици на изкуствен интелект. Подобни сделки ще принудят разработчиците да плащат за данни за обучение, въпреки че досега те до голяма степен са ги събирали безплатно от интернет, пише The Conversation.

Последвайте ни в Google News Showcase, за да получавате още актуални новини.
Антония Михайлова
Антония Михайлова Отговорен редактор
Новините днес