Светът изчерпва данните за изкуствения интелект. До какво ще доведе това?

13 ноември 2023, 08:40 часа • 6674 | прочитания

Изследователите предупреждават, че в близко бъдеще може да се изчерпа запасът от данни за обучение на изкуствен интелект. Това може да забави подобряването на AI моделите, особено езиковите, и като цяло да промени вектора на развитие на перспективната област.

Още: Нови открития при разкопки в Хераклея Синтика

Още: Археолози откриха следи от битката между цар Йосия и фараона Нехо при Армагедон

Обучението на мощни, точни и висококачествени AI алгоритми изисква големи количества данни. Например ChatGPT е обучен на 570 гигабайта текстови данни, или около 300 милиарда думи. Алгоритъмът за стабилна дифузия, който захранва много невронни мрежи за създаване на изображения, включително DALL-E, Lensa и Midjourney, е обучен върху набора от данни LIAON-5B от 5,8 милиарда двойки изображение - текст. Ако даден алгоритъм се обучава върху недостатъчно данни, той ще даде неточни и некачествени резултати.

ОЩЕ: Извънземните вече са сред нас: Неочаквани разсъждения на кралския астроном на Великобритания

Качеството на данните за обучението също е важно. Данните с ниско качество, като например публикации в социални медии или снимки с ниска резолюция, са лесно достъпни, но не са достатъчни за обучение на високоефективни AI модели. Текстовете, взети от социалните мрежи, може да са необективни или предубедени, да съдържат дезинформация и дори незаконно съдържание.

Още: Откриха най-старата мравка, на милиони години е

Още: Оксфордските академици вдигали наздравици с чаша от човешки череп чак до 2015 г.

Именно затова разработчиците на AI се стремят да използват висококачествено съдържание: текстове от книги, интернет статии, научни статии, Wikipedia, филтрирано уебсъдържание. Индустрията обучава AI системите на все по-големи масиви от данни, поради което днес имаме високоефективни модели като ChatGPT или DALL-E 3. Но запасите от данни в интернет нарастват много по-бавно от наборите от данни, използвани за обучаване на изкуствен интелект.

Изследователите прогнозират, че при запазване на настоящите тенденции в обучението на AI висококачествените текстови данни ще се изчерпят до 2026 г. Езиковите данни с ниско качество ще бъдат изчерпани през 2030 - 2050 г., нискокачествените изображения - през 2030 - 2060 г.

Още: Древните римляни излъгали за военна победа над кушитите

Още: Революционно: Учени откриха как мозъкът ни създава, съхранява и извлича спомени

ОЩЕ: САЩ изпревари Европа, регулира със закон изкуствения интелект

Според оценките на одиторската и консултантска група PwC, AI може да донесе до 15,7 трилиона долара на световната икономика до 2030 г. Но липсата на годни за използване данни може да забави развитието на отрасъла. Ситуацията обаче може да не е толкова лоша, колкото се прогнозира.

Ситуацията може да се коригира например чрез усъвършенстване на алгоритмите, които позволяват по-ефективно използване на вече съществуващите данни. Напълно е вероятно през следващите години разработчиците да могат да обучават високопроизводителни AI системи, използвайки по-малко данни и вероятно по-малко изчислителна мощност.

Още: Създадоха 3D принтирани вегански калмари (ВИДЕО)

Още: Посочиха точния брой крачки, които трябва да правим на ден, ако работим седнали

Друг вариант е използването на AI за създаване на синтетични данни. С други думи, разработчиците могат просто да генерират необходимите им данни, като ги адаптират към конкретен AI модел. Няколко проекта вече използват синтетично съдържание, често получавано от услуги за генериране на данни като Mostly AI. Изглежда, че това ще стане по-разпространено в бъдеще.

ОЩЕ: Изкуствен интелект показа как изкуствен интелект прави финансови измами

Разработчиците също търсят съдържание извън безплатното онлайн пространство, като големи издатели и офлайн хранилища. Милиони текстове, създадени в печатен вид преди появата на интернет, биха могли да се превърнат в нов източник на данни за обучение на AI, когато бъдат цифровизирани.

Също така ще бъде възможно получаването на нови данни чрез сделки с носителите на авторските права върху текстово съдържание. Например News Corp, една от най-големите подобни компании в света, наскоро обяви, че преговаря за сключване на договори с разработчици на изкуствен интелект. Подобни сделки ще принудят разработчиците да плащат за данни за обучение, въпреки че досега те до голяма степен са ги събирали безплатно от интернет, пише The Conversation.

Последвайте ни в Google News Showcase, за да получавате още актуални новини.