13.12.2023
6761

Gemini від Google – новий вид штучного інтелекту

Юлія Заблоцька
автор ApiX-Drive
Час прочитання: ~36 хв

Поки експерти різних рангів ламають списи в гарячих дискусіях про необхідність продовження експериментів зі штучним інтелектом, прискорення його розвитку та про рівень загрози, що нависла над людством через нього, корпорація Google вирішила не гаяти часу і не чекати обгону конкурентами. У грудні 2023 року вона повідомила про запуск своєї нової моделі ШІ – Gemini. До речі, перші згадки про неї пролунали ще у травні на презентації I/O 2023.

Зміст:
1. Gemini – революційна інновація в ШІ
2. У чому унікальність нового ШІ
3. Навчання моделі
4. Сфери застосування Gemini
5. Версії Google Gemini
6. Gemini VS GPT-4
7. Інтеграція
8. Проблеми та недоліки
9. Підсумуємо
***

Минулого року Google поступалася своєму основному конкуренту у сфері ШІ – OpenAI. Зате тепер має хороші шанси довести, що її продукт не тільки найкращий у своїй категорії, але й здатний кардинально змінити нашу взаємодію зі штучним інтелектом. Розробники планують охопити можливостями новинки практично весь бізнес пошукового гіганта й стверджують, що вона перевершила популярну модель GPT-4 від OpenAI та навіть експертів-людей за результатами низки тестів рівня інтелекту. З нашої статті ви дізнаєтеся, що являє собою модель Gemini, для чого і де використовується, в чому полягає її унікальність і багато іншого.

Gemini – революційна інновація в ШІ

Модель ШІ Gemini – інноваційний продукт, що має унікальну здатність обробляти інформацію різних типів: текст, відео, аудіо та програмний код. При цьому з аудіо та відео вона працює так само добре, як і з текстом.

Ера Gemini


Основні вміння:

  • робить висновки з урахуванням вивчених даних, виконує переклад текстів, веде діалог;
  • вирішує завдання, користуючись математичним мисленням;
  • генерує програмний код та створює документацію;
  • розпізнає та розуміє зображення, відео та аудіо.

Цей штучний інтелект видає складніші роздуми, відповідає на непрості запитання та розуміє набагато більше нюансів інформації, ніж його попередник Bard. Працюючи в режимі багатозадачності, він може отримувати найцінніші та найважливіші дані із сотень тисяч документів. Крім того, Gemini 1.0 отримала оновлений інструмент AlphaCode 2, завдяки якому модель розуміє, пояснює та генерує програмний код високої якості найпоширенішими мовами – Java, C++, Python та Go. Вона демонструє відмінні результати у вирішенні завдань із програмування, що виходять за рамки простого кодингу та включають елементи теоретичної інформатики та вищої математики. Все це дає Google вагомі підстави вважати, що їхня модель допоможе здійснити прориви в багатьох сферах, від науки до економіки та фінансів.

За словами представників компанії, Gemini одразу навчалася роботи з різними форматами інформації, а не опановувала додатковий функціонал після запуску основного, як інші моделі. Щоб показати приклад роботи новинки, вони представили відеоролик, де чат-бот Bard на базі Gemini допомагає студенту виконати домашнє завдання з фізики. Учень завантажує в нього вхідні дані – фото питань, написаних на аркуші паперу. Вивчивши їх, ШІ дає покрокові відповіді з рівняннями.

Одна з конкурентних переваг штучного інтелекту Gemini – висока адаптивність до будь-яких пристроїв. Його можна буде використовувати практично скрізь, починаючи від простого смартфона та закінчуючи великими центрами обробки даних.

У чому унікальність нового ШІ

Представники Google стверджують, що Gemini – новаторська модель ШІ, потенціал якої, як ми вже згадували, дозволить випередити GPT-4 від OpenAI та живих експертів. Весь спектр її можливостей базується на двох основних рисах – мультимодальності та людяності.

Створити дійсно ефективний та привабливий для користувачів мультимодальний ШІ можна лише злиттям різних моделей штучного інтелекту. Мовна модель, комп'ютерний зір, обробка графів та звуку, програмування та кодування – все це потрібно інтегрувати між собою та грамотно узгодити, щоб досягти повної синергії. Так, якщо сильно спростити, виглядає розробка мультимодального ШІ. Це дуже складне, монументальне завдання, і Google вдалося його виконати, створивши Gemini. Ба більше, корпорація має намір піти ще далі та вивести цю концепцію на безпрецедентний рівень.

З мультимодальністю розібралися, тепер – щодо людяності. Причина карколомного успіху практично будь-якого генеративного ШІ полягає в імітації машиною того, що робить людина. Про що саме йдеться? Люди не фрагментують свою діяльність на завдання, які не залежать одне від одного: комунікацію, кодинг, написання звітів, графічну творчість. Вони можуть займатися всім цим одночасно. Наприклад, у процесі створення малюнка ви дзвоните колезі та уточнюєте деякі деталі зображення, після чого пишете в месенджер своєму керівнику та надсилаєте йому звіт про виконану роботу за місяць. Людський мозок здатний одномоментно сприймати, інтерпретувати та розуміти дані різних форматів: текст, мовлення, звуки та зображення. Завдяки цьому ми усвідомлюємо навколишнє середовище, реагуємо на подразники та стимули, а також знаходимо інноваційні та нестандартні способи вирішення завдань. Gemini отримав від Google ту ж здатність, таким чином ще на крок наблизившись до людини.

Навчання моделі

Для навчання Gemini корпорація Google залучила рекордні обчислювальні потужності, використавши найпрогресивніші чіпи TPUv5. Її система тензорних процесорів TPUv5p – єдина технологія у світі, яка забезпечує одночасну роботу 16384 чіпів. Цей надпотужний прискорювач ШІ призначений для центрів обробки даних, де навчаються та запускаються найбільші генеративні моделі. Саме він дав Google можливість наділити такий масштабний продукт, як Gemini, максимумом знань та вмінь.

В основі навчання будь-якої моделі ШІ лежать не тільки потужність чіпів та їх кількість, а й дані. Без них нічого не вийде. А ось у цій сфері Google практично не має рівних. За даними консалтингової компанії SemiAnalysis, колекція даних цієї корпорації, що містять лише код, оцінюється приблизно у 40 трильйонів токенів. Ця кількість еквівалентна сотням петабайт (для наочності можете уявити текст мільйонів книг). Один такий комплект Google у 4 рази перевищує обсяг усіх даних (кодових та некодових), які були використані для навчання ChatGPT-4.

Головний директор Alphabet Inc. і Google Сундар Пічаї та генеральний директор дочірньої компанії Google DeepMind Деміс Гасабіс вважають появу Gemini величезним стрибком у розвитку ШІ, який торкнеться майже всіх продуктів корпорації.

Сфери застосування Gemini

Штучний інтелект сьогодні активно впроваджується у багатьох сферах: промисловості, технологіях, освіті, науці, бізнесі. Gemini може застосовуватися у таких напрямках та галузях:

  • Комп'ютерний зір (виявлення об'єктів та аномалій, обробка та розуміння 3D-сцени).
  • Наука про геопросторові дані (цілодобовий моніторинг, об'єднання інформації, отриманої з кількох джерел, її аналіз та структурування).
  • Охорона здоров'я (профілактична медицина, персоналізація системи охорони здоров'я, біосенсори).
  • Комп'ютерно-інтегровані та інтелектуальні технології (LLM, синтез даних, передавання системам предметних знань, розширення діапазону можливостей прийняття рішень на основі даних).

Версії Google Gemini

Версії Gemini


Ми вже зазначали, що Gemini – гнучка модель, що має здатність працювати на будь-якому пристрої: від величезного центру обробки даних до звичайного смартфона. Для досягнення такої масштабованості Google випустила її в 3 версіях, що відрізняються розмірами та функціоналом:

  • Nano;
  • Pro;
  • Ultra.

Nano

Gemini Nano – найменша модель. Вона найкраще підходить для вирішення завдань, що вимагають допомоги ШІ, безпосередньо на пристрої, без підключення до зовнішнього сервера. Приклади таких завдань: підсумовування тексту, пропозиція відповіді у додатку чату. Крім зручності, ця модель ШІ гарантує користувачам збереження конфіденційності даних.

Зв'яжіть сервіси та додатки між собою без програмістів за 5 хвилин!

Nano розроблена для смартфонів та представлена у 2 версіях. Одна має у своєму розпорядженні 1,8 мільярда параметрів і призначена для більш повільних пристроїв. Друга має 3,25 мільярда параметрів, тому нею можна користуватися на потужніших телефонах.

Pro

Gemini Pro – модель-універсал середнього розміру (100 мільярдів параметрів), яка може виконувати широкий спектр завдань. Вона розуміє складні запити та швидко дає відповіді. Її головне призначення – ядро останньої версії чат-бота Bard. Крім того, її вже використовують у корпоративних центрах обробки даних Google. Представники корпорації стверджують, що вона перевершила низку інших генеративних моделей ШІ, зокрема популярну GPT-3.5 від OpenAI.

Розробники та корпоративні користувачі можуть отримати доступ до Gemini Pro через API у сервісах Google AI Studio та Google Cloud Vertex AI.

Ultra

Gemini Ultra – найбільша та найпотужніша модель, призначена для вирішення надскладних завдань. Кількість її параметрів перевищує 1 трильйон. Наразі Ultra перевершує можливості всіх наявних моделей штучного інтелекту у світі. Їй першій вдалося випередити людину в стандартному тесті MMLU, отримавши 90%. Докладніше про це ви зможете дізнатися у наступному розділі.

Доступ до Ultra поки мають лише обрані експерти з безпеки, тестувальники та ключові бізнес-партнери корпорації. На початку 2024 року Google збирається відкрити його для всіх її розробників та корпоративних користувачів. На цей час також запланований запуск ШІ-асистента Bard Advanced, який набуде всіх можливостей цієї версії Gemini.

Gemini VS GPT-4

Тести, проведені Google, продемонстрували, що Gemini виявилася кращою за будь-який продукт OpenAI. Компанія поділилася двома таблицями з порівнянням своєї розробки з моделлю GPT-4. Згідно з представленими в них даними, за абсолютною більшістю показників лідером є Gemini. Наприклад, у тестах MMLU правильними були 90% її відповідей. Результат ChatGPT – 86,4%. Цікаво, що їй вдалося обійти навіть людину з рівнем експерта, яка у цих тестах зазвичай набирає 89,8%.

Gemini вдалося обійти людину в тесті MMLU


Довідка:
MMLU (Massive Multitask Language Understanding) – стандартний тест, за допомогою якого вимірюють здібності штучного інтелекту. Він складається з набору завдань з 57 тематичних кластерів, які включають математику, фізику, географію, історію, право, економіку, медицину, етику, а також складні питання, присвячені логічним помилкам, моральним проблемам повсякденності тощо.

У 30 тестах з 32, проведених у рамках дослідження LLM Gemini, вона випередила GPT-4. За результатами трьох тестів на здатність осмислювати інформацію та робити правильні висновки ця модель здобула впевнену перемогу у двох із них. Також вона була першою в обох тестах зі створення програмного коду та математики.

Gemini обійшла GPT-4 в академічних тестах


У роботі із зображеннями, відео та аудіо Gemini знову показала себе кращою за GPT-4, обійшовши конкурента абсолютно у всіх тестах.

Gemini краща за GPT-4 у роботі із зображеннями, відео та аудіо

Інтеграція

Google розробляла Gemini не лише для модернізації свого чат-бота Bard та вбудовування штучного інтелекту в смартфони. У корпорації наголосили, що новинка буде інтегрована у всі найважливіші її продукти, зокрема в однойменну пошукову систему, браузер Chrome, сервіс контекстної реклами Google Ads, ШІ-асистент Duet AI.

Gemini буде інтегрована у всі найважливіші продукти Google


Коли саме це станеться, інформації поки немає. У Google обмежилися розпливчастим формулюванням «у найближчі місяці».

Bard

Gemini Pro вже впроваджено в чат-бот Bard. Розробники переконані, що таке ядро виведе його на новий рівень, і сподіваються, що воно дозволить йому обійти ChatGPT. До цієї інтеграції Bard показував нижчі результати порівняно із продуктом OpenAI.

Gemini Pro вже впроваджена у Bard


Попри мультимовність поточної версії чат-бота Bard, модель Gemini у його складі наразі винятково англомовна. У майбутньому планується підтримка й інших мов.

Тим, хто захоче скористатися найпотужнішою версією Gemini Ultra, доведеться платити. Платна версія називатиметься Bard Advanced і з'явиться на початку 2024 року, проте її вартість ще невідома. До речі, першою такий підхід застосувала OpenAI, пропонуючи ChatGPT-3.5 безплатно, а підписку на ChatGPT-4 за $20.

Смартфони Pixel

Смартфони Pixel отримали вбудовану підтримку моделі Gemini Nano разом із грудневим оновленням Pixel 8 Pro. Щоправда, її можливості поки обмежені. Зараз вона здійснює керування функцією Summarize у додатку Android Recorder. Крім того, цей ШІ може брати на себе функцію Android Smart Reply, але лише за умови використання клавіатури Google та виключно у месенджері WhatsApp. У 2024 році Gemini буде впроваджено і в інші месенджери, а також інші частини операційної системи пристроїв Pixel.

Проблеми та недоліки

Модель штучного інтелекту Gemini дійсно є серйозним стрибком у розвитку його можливостей. І все-таки вона не позбавлена недоліків, характерних для будь-якої LLM. Серед основних мінусів називають:

  • ризик створення неправдивої інформації;
  • доступ до навчальних матеріалів низької якості;
  • деяка обмеженість розуміння справжнього світу.

У Google не заперечують, що їхня революційна новинка може помилятися і навіть видавати за факти інформацію, що суперечить здоровому глузду, тобто «галюцинувати». Представники корпорації вважають, що вона потребує проведення додаткового тестування, особливо версія Ultra, можливості якої ще не до кінця вивчені. Зараз розробники дуже прискіпливо вивчають і оцінюють роботу Gemini з метою мінімізувати ризик шкоди користувачеві.

Підсумуємо

Якщо 2023 рік вважається датою, коли ШІ набув широкої популярності та пішов у масове використання, то 2024-й цілком може стати зірковим для Google Gemini. Цю модель ШІ будуть застосовувати для написання програмного коду, покращення та автоматизації операцій (як хмарних, так і периферійних), підвищення продажів, а також для інтеграції в чат-ботів та ШІ-асистентів у додатках, смартфонах і не тільки.

Краща продуктивність Gemini, у порівнянні з іншими моделями штучного інтелекту та людиною, дозволяє нам зробити дуже оптимістичний, навіть на межі з фантастичним, прогноз про можливості ШІ в майбутньому. І все ж таки не варто забувати про необхідність проведення додаткових досліджень, щоб подолати недоліки. Що стосується саме Gemini, очікується, що ця модель скоро наділить практично всі продукти Google більш корисними та інтелектуальними функціями.

***

Прагнете вивести бізнес на новий рівень, досягати цілей швидше та ефективніше? Apix-Drive є вашим надійним помічником для цих завдань. Онлайн-конектор сервісів та додатків допоможе вам автоматизувати ключові бізнес-процеси та позбутися рутини. Ви та ваші співробітники звільните час для виконання важливих профільних завдань. Спробуйте можливості Apix-Drive безкоштовно, щоб переконатися в ефективності онлайн-конектора особисто.