რა არის Google Gemini? - მომავლის კომპანია!

1000

Techfacts

News

მოტივაცია

ტექნოლოგიები

25.04.2024

1360 დათვალიერება

Apple და Google ათ წელზე მეტია იბრძვიან მობილურის ბაზარზე დომინირებისთვის. ამიტომაც, Bloomberg-ის, The New York Times-ისა და The Wall Street Journal-ის მიერ ამ გავრცელებული ცნობები იმის შესახებ, რომ ორმა დიდი ხნის კონკურენტმა კომპანიამ შესაძლოა მომავალში ითანამშრომლონ, საკმაოდ მოულოდნელი იყო.

აღნიშნული კოლაბორაცია მომავლის კომპანია Gemini-თ იქნა გამოწვეული

Gemini ახალი ხელოვნური ინტელექტი მოდელების კრებულია Google-ისგან. მიუხედავად იმისა, რომ Google არის ლიდერი AI კვლევებში თითქმის ათწლეულის განმავლობაში და ავითარებს სატრანსფორმატორო არქიტექტურას - ერთ-ერთ საკვანძო ტექნოლოგიას დიდ ენობრივ მოდელებში (LLMs) - OpenAI და მისი GPT მოდელები მაინც დომინირებენ ამ სფეროში.

Gemini Nano, Gemini Pro და Gemini Ultra ნამდვილი გარღვევაა საძიებო სფეროში, ტექსტის გარდა მათ შეუძლიათ სურათების, აუდიოს, ვიდეოების და კოდის აღქმა. მოდით ჩავუღრმავდეთ და ვნახოთ, შეძლებს თუ არა Google ნამდვილად დაბრუნდეს ხელოვნური ინტელექტის თამაშში.

Google Gemini AI OpenAI-ს GPT მოდელების ოჯახის ღირსეული კონკურენტია, არის მცირე განსხვავებაც: მიუხედავად იმისა, რომ Gemini-ს შეუძლია, სხვა LLM-ების მსგავსად, ტექსტის გაგება და გენერირება, მას ასევე შეუძლია ბუნებრივად აღიქვას, დაამუშაოს და დააკავშიროს სხვა ტიპის ინფორმაციაც, როგორიცაა სურათები, აუდიო, ვიდეო და კოდი. მაგალითად, შეგიძლიათ მისცეთ ბრძანება, როგორიცაა "რა ხდება ამ სურათზე?" და მიამაგროთ სურათი, ის აღწერს სურათს და უპასუხებს შემდგომ მოთხოვნებს უფრო კომპლექსური ინფორმაციის დასამუავებლად, შესაძლოა ამოიცნოს ისტორიული ქვები, თანდაყოლილი დაავადებები, გამოყოს ერთი კონკრეტული ფერის ასობით ტონები...

ვინაიდან ჩვენ ახლა შევედით ხელოვნური ინტელექტების კორპორატიული კონკურენციის ეპოქაში, კომპანიების უმეტესობა საიდუმლოდ ინარჩუნებს თავისებურებებს, თუ როგორ მუშაობენ მათი მოდელები და როგორ განსხვავდებიან ისინი. მიუხედავად ამისა, Google-მა დაადასტურა, რომ Gemini-ის მოდელები იყენებენ სატრანსფორმატორო არქიტექტურას და ეყრდნობიან სტრატეგიებს, როგორიცაა წინასწარი მომზადება და დაზუსტება, ისევე როგორც სხვა LLM-ები, როგორიცაა GPT-4. მთავარი განსხვავება მასსა და ტიპურ LLM-ს შორის არის ის, რომ Gemini ასევე მუშაობს სურათებზე, აუდიოზე და ვიდეოებზე, ამავდროულად, ავითარებს ტექსტის დამუშავებას და ეს არ არის ბოლოს მიმაგრებული ცალკეული მოდელის მუშაობის შედეგი.

თეორიულად, ეს უნდა ნიშნავდეს, რომ Gemini-ს ესმის საგნები უფრო ინტუიციურად. ავიღოთ ფრაზა, როგორიცაა „მაიმუნური ბიზნესი": თუ ხელოვნური ინტელექტი უბრალოდ გაწრთვნილია სურათებზე წარწერით "მაიმუნი" და "ბიზნესი", როდესაც მას ვთხოვთ დახატოს რაიმე ამასთან დაკავშირებული სავარაუდოდ, იგი დაგვიხატავს მხოლოდ მაიმუნებს კოსტიუმებში. მეორეს მხრივ, თუ AI სურათების და ენიობრივი ნიუანსების აღსაქმელად ერთდროულად გაიწრთვნება, მაშინ მთელს მოდელს უფრო ღრმად უნდა ესმოდეს ფრაზის ენობრივი და კონტექსტური კონოტაციები. კარგია, რომ მაიმუნებს აცვიათ კოსტიუმები, მაგრამ მათ ბანანის სროლა ურჩევნიათ.

მიუხედავად იმისა, რომ ეს ყველაფერი Google Gemini-ს უფრო საინტერესოს ხდის, არ ხდის მას სრულიად უნიკალურს: GPT-4 Vision (GPT-4V) არის მსგავსი მულტიმოდალური მოდელი OpenAI-სგან, რომელსაც აქვს გამოსახულების დამუშავების GPT-4-ის LLM შესაძლებლობები (მიუხედავად იმისა, რომ მან ვერ ჩააბარა ჩემი "მაიმუნური ბიზნესის" ტესტი).

Gemini შექმნილია თითქმის ნებისმიერ მოწყობილობაზე მუშაობისთვის. Google ირწმუნება, რომ მის სამ ვერსიას - Gemini Ultra, Gemini Pro და Gemini Nano-ს შეუძლია ეფექტურად იმუშაოს ყველაფერზე, მონაცემთა ცენტრიდან დაწყებული, სმარტფონებით დამთავრებული.

Gemini Ultra არის ყველაზე მოცულობადი მოდელი, რომელიც შექმნილია ყველაზე რთული ამოცანებისთვის. LLM სტანდარტებში, როგორიცაა MMLU, Big-Bench Hard და HumanEval, მან აჯობა GPT-4-ს, ხოლო მულტიმოდალურ კრიტერიუმებში, როგორიცაა MMMU, VQAv2 და MathVista, ის უკეთესია ვიდრე GPT-4V. ის ჯერ კიდევ გადის ტესტირების ფაზას და მოხმარებაში გაიშვება მომავალ წელს.
Gemini Pro გთავაზობთ ბალანსს მასშტაბურობასა და შესრულებას შორის. იგი შექმნილია სხვადასხვა ამოცანებისთვის. ამჟამად ის იყენებს, სპეციალურად შემუშავებულ ვერსიას - Google Gemini ჩეთბოტი (ადრე ეწოდებოდა Bard), უფრო რთული მოთხოვნების დასამუშავებლად. დამოუკიდებელი ტესტირებისას აღმოჩნდა, რომ Gemini Pro-მ მიაღწია "სიზუსტეს, რომელიც ახლოსაა, მაგრამ ოდნავ ჩამოუვარდება შესაბამის GPT 3.5 Turbo" მოდელს.
Gemini Nano შექმნილია სმარტფონებსა და სხვა მობილურ მოწყობილობებზე ლოკალურად მუშაობისთვის. თეორიულად, ეს საშუალებას მისცემს თქვენს სმარტფონს უპასუხოს მარტივ მოთხოვნებს და გააკეთოს ისეთი რამ, როგორიცაა ტექსტის შეჯამება ბევრად უფრო სწრაფად, ვიდრე ამას გარე სერვერთან დაკავშირების შემთხვევაში გააკეთებს. ამ დროისთვის Gemini Nano ხელმისაწვდომია მხოლოდ Google Pixel 8 Pro-ზე და აქვს ისეთი ფუნქცია, როგორიცაა ჭკვიანი პასუხები Gboard-ში.

Gemini-ს თითოეული მოდელი განსხვავდება იმით, თუ რამდენი პარამეტრი აქვს მას და რამდენად კარგად პასუხობს რთულ შეკითხვებს, ასევე, რა დამუშავების სიმძლავრე სჭირდება მას გასაშვებად. სამწუხაროდ, მაჩვენებლები, როგორიცაა პარამეტრების რაოდენობა, რომელიც აქვს რომელიმე მოცემულ მოდელს, ხშირად საიდუმლოდ ინახება - თუ არ არსებობს კომპანიის მხრიდან ამით თავის მოწონების მიზეზი.

Google აცხადებს, რომ ყველაზე პატარა მოდელს, Nano-ს აქვს ორი ვერსია: ერთი 1.8 მილიარდი პარამეტრით და მეორე 3.25 მილიარდი პარამეტრით. მიუხედავად იმისა, რომ Google არ ავლენს რამდენი პარამეტრი აქვთ უფრო დიდ მოდელებს, ჩვენ ვიცით, რომ GPT-3-ს აქვს 175 მილიარდი პარამეტრი, ხოლო Meta's Llama 2-ს აქვს მოდელები 65 მილიარდამდე პარამეტრით. სავარაუდოდ, Gemini-ის დანარჩენ ორ დიდ მოდელს პარამეტრის რაოდენობა აქვს ასეთივე დიპაზონში.

Google Gemini შექმნილია დასაშენებლად

როგორც ჩანს, ახლა თითქმის ყველა აპლიკაცია ამატებს AI-ზე დაფუძნებულ ფუნქციებს და ბევრი მათგანი ამისათვის იყენებს OpenAI-ს GPT, DALL·E და სხვა აპლიკაციებს. მაგალითად, ხელოვნური ინტელექტის წერის გენერატორების უმეტესობა იყენებს GPT-ს. Google-ს სურს იყოს ამ სიახლის ნაწილი, ამიტომ Gemini თავიდანვე შექმნილია იმისთვის, რომ დეველოპერებმა შეძლონ ხელოვნური ინტელექტის მქონე აპლიკაციების შექმნა და განახორციელონ AI-ის ინტეგრირება მათ პროდუქტებში. მისი დიდი უპირატესობა არის ის, რომ შესაძლებელია მათი ინტეგრირება ღრუბლოვანი გამოთვლის (Cloud computing), ჰოსტინგის და სხვა ვებ სერვისების საშუალებით. იმ დროს, როცა Google იყენებს Gemini-ს საკუთარი პროდუქტების გასაძლიერებლად, როგორიცაა ჩეთბოტი (ადრე ცნობილი, როგორც Bard), დეველოპერებს Gemini Pro-ს მეშვეობით შეუძლიათ წვდომა Gemini აპლიკაციის მეშვეობით, Google AI Studio-ში ან Google Cloud Vertex AI-ში. ეს მათ საშუალებას აძლევს, შემდგომში მოარგონ Gemini საკუთარ მონაცემებს, რათა შექმნან ისეთი ძლიერი ინსტრუმენტები, როგორსაც უკვე აკეთებს GPT.

როგორ მუშაობს Google Gemini?

Google-ის თანახმად, Gemini-მდე, მულტიმოდალური AI მოდელების უმეტესობა შემუშავებული იყო ცალკე შექმნილი რამდენიმე AI მოდელის კომბინაციით. მაგალითად, ტექსტისა და გამოსახულების დამუშავება და განხოლვა ხდება ცალ-ცალკე, რის შემდეგაც ისინი ერთიანდება ერთ მოდელად, რაც ემსგავსება ნამდვილ მულტიმოდალური მოდელის მახასიათებლებს.

Gemini-თან ერთად Google-მა დაიწყო საკუთარი მულტიმოდალური მოდელის შექმნა. იგი წინასწარ იყო აღჭურვილი მონაცემთა ბაზით, ტრილიონობით ტექსტური სიმბოლოებით, ისევე როგორც სურათებით (თანმხლები ტექსტის აღწერილობებით), ვიდეოებითა და აუდიო მასალით. შემდეგ ის უფრო დაიხვეწა ისეთი ტექნიკის საშუალებით, როგორიცაა განმამტკიცებელი სწავლა ადამიანის უკუკავშირის საშუალებით (RLHF), რათა მოდელს შეძლებოდა უკეთესი და უსაფრთხო პასუხების გაცემა.

შეისწავლე პროგრამირება 0-დან, მიიღე რეალური გამოცდილება და აქციე შენს მთავარ უპირატესობად!

→დარეგისტრირდი მარტივად

Google ამტკიცებს, რომ Gemini-ს შეუძლია „დამოუკიდებლად გაიგოს და იმსჯელოს ყველა სახის მოთხოვნილი ინფორმაციის შესახებ“. მაგალითად, მას შეუძლია გაიგოს დიაგრამები და მათ თანმხლები წარწერები, წაიკითხოს ტექსტური ნიშნები და გააერთიანოს ინფორმაცია მრავალი მოდალიდან (აღსანიშნავია რომ,, GPT-4V და GPT-4-ის ჯერ არგშვებული ვერსია, ასეთივე ფუნქციებით არის აღჭურვილი, მაგრამ მხოლოდ ტექსტისა და სურათების მხრივ).

გარდა იმისა, რომ სხვადასხვა სახის მონაცემების აღქმის უფრო მეტი შესაძლებლობა აქვს, ტექსტის ფაქტობრივი გენერაცია მუშაობს თითქმის ისევე, როგორც ეს მუშაობს ნებისმიერი სხვა AI მოდელისთვის. მისი ნეიროქსელი ცდილობს შექმნას დამაჯერებელი ტექსტი ნებისმიერ მოცემულ მოთხოვნაზე, წარსულში ნანახი და დასწავლული მონაცემების საფუძველზე. მაგალითად, Gemini Pro-ს ვერსია, რომელიც კარგად არის მორგებული Gemini ჩეთბოტისთვის, შექმნილია ჩატბოტის მსგავსად ურთიერთქმედებისთვის, ხოლო Gemini Nano-ს ვერსია, რომელიც ჩართულია Pixel 8 Pro-ს ჩამწერის აპლიკაციაში, შექმნილია ტექსტური შეჯამებების შესაქმნელად ავტომატურად გენერირებული ტრანსკრიპტებიდან.

Gemini Ultra უსწრებს GPT-4-ს და GPT-4V-ს ყველა კრიტერიუმში, მისი მულტიმოდალურობაა ის, რაც ყველაზე საინტერესოს ხდის, თუმცა რამდენად ეფექტური იქნება ეს რეალურ სამყაროში, ჯერ კიდევ გასარკვევია. Gemini-ს მოდელები ჯერ კიდევ არ არის ფართოდ ხელმისაწვდომი.

გავრცელებული ინფორმაციით, Google და Apple მოლაპარაკებებს აწარმოებენ საძიებო გიგანტის Gemini AI მოდელით iPhone-ის აღჭურვის შესახებ. Google-ისთვის აღნიშნული სიახლე უზარმაზარი გამარჯვებაა, რადგან ეს ნიშნავს, რომ მისი ხელოვნური ინტელექტი ჩაშენებული იქნება მსოფლიოში ორ ყველაზე ფართოდ გამოყენებულ გამოთვლით პლატფორმაზე: iOS და Android.

პარარელურად Apple აგრძელებს AI-ზე დაფუძნებული საკუთარი iPhone ინსტრუმენტების შემუშავებას, იგი ამასთანავე განიხილავს Google-ის AI მოდელის გამოყენებას რამდენიმე მომავალი ფუნქციის გასაძლიერებლად. Bloomberg-ის თანახმად, Google-ის ხელოვნური ინტელექტის მოდელები, სავარაუდოდ, გამოყენებული იქნება ღრუბელზე (Cloud) დაფუძნებული iPhone ფუნქციების გასაძლიერებლად, რომელიც შესაძლოა მოიცავდეს მოთხოვნებითა და ფოტო რედაქტირების ხელსაწყოების მეშვეობით შინაარსის გენერირებას, მაგრამ გავრცელებული ცნობები ასევე მიუთითებს იმაზე, რომ Apple ესაუბრება სხვა კომპანიებსაც შესაძლო პარტნიორობის შესახებ, როგორიცაა OpenAI.

მიუხედავად იმისა, რომ Apple და Google კონკურენტები არიან, ეს არ იქნება პირველი შემთხვევა, როდესაც ისინი ითანამშრომლებენ ამ გზით. Google უკვე უხდის Apple-ს მილიარდობით დოლარს, იმისათვის რომ მისი საძიებო სისტემა iPhone-ზე იყოს გამოყენებული, როგორც ნაგულისხმევი (default) საძიებო სისტემა. ასე რომ, AI-ის მომავალი ფუნქციების ძირითადი ტექნოლოგიის პარტნიორობა, როგორც ჩანს, ამ ურთიერთობის გაგრძელება იქნება.

ასევე ხშირია Apple-ის პარტნიორობა სხვა ტექნიკურ კომპანიებთან, გარკვეულ კომპონენტებთან და ტექნოლოგიებთან დაკავშირებით, სანამ ის საკუთარი ალტერნატივის შემუშავების პროცესშია. მაგალითად, Qualcomm აწვდის Apple-ს 5G მოდემებს iPhone-ისთვის, მაშინ როცა Apple ადრე წარსულში Mac-ის ხაზისთვის იყენებდა Intel-ის ჩიპებს, სანამ საკუთარ M-სერიის პროცესორებს შექმნიდა.

შეუძლებელია ვიცოდეთ, როგორ წარიმართება Google-თან ხელოვნური ინტელექტის პარტნიორობა, თუ ეს საერთოდ მოხდება, მაგრამ უკვე არსებობს ერთი მაგალითი: Galaxy S24 სერია. Samsung-ის ახალი სმარტფონების ტრიო მოიცავს ხელოვნური ინტელექტის მქონე ფუნქციების კომპლექტს, როგორიცაა ზარების რეალურ დროში თარგმნა, შენიშვნების შეჯამება, ფოტოებზე ობიექტების მანიპულირება, მათი წაშლის შესაძლებლობა და ეკრანზე ობიექტების Google ძიება მათი შემოხაზვი მეშვეობით.

Samsung ამ ფუნქციებით იყენებს ჰიბრიდულ მიდგომას, რომელსაც ის უწოდებს Galaxy AI-ს. ეს ნიშნავს, რომ ზოგიერთი ინსტრუმენტი იყენებს Samsung-ის AI მოდელებს, ზოგი კი Google-ის. სამსუნგმა მომავალში მიგვანიშნებს Galaxy AI-ის ზოგიერთი ფუნქციაზე ტარიფის დაწესების შესაძლებლობაზე, ტაქტიკა, რომელიც Apple-თვის უცხო არ არის მისი სააბონენტო სერვისების ფართო სპექტრის გათვალისწინებით.

მნიშვნელოვანია გვახსოვდეს, რომ Samsung-სა და Apple-ს თავიანთ პროდუქტებთან დაკავშირებული სტრატეგიები განსხვავებული აქვთ. Samsung ურჩევნია იყოს სწრაფი და ინოვატორი, ხოლო Apple ხშირად ელოდება სანამ ტექნოლოგიები მომწიფდება ან სანამ არ შეიმუშავებს საკუთარ უნიკალურ მიდგომას.

Bloomberg-ის ანგარიშზე დაყრდნობით ჩანს, რომ Gemini-ზე დაფუძნებული ნებისმიერი ფუნქცია მეტწილად დროებითი გადაწყვეტილებაა AI-ზე დაფუძნებული უფრო ფართო ცვლილებებისთვის, რომლებიც iPhone-ზე იგეგმება. გავრცელებული ინფორმაციით, Apple ავითარებს ხელოვნური ინტელექტის ფუნქციებს, რომლებიც დამუშავდება მოწყობილობაზე და iPhone-ის ოპერაციული სისტემის ორგანული ნაწილი გახდება.

Gemini-თან პარტნიორობა შეიძლება იყოს მცდელობა, რათა დარწმუნდეთ, რომ iPhone-ის პროგრამული უზრუნველყოფა მის Android კონკურენტებთან თანაბარ დონეზე დარჩება, სანამ Apple შეიმუშავებს უფრო ფართო ცვლილებებს iOS-ისთვის.

Apple-სა და Google-ის პარტნიორობაში iPhone-ებზე ყველაზე მეტად საინტერესოა Gemini-ის ინტეგრირება. ეს ქმნის მოლოდინს, რომ გენერაციული AI არის თანამედროვე სმარტფონის განუყოფელი ნაწილი, რაც ამ ტექნოლოგიას რეალობად აქცევს მასიურად მობილურ მოწყობილობებზე.

ახლა საუკეთესო დროა ახალი უნარების შესაძენად და შენი სტარტაპ კომპანიის დასაწყებად. შემოგვიერთდი, დაიწყე ყველაზე მოთხოვნადი პროფესიების შესწავლა! იფიქრე ფართოდ. იმ პლატფორმებსა და სერვისებზე, რომლებიც ყველაზე მეტ სიამოვნებას განიჭებს. რა მახასიათებლების გამო იყენებ მათ? გაქვს თუ არა საჭირო უნარები იმისათვის, რომ მსგავსი რამ შეიმუშავო?

შემოგვიერთდით სტეპერების დიდ ოჯახში!

IT Academy Step ლიდერი IT სფეროში, ახლა უკვე 100+ ფილიალით!

+995 577 538 549 ქ.თელავი, ნადიკვრის#23

+995 (32) 215-55-51 ქ.თბილისი, ყაზბეგის34/34ბ

გამოიწერეთ ჩვენი გვერდი სოციალურ ქსელებში

Instagram.com/itstep.ge/

Facebook.com/itstep.ge

IT აკადემია STEP

ზრდასრულთათვის

რას ნიშნავს უწყვეტი განათლება (Lifelong Learning) XXI საუკუნეში?

ტექნოლოგიების სწრაფი განვითარების ეპოქაში ერთი პროფესიის ან ერთხელ მიღებული ცოდნის იმედად ყოფნა აღარ არის საკმარისი. გაიგე, რას ნიშნავს უწყვეტი განათლება (Lifelong Learning), რატომ გახდა ის XXI საუკუნის ერთ-ერთი მთავარი უნარი და როგორ გვეხმარება მუდმივი სწავლა კარიერულ განვითარებაში.

ზრდასრულთათვის

ხელოვნური ინტელექტი, როგორც შენი თანამშრომელი

ხელოვნური ინტელექტი უკვე ჩვენი ყოველდღიური დამხმარეა, ის ამარტივებს რუტინულ პროცესებს, გვიზოგავს დროს და გვაძლევს შესაძლებლობას, მეტი ყურადღება დავუთმოთ კრეატიულობასა და განვითარებას. გაიგე, როგორ შეიძლება AI გახდეს შენი ციფრული თანამშრომელი და დაგეხმაროს თანამედროვე სამყაროში წარმატებისთვის.

ზრდასრულთათვის

როგორ დავისვენოთ სწორად?

დასვენება პროდუქტიულობის მნიშვნელოვანი ნაწილია. გაიგე, როგორ აღადგინო ენერგია სწორად, შეინარჩუნო ბალანსი სწავლას, სამსახურსა და პირად ცხოვრებას შორის და რატომ არის პაუზა განვითარების აუცილებელი ნაწილი.

ზრდასრულთათვის

AI წიგნიერება ახალი უნარი, რომელიც ყველას სჭირდება

ხელოვნური ინტელექტი უკვე ცვლის ჩვენს ყოველდღიურობას და სამუშაო პროცესებს. გაიგე, რატომ გახდა AI წიგნიერება თანამედროვე სამყაროს ერთ-ერთი მთავარი უნარი და როგორ დაგეხმარება მისი ცოდნა პროფესიულ განვითარებაში.

რას ნიშნავს უწყვეტი განათლება (Lifelong Learning) XXI საუკუნეში?

ხელოვნური ინტელექტი, როგორც შენი თანამშრომელი

როგორ დავისვენოთ სწორად?

AI წიგნიერება ახალი უნარი, რომელიც ყველას სჭირდება

პერსონალური კონსულტაციისთვის დაგვიტოვე საკონტაქტო ნომერი.

შეიყვანეთ კოდი შეტყობინებიდან

პერსონალური კონსულტაციისთვის
დაგვიტოვე საკონტაქტო ნომერი.