"বিশ্বের সবচেয়ে বুদ্ধিমান" গ্রোক3 পরীক্ষা করা হচ্ছে

আইপিইউ ওয়াটন গ্রুপ (1)

ভূমিকা

তুমি কি মনে করো Grok3 হবে প্রাক-প্রশিক্ষিত মডেলগুলির "শেষবিন্দু"?

এলন মাস্ক এবং xAI টিম আনুষ্ঠানিকভাবে একটি লাইভস্ট্রিমের সময় Grok এর সর্বশেষ সংস্করণ, Grok3, চালু করেছে। এই ইভেন্টের আগে, উল্লেখযোগ্য পরিমাণে সম্পর্কিত তথ্য, মাস্কের 24/7 প্রচারমূলক প্রচারণার সাথে মিলিত হয়ে, Grok3 এর জন্য বিশ্বব্যাপী প্রত্যাশা অভূতপূর্ব স্তরে উন্নীত করেছে। মাত্র এক সপ্তাহ আগে, মাস্ক DeepSeek R1-এ মন্তব্য করার সময় একটি লাইভস্ট্রিমের সময় আত্মবিশ্বাসের সাথে বলেছিলেন, "xAI একটি উন্নত AI মডেল চালু করতে চলেছে।" লাইভ উপস্থাপিত তথ্য থেকে, Grok3 গণিত, বিজ্ঞান এবং প্রোগ্রামিংয়ের মানদণ্ডে সমস্ত বর্তমান মূলধারার মডেলকে ছাড়িয়ে গেছে বলে জানা গেছে, এমনকি মাস্ক দাবি করেছেন যে Grok3 SpaceX-এর মঙ্গল অভিযানের সাথে সম্পর্কিত গণনামূলক কাজের জন্য ব্যবহার করা হবে, "তিন বছরের মধ্যে নোবেল পুরস্কার স্তরে সাফল্য" ভবিষ্যদ্বাণী করেছেন। তবে, এগুলি বর্তমানে কেবল মাস্কের দাবি। লঞ্চের পরে, আমি Grok3 এর সর্বশেষ বিটা সংস্করণ পরীক্ষা করেছি এবং বৃহৎ মডেলগুলির জন্য ক্লাসিক ট্রিক প্রশ্নটি উত্থাপন করেছি: "কোনটি বড়, 9.11 নাকি 9.9?" দুঃখের বিষয়, কোনও যোগ্যতা বা চিহ্ন ছাড়াই, তথাকথিত সবচেয়ে বুদ্ধিমান Grok3 এখনও এই প্রশ্নের সঠিক উত্তর দিতে পারেনি। Grok3 প্রশ্নের অর্থ সঠিকভাবে সনাক্ত করতে ব্যর্থ হয়েছে।

 

এই পরীক্ষাটি দ্রুত অনেক বন্ধুর মনোযোগ আকর্ষণ করে, এবং কাকতালীয়ভাবে, বিদেশে একই রকম বিভিন্ন পরীক্ষায় দেখা গেছে যে গ্রোক৩ মৌলিক পদার্থবিদ্যা/গণিতের প্রশ্নগুলির সাথে লড়াই করছে, যেমন "পিসার হেলানো টাওয়ার থেকে কোন বলটি প্রথমে পড়ে?" সুতরাং, এটিকে হাস্যকরভাবে "একজন প্রতিভাবান ব্যক্তি যা সহজ প্রশ্নের উত্তর দিতে অনিচ্ছুক" হিসাবে চিহ্নিত করা হয়েছে।

৬৪০

Grok3 ভালো, কিন্তু এটি R1 বা o1-Pro এর চেয়ে ভালো নয়।

Grok3 বাস্তবে অনেক সাধারণ জ্ঞান পরীক্ষায় "ব্যর্থতা" ভোগ করেছে। xAI লঞ্চ ইভেন্টের সময়, মাস্ক পাথ অফ এক্সাইল 2 গেমের চরিত্রের ক্লাস এবং প্রভাব বিশ্লেষণ করার জন্য Grok3 ব্যবহার করে দেখিয়েছিলেন, যা তিনি প্রায়শই খেলার দাবি করেছিলেন, কিন্তু Grok3 দ্বারা প্রদত্ত বেশিরভাগ উত্তরই ভুল ছিল। লাইভস্ট্রিমের সময় মাস্ক এই স্পষ্ট সমস্যাটি লক্ষ্য করেননি।

 

এই ভুলটি বিদেশী নেটিজেনদের জন্য গেমিংয়ে "একজন বিকল্প খুঁজে বের করার" জন্য মাস্ককে উপহাস করার আরও প্রমাণই জোগায়নি, বরং ব্যবহারিক প্রয়োগে গ্রোক৩-এর নির্ভরযোগ্যতা নিয়েও উল্লেখযোগ্য উদ্বেগ তৈরি করেছে। এই ধরনের "প্রতিভা"-এর জন্য, তার প্রকৃত ক্ষমতা নির্বিশেষে, মঙ্গল অনুসন্ধানের মতো অত্যন্ত জটিল প্রয়োগের পরিস্থিতিতে এর নির্ভরযোগ্যতা এখনও সন্দেহের মধ্যে রয়ে গেছে।

 

বর্তমানে, অনেক পরীক্ষক যারা সপ্তাহ আগে Grok3-এর অ্যাক্সেস পেয়েছিলেন এবং যারা গতকাল কয়েক ঘন্টার জন্য মডেলের ক্ষমতা পরীক্ষা করেছিলেন, তারা সকলেই একটি সাধারণ সিদ্ধান্তে পৌঁছেছেন: "Grok3 ভালো, কিন্তু এটি R1 বা o1-Pro-এর চেয়ে ভালো নয়।"

৬৪০ (১)

"এনভিডিয়া ব্যাহত করা" সম্পর্কে একটি সমালোচনামূলক দৃষ্টিভঙ্গি

মুক্তির সময় আনুষ্ঠানিকভাবে উপস্থাপিত PPT-তে, Grok3 কে চ্যাটবট এরিনায় "অনেক এগিয়ে" দেখানো হয়েছিল, কিন্তু এটি চতুরতার সাথে গ্রাফিক কৌশল ব্যবহার করেছে: লিডারবোর্ডের উল্লম্ব অক্ষটি শুধুমাত্র 1400-1300 স্কোরের পরিসরে ফলাফল তালিকাভুক্ত করেছে, যার ফলে পরীক্ষার ফলাফলের মূল 1% পার্থক্য এই উপস্থাপনায় ব্যতিক্রমীভাবে তাৎপর্যপূর্ণ বলে মনে হচ্ছে।

৬৪০

প্রকৃত মডেল স্কোরিং ফলাফলে, Grok3 DeepSeek R1 এবং GPT-4.0 এর থেকে মাত্র 1-2% এগিয়ে, যা অনেক ব্যবহারকারীর ব্যবহারিক পরীক্ষায় "কোনও লক্ষণীয় পার্থক্য" খুঁজে না পাওয়ার অভিজ্ঞতার সাথে মিলে যায়। Grok3 তার উত্তরসূরিদের থেকে মাত্র 1%-2% এগিয়ে।

৬৪০

যদিও Grok3 বর্তমানে সর্বজনীনভাবে পরীক্ষিত সকল মডেলের চেয়ে বেশি স্কোর করেছে, অনেকেই এটিকে গুরুত্ব সহকারে নেয় না: সর্বোপরি, Grok2 যুগে xAI এর আগে "স্কোর ম্যানিপুলেশন" এর জন্য সমালোচিত হয়েছিল। লিডারবোর্ড উত্তরের দৈর্ঘ্যের ধরণকে শাস্তি দেওয়ার সাথে সাথে, স্কোরগুলি ব্যাপকভাবে হ্রাস পেয়েছে, যার ফলে শিল্পের অভ্যন্তরীণ ব্যক্তিরা প্রায়শই "উচ্চ স্কোরিং কিন্তু কম ক্ষমতা" এর ঘটনাটির সমালোচনা করতে বাধ্য হন।

 

লিডারবোর্ড "ম্যানিপুলেশন" বা চিত্রের নকশা কৌশলের মাধ্যমে, এগুলি মডেল ক্ষমতায় "প্যাককে নেতৃত্ব দেওয়ার" ধারণার প্রতি xAI এবং মাস্কের আবেশ প্রকাশ করে। এই মার্জিনের জন্য মাস্ককে একটি চড়া মূল্য দিতে হয়েছে: লঞ্চের সময়, তিনি 200,000 H100 GPU ব্যবহার করার (লাইভস্ট্রিমের সময় "100,000 এরও বেশি" দাবি করে) এবং মোট 200 মিলিয়ন ঘন্টা প্রশিক্ষণের সময় অর্জন করার গর্ব করেছিলেন। এর ফলে কেউ কেউ বিশ্বাস করেন যে এটি GPU শিল্পের জন্য আরেকটি উল্লেখযোগ্য আশীর্বাদ এবং এই সেক্টরে DeepSeek এর প্রভাবকে "বোকামি" বলে বিবেচনা করেছেন। উল্লেখযোগ্যভাবে, কেউ কেউ বিশ্বাস করেন যে মডেল প্রশিক্ষণের ভবিষ্যত হবে নিছক গণনামূলক শক্তি।

 

তবে, কিছু নেটিজেন দুই মাসের মধ্যে ২০০০ H800 GPU ব্যবহারের তুলনা করে DeepSeek V3 তৈরি করেছেন, যা গণনা করে যে Grok3 এর প্রকৃত প্রশিক্ষণ শক্তি খরচ V3 এর চেয়ে ২৬৩ গুণ বেশি। DeepSeek V3, যা ১৪০২ পয়েন্ট পেয়েছে, এবং Grok3 এর মধ্যে ব্যবধান ১০০ পয়েন্টেরও কম। এই তথ্য প্রকাশের পর, অনেকেই দ্রুত বুঝতে পেরেছিলেন যে "বিশ্বের সবচেয়ে শক্তিশালী" হিসাবে Grok3 এর শিরোনামের পিছনে একটি স্পষ্ট প্রান্তিক ইউটিলিটি প্রভাব রয়েছে - শক্তিশালী কর্মক্ষমতা তৈরির বৃহত্তর মডেলগুলির যুক্তি হ্রাস পাচ্ছে।

৬৪০ (২)

"উচ্চ স্কোরিং কিন্তু কম ক্ষমতা" থাকা সত্ত্বেও, Grok2-এর কাছে X (Twitter) প্ল্যাটফর্ম থেকে প্রচুর পরিমাণে উচ্চ-মানের প্রথম-পক্ষের ডেটা ছিল যা ব্যবহার সমর্থন করে। যাইহোক, Grok3-এর প্রশিক্ষণে, xAI স্বাভাবিকভাবেই OpenAI বর্তমানে যে "সিলিং"-এর মুখোমুখি হচ্ছে তার মুখোমুখি হয়েছে - প্রিমিয়াম প্রশিক্ষণ ডেটার অভাব দ্রুত মডেলের ক্ষমতার প্রান্তিক উপযোগিতা প্রকাশ করে।

 

Grok3 এবং Musk-এর ডেভেলপাররা সম্ভবত প্রথম এই তথ্যগুলি গভীরভাবে বুঝতে এবং সনাক্ত করতে সক্ষম, যে কারণে Musk সোশ্যাল মিডিয়ায় ক্রমাগত উল্লেখ করেছেন যে ব্যবহারকারীরা এখন যে সংস্করণটি অনুভব করছেন তা "এখনও কেবল বিটা" এবং "পূর্ণ সংস্করণটি আগামী মাসগুলিতে প্রকাশিত হবে।" Musk Grok3-এর পণ্য ব্যবস্থাপকের ভূমিকা গ্রহণ করেছেন, মন্তব্য বিভাগে ব্যবহারকারীদের বিভিন্ন সমস্যার উপর প্রতিক্রিয়া জানানোর পরামর্শ দিয়েছেন। তিনি সম্ভবত পৃথিবীতে সবচেয়ে বেশি অনুসরণ করা পণ্য ব্যবস্থাপক হতে পারেন।

 

তবুও, একদিনের মধ্যেই, Grok3 এর পারফরম্যান্স নিঃসন্দেহে তাদের জন্য উদ্বেগের কারণ হয়ে দাঁড়িয়েছে যারা শক্তিশালী বৃহৎ মডেলগুলিকে প্রশিক্ষণের জন্য "বিশাল কম্পিউটেশনাল পেশী" এর উপর নির্ভর করতে চান: সর্বজনীনভাবে উপলব্ধ Microsoft তথ্যের উপর ভিত্তি করে, OpenAI এর GPT-4 এর প্যারামিটার আকার 1.8 ট্রিলিয়ন প্যারামিটার, GPT-3 এর দশগুণ বেশি। গুজব রয়েছে যে GPT-4.5 এর প্যারামিটার আকার আরও বড় হতে পারে।

 

মডেল প্যারামিটারের আকার বৃদ্ধির সাথে সাথে প্রশিক্ষণের খরচও আকাশছোঁয়া। Grok3 এর উপস্থিতির সাথে সাথে, GPT-4.5 এর মতো প্রতিযোগীরা এবং অন্যান্যরা যারা প্যারামিটার আকারের মাধ্যমে আরও ভাল মডেল পারফরম্যান্স অর্জনের জন্য "অর্থ পোড়ানো" চালিয়ে যেতে চান তাদের অবশ্যই এখন স্পষ্টভাবে দৃশ্যমান সীমাটি বিবেচনা করতে হবে এবং কীভাবে এটি কাটিয়ে উঠতে হবে তা বিবেচনা করতে হবে। এই মুহুর্তে, OpenAI-এর প্রাক্তন প্রধান বিজ্ঞানী ইলিয়া সুটস্কেভার গত ডিসেম্বরে বলেছিলেন, "আমরা যে প্রাক-প্রশিক্ষণের সাথে পরিচিত তা শেষ হয়ে যাবে," যা আলোচনায় পুনরুত্থিত হয়েছে, যা বৃহৎ মডেলদের প্রশিক্ষণের জন্য প্রকৃত পথ খুঁজে বের করার প্রচেষ্টাকে উৎসাহিত করেছে।

৬৪০ (৩)

ইলিয়ার দৃষ্টিভঙ্গি শিল্পে আশঙ্কার বাণী শোনাচ্ছে। তিনি সঠিকভাবেই বুঝতে পেরেছিলেন যে নতুন তথ্যের অ্যাক্সেসযোগ্যতা হ্রাস পাবে, যার ফলে এমন একটি পরিস্থিতির সৃষ্টি হবে যেখানে তথ্য অর্জনের মাধ্যমে কর্মক্ষমতা বৃদ্ধি করা সম্ভব হবে না, এটিকে জীবাশ্ম জ্বালানির অবসানের সাথে তুলনা করেছেন। তিনি ইঙ্গিত দিয়েছিলেন যে "তেলের মতো, ইন্টারনেটে মানুষের তৈরি সামগ্রী একটি সীমিত সম্পদ।" সুটস্কেভারের ভবিষ্যদ্বাণী অনুসারে, পরবর্তী প্রজন্মের মডেল, প্রাক-প্রশিক্ষণের পরে, "মানব মস্তিষ্কের মতো" "সত্যিকারের স্বায়ত্তশাসন" এবং যুক্তি ক্ষমতার অধিকারী হবে।

 

আজকের পূর্ব-প্রশিক্ষিত মডেলগুলি মূলত কন্টেন্ট ম্যাচিংয়ের উপর নির্ভর করে (পূর্বে শেখা মডেল কন্টেন্টের উপর ভিত্তি করে), ভবিষ্যতের এআই সিস্টেমগুলি মানব মস্তিষ্কের "চিন্তাভাবনা" এর মতো পদ্ধতিতে সমস্যা সমাধানের জন্য পদ্ধতিগুলি শিখতে এবং প্রতিষ্ঠা করতে সক্ষম হবে। একজন মানুষ কেবলমাত্র মৌলিক পেশাদার সাহিত্যের মাধ্যমে একটি বিষয়ে মৌলিক দক্ষতা অর্জন করতে পারে, যেখানে একটি এআই বৃহৎ মডেলের কেবলমাত্র সবচেয়ে মৌলিক এন্ট্রি-লেভেল কার্যকারিতা অর্জনের জন্য লক্ষ লক্ষ ডেটা পয়েন্টের প্রয়োজন হয়। এমনকি যখন শব্দের ধরণ সামান্য পরিবর্তন করা হয়, তখনও এই মৌলিক প্রশ্নগুলি সঠিকভাবে বোঝা নাও যেতে পারে, যা দেখায় যে মডেলটি বুদ্ধিমত্তায় সত্যিকার অর্থে উন্নত হয়নি: নিবন্ধের শুরুতে উল্লিখিত মৌলিক কিন্তু অমীমাংসিত প্রশ্নগুলি এই ঘটনার একটি স্পষ্ট উদাহরণ উপস্থাপন করে।

微信图片_20240614024031.jpg1

উপসংহার

তবে, নিষ্ঠুর বলপ্রয়োগের বাইরেও, যদি Grok3 সত্যিই শিল্পের কাছে প্রকাশ করতে সফল হয় যে "প্রাক-প্রশিক্ষিত মডেলগুলি তাদের শেষের দিকে এগিয়ে আসছে," তাহলে এটি এই ক্ষেত্রের জন্য উল্লেখযোগ্য প্রভাব ফেলবে।

সম্ভবত Grok3 কে ঘিরে উন্মাদনা ধীরে ধীরে কমে যাওয়ার পর, আমরা Fei-Fei Li-এর উদাহরণের মতো আরও কিছু ঘটনা প্রত্যক্ষ করব, "মাত্র $50 এর বিনিময়ে একটি নির্দিষ্ট ডেটাসেটে উচ্চ-কার্যক্ষমতাসম্পন্ন মডেলগুলি টিউন করা", যা অবশেষে AGI-এর আসল পথ আবিষ্কার করবে।

ELV কেবল সমাধান খুঁজুন

নিয়ন্ত্রণ তারগুলি

বিএমএস, বাস, ইন্ডাস্ট্রিয়াল, ইন্সট্রুমেন্টেশন কেবলের জন্য।

স্ট্রাকচার্ড ক্যাবলিং সিস্টেম

নেটওয়ার্ক ও ডেটা, ফাইবার-অপটিক কেবল, প্যাচ কর্ড, মডিউল, ফেসপ্লেট

২০২৪ প্রদর্শনী ও ইভেন্ট পর্যালোচনা

১৬-১৮ এপ্রিল, ২০২৪ দুবাইতে মধ্যপ্রাচ্য-শক্তি

১৬-১৮ এপ্রিল, ২০২৪ মস্কোতে সেকিউরিকা

৯ মে, ২০২৪ সাংহাইতে নতুন পণ্য ও প্রযুক্তির উদ্বোধনী অনুষ্ঠান

২২-২৫ অক্টোবর, ২০২৪ বেইজিংয়ে সিকিউরিটি চীন

১৯-২০ নভেম্বর, ২০২৪ সংযুক্ত বিশ্ব সৌদি আরব


পোস্টের সময়: ফেব্রুয়ারী-১৯-২০২৫