隨著AI議題方興未艾,各種不同大型語言模型(LLM)是持續登場,
既有模型亦不斷推出各種版本,令人眼花撩亂…..那麼實際使用時,到底要挑哪個才好呢?
比起人云亦云或跑去詢問AI,看看大量使用者依經驗而給出的評分,或許也是個可供參考的好方法─
從iThome看到的報導,去年方才成立的新創公司Yupp日前正式推出了對AI的人類評估系統,
註冊使用者不僅能於該服務中使用、比較及評估超過500個大型語言模型,
還可藉由提供使用回饋賺取積分,並兌換為實質獎勵!
Yupp.ai平台網址
Yupp.ai官方部落格
(以下內容引述自iThome)
…..當使用者在Yupp上問問題時,系統會提供兩個不同模型的答案供使用者比較,
並列出優、劣原因供使用者勾選,亦允許使用者直接輸入意見,
回答後系統就會出現「積分刮刮樂」,讓使用者刮出積分,這些積分可用來持續使用模型,
或是用來兌換加密貨幣及法幣,目前新註冊的使用者可直接獲得5,000積分…..
…..系統所提供的模型可能是隨機的、符合提示需求的、匿名的,但使用者也可指定特定模型來回答,
一個問題最多可測試6個模型,但如果一直問問題卻不提供比較結果,就可能會被系統踢出去…..
…..Yupp執行長Gupta說明,該平臺透過Yupp積分運作,每個人在註冊時都會收到積分,
以用來使用各種AI模型,也會因為回饋而獲得積分,回饋的品質愈高,
積分就愈多;使用者的提示永遠是私密的,除非使用者選擇對外分享…..
…..
能一次使用超過500個模型又有獎勵拿看起來還滿不錯,於是個人就跑去用用看了 ww
Yupp這服務目前只接受Google帳戶註冊,且僅有註冊用戶方才能夠使用,
個人第一個測試的問題是”Please briefly summarize the story of the animation “Strike Witches”.“,
隨機輸出結果的兩個模型分別為GPT-4.1 mini和Grok 3:
GPT-4.1 mini的回答:Strike Witches is an anime set in an alternate Earth during the 1940s, where humanity is under attack by mysterious alien beings called the Neuroi. To fight back, young girls with magical abilities called “Witches” use advanced mechanical leg units to fly and fight. The story follows a group of these Witches, primarily focusing on Yoshika Miyafuji and her comrades in the 501st Joint Fighter Wing, as they battle the Neuroi to protect their world and uncover the mysteries behind the enemy. The series blends action, military themes, and lighthearted character interactions.
Grok 3的回答:“Strike Witches” is a Japanese anime set in an alternate World War II where a mysterious alien force, the Neuroi, invades Earth. Instead of conventional weaponry, humanity relies on young girls called Witches who wield magical powers and Striker Units—mechanical devices attached to their legs that allow flight and combat. The story follows Yoshika Miyafuji, a rookie Witch who joins the 501st Joint Fighter Wing, an elite squadron of Witches from different nations. Together, they battle the Neuroi to protect humanity, balancing personal struggles, friendships, and the chaos of war.
兩個模型的回答都還滿正確,皆提到了強襲魔女的故事背景與主角姓名,
不過Grok 3有特別使用Striker Units這專有名詞,對於世界觀的描繪更仔細,
所以我對Grok 3的回答點選”I prefer this”並填寫理由:
送出回覆後,就立即獲得了新會員的5000點Yupp credits!
新會員的第一個問題好像都是隨機模型回答,但獲得5000點獎勵後,
就能夠在輸入方框下的”Choose models”選擇要使用的模型了,
以下為點選後出現的可供選擇模型列表,連必須付費訂閱的Pro與Max模型,
像是Gemini 2.5 Pro、Claude Sonnet 4和Flux 1.1 Pro等都包含其中:
模型列表內容固然豐富,與Yupp官方說的”Yupp has over 500 models and counting: from ChatGPT and Claude to Gemini and DeepSeek, from Grok and Llama to text and image models you may not have even heard of.“卻好像有些差距,
這是因為選擇完模型後還可以指定使用模型版本(右方圖示為功能指引):
將列表內的模型數乘上各模型所擁有的版本後,數量著實驚人,
那”包含全球逾500個大型語言模型”的宣言還真有其事、並非誇大其辭!
不過就個人簡短測試的結果,選擇比較冷門的模型來比較似乎並不會因此得到更多點數回饋,
所以就算想賺點數,還是依情境使用適合的模型應該就可以了.
能夠一次比對、交互參考兩種不同模型的產出內容確實滿方便,
但雙方都沒能提供正確答案的情況也不少見,
例如用我家リーネちゃん的圖片來測試時,綁麻花辮就大多能夠正確認出,
然而若使用出自設定畫集、頭髮解開後的圖像,
即使有著極高辨識度的豐滿歐派和溫暖笑容,依然是兩個模型都沒能辨識出來…..
Llama 4 Maverick (Azure)承認不知道,Mistral Large Pixtral則說這是”長門有希(Yuki Nagato)”,
兩個回答都錯的十萬八千里,這時倒也無須再重新選擇模型,
因為Yupp已對這情況設計了滿貼心的功能─只要在底下選擇”Show more AIs”,
系統就會自動再挑選兩個模型回答並供你比對:
Claude 3.7 Sonnet (Vertex AI)承認看不出來並建議我用以圖搜圖(回答還重覆了一段),
Gemini 2.5 Flash Preview則說是”搖曳百合(ゆるゆり)”的”古谷向日葵(Himawari Furutani)”…..
唔,向日葵雖然也是個人很喜歡的溫柔巨乳角色,髮色卻完全不同,便再按一次”Show more AIs”:
GPT-4o (Azure)認為是”偶像大師(Idolm@ster)”的”三浦あずさ(Miura Azusa)”,
Claude 3.5 Haiku則承認看不出來,依然都沒答對,想的話就能繼續”Show more AIs”下去,
不過iThome的文章有提到”如果一直問問題卻不提供比較結果,就可能會被系統踢出去.“,
所以看到錯誤回答最好也按個倒讚並填寫理由(兩個模型的回答能同時倒讚,
且填寫倒讚理由一樣有積分獎勵).
想知道自己累計多少積分獎勵,只要到主頁面並點選左方的個人資訊圖示就能看到,
對於挑選哪個模型感到困惑的話,Yupp官方也有提供基於使用者回饋內容的排行圖表,
只要點選左方的皇冠圖示就可看到,分為Text Models和Image Models兩部份,
目前在Yupp中最受歡迎以及最快的Text Models分別為Claude Opus 4和OpenAI o1-mini,
最受歡迎以及最快的Image Models則皆由GPT Image 1奪得首位,
底下還有”Top Reasoning Models”、”Top Live Models”、”Most preferred Text Models”,
以及”Most downvoted among top models”等許多排行可以參考;
若看得暈頭轉向、難以抉擇哪個模型才好,在Leaderboard底下選擇Explore,
就能看到排行總表以及條件篩選設定:
只要選擇好條件,系統就會幫忙從中篩出符合的模型,
不過官方有特別提醒說Leaderboard尚為beta版,不建議作為挑選依據,
從排行榜中的VOTES最高僅2萬多筆來看,或許是因為目前使用者還不夠多的緣故?
那個Gemini 2.0 Pro才900多筆,想來應該很容易受極端值影響,
過一陣子再來看,也許整個排行榜就名次大風吹了 ww
Yupp除了強制使用Google帳戶登入這點較令人討厭外,
功能上倒沒什麼好挑剔的,不僅能一次使用超過500個不同模型,
還可很方便的同時參考、比較不同來源產生的內容,
更棒的是目前仍完全免費,只要偶爾評論一下答案品質即可;
只是串接圖像部份的API計費應該都挺貴,尤其Yupp還支援這麼多模型,
個人滿懷疑單靠使用者評論所產生的利益能否應付開銷,
總覺得這服務大概沒多久就會開始收費…..或者燒光錢倒閉,
想嘗鮮玩玩看的人動作也許要快一點呢 XD
最後,是本站對線上服務都要來個一次的いい男測試:
嗯,Pixtral Large、Gemini 2.5 Flash Preview (OpenRouter)、
GPT-4o (Azure)和Llama 4 Maverick (Azure)沒一個回答正確,
其中Pixtral Large還說很像”Free!”的角色”橘真琴(Makoto Tachibana)”…..
如此觸怒廣大腐女,簡直不敢想像Pixtral Large之後於Yupp的評分會是怎樣的慘況哪(誤)