お知らせ 2024年9月1日よりconnpassサービスサイトへのスクレイピングを禁止とし、利用規約に禁止事項として明記します。
9月1日以降のconnpassの情報取得につきましては イベントサーチAPI の利用をご検討ください。

お知らせ connpassではさらなる価値のあるデータを提供するため、イベントサーチAPIの提供方法の見直しを決定しました。2024年5月23日(木)より 「企業・法人」「コミュニティ及び個人」向けの2プランを提供開始いたします。ご利用にあたっては利用申請及び審査がございます。詳細はヘルプページをご確認ください。

このエントリーをはてなブックマークに追加

Jan

24

ウェビナー:30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと

アップデートされたNejumi LLMリーダーボードNeo公開記念ウェビナー

Organizing : Weights and Biases Japan株式会社

ウェビナー:30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと
Hashtag :#wandb
Registration info

ウェビナー参加

Free

FCFS
226/300

Attendees
ぬこぬこ
qpan
Kazuaki_Torisawa
kazune_w
yoshioya
藤本憲治
Shigeru Kobayashi
fujieda_77
koyamamoto
y_kat11
View Attendee List
Start Date
2024/01/24(Wed) 16:00 ~ 18:00
Registration Period

2024/01/10(Wed) 17:08 〜
2024/01/24(Wed) 18:00まで

Location

オンライン

Zoom

View Map Venue Homepage
参加者への情報
(参加者と発表者のみに公開されます)
出席登録
(イベント開始時間の2時間前から終了時間まで、参加者のみに公開されます)

Description

概要

Weights & Biases Japanでは、昨年末、日本最大規模の日本語LLM評価ランキングである、Nejumi.aiリーダーボードのアップデート版、Nejumi LLMリーダーボード Neoを公開しました。

この新しいバージョンの開発に際しては、LLM-jpのモデル評価チームや、Stability AI Japan の評価チームの皆さん、弊社内LLMエクスパートチームなどとのディスカッションを経て日本でLLM開発・提供をされている方々にとってフェアで、広く役にたつ評価方法の構築を心がけました。

本ウェビナーでは:

  • 新しいNejumiリーダーボードの仕組みのご紹介と、リーダーボード内の分析機能を活用して多数のLLMモデルの日本語性能を比較することによって見えてきたインサイトをご共有します
  • 言語理解評価に使っているLLM-jpコラボレーションで開発されたJasterデータセットと、言語生成評価に使っているStability AI社の開発したMT-Bench-jpそれぞれのチームから、モデル評価方法の詳細を説明していただきます
  • Nejumiリーダーボードの評価を自社モデルに対して簡単に実行し、その結果を公開しなくても他のベンチマークモデルと比較する方法をご紹介します。

背景

今回のリーダーボードアップデートの背景は、こちらのブログにて紹介させていただきました

Weights & Biases とは

Weights & Biases(WandB)は、エンタープライズグレードのML実験管理およびエンドツーエンドMLOpsワークフローを包含する開発・運用者向けプラットフォームです。WandBは、LLM開発や画像セグメンテーション、創薬など幅広い深層学習ユースケースに対応し、NVIDIA、OpenAI、Toyotaなど、国内外で80万人以上の先端的ML開発者に信頼されているAI開発の新たなベストプラクティスです。

タイムテーブル

時間 内容 スピーカー
16:00 ~ 16:20 Nejumi LLMリーダーボードNeoのご紹介とそこからのインサイト W&B 鎌田啓輔
16:20 ~ 16:40 Jasterデータセットを使ったLLMモデルの評価 LLM-JP, 東京大学 Namgi Han
16:40 ~ 17:00 Q&A および 休憩
17:00 ~ 17:20 MT-Bench-Jpデータセットを使ったLLMモデルの評価 Stability AI
17:20 ~ 17:40 Nejumiリーダーボード評価の走らせ方 W&B 山本祐也
17:40 ~ 18:00 Q&A

スピーカー

Meng Lee, Stability AI

講演タイトル「MT-Bench-Jpデータセットを使ったLLMモデルの評価」

Meng Lee

台湾大学情報管理科で情報検索と自然言語処理を専攻しました。2016年に来日してから Software Engineer としてEコマースの検索エンジンを開発し、SmartNewsに入社後は Data Scientist として大規模データの分析を行い、会社初のニューラルネットワークに基づくニュース分類システムを構築し、ニュース推薦システムの開発を行いました。現在は Stability AI Japanで機械学習エンジニアとして、日本語大規模言語モデルの研究開発を主導しています。

Namgi Han, 東京大学大学院情報理工学係研究科コンピューター学専攻特任研究員

講演タイトル「Jasterデータセットを使ったLLMモデルの評価」

Han-san

2021年、総合研究大学院大学複合科学研究科情報学専攻で、言語モデルと言語知識の間の関係性を分析した研究で博士号を取得。韓国の蔚山科学技術大学校の博士後研究員を経て、現在は東京大学大学院情報理工学係研究科コンピューター学専攻で、「自然言語の非線形性の計算論モデル」というプロジェクトの特任研究員として在職中。主に言語モデルが人間の言語をどう学習しているかの分析に興味があり、その延長として大規模言語モデルの評価手法・結果分析の研究にも参加している。

鎌田 啓輔 - Weights & Biases Japan, MLエンジニア

講演タイトル「Nejumi LLMリーダーボードNeoのご紹介とそこからのインサイト」

鎌田 啓輔

京都大学情報学研究科で機械学習を専攻。新卒では因果推論ツールを提供する外資系企業に参画し、ビジネス施策における因果推論に従事。その後、DataRobotにてLead Data Scientistとしてヘルスケアチームのリーダーとしてヘルスケアの企業を中心に国内数十社のAI導入を支援。コロナ禍にはデータに基づく対策方針の決定に資するべく、分析担当・PMとして国立国際医療研究センターと共同で解析プロジェクトを推進し、その結果をもとに論文を執筆。厚生労働省へのレター提出にも参画。因果推論から機械学習、Deep Learningまで行う機械学習エンジニア。

山本 祐也 - Weights & Biases Japan, MLエンジニア

講演タイトル「Nejumiリーダーボード評価の走らせ方」

山本 祐也

東京大学大学院工学系研究科にて有機無機複合材料の研究で博士号を取得。学位取得後、大手化学メーカーにて液晶・タッチパネル関連先端化学材料の研究開発に従事。 その後、大手食品メーカーで機械学習を用いた食品パッケージに関する予測モデリングと最適化に取り組むなど、BtBとBtCいずれにも深い経験を有する。前職DataRobotでは製造顧客担当チームのリーダーとして国内数十社のAI導入を支援。国内で数十人程度のKaggle Grandmasterの一人。

カンファレンス詳細

  • 日 時: 2023年1月24日 16:00-18:00
  • 参加費: 無料(事前登録制)
  • お問い合わせ:contact-jp@wandb.com

発表者

Feed

シバタアキラ

シバタアキラさんが資料をアップしました。

01/31/2024 15:03

シバタアキラ

シバタアキラさんが資料をアップしました。

01/31/2024 15:02

Keisuke Kamata

Keisuke Kamataさんが資料をアップしました。

01/24/2024 23:47

Keisuke Kamata

Keisuke Kamataさんが資料をアップしました。

01/24/2024 23:46

Keisuke Kamata

Keisuke Kamataさんが資料をアップしました。

01/24/2024 23:45

Jerry Chi

Jerry Chi wrote a comment.

2024/01/24 13:20

楽しみです!

シバタアキラ

シバタアキラ published ウェビナー:30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと.

01/10/2024 17:09

ウェビナー:30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと を公開しました!

Ended

2024/01/24(Wed)

16:00
18:00

Registration Period
2024/01/10(Wed) 17:08 〜
2024/01/24(Wed) 18:00

Location

オンライン

Zoom

Attendees(226)

ぬこぬこ

ぬこぬこ

ウェビナー:30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと に参加を申し込みました!

qpan

qpan

ウェビナー:30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと に参加を申し込みました!

Kazuaki_Torisawa

Kazuaki_Torisawa

ウェビナー:30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと に参加を申し込みました!

kazune_w

kazune_w

ウェビナー:30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと に参加を申し込みました!

yoshioya

yoshioya

ウェビナー:30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと に参加を申し込みました!

藤本憲治

藤本憲治

I joined ウェビナー:30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと!

Shigeru Kobayashi

Shigeru Kobayashi

ウェビナー:30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと に参加を申し込みました!

fujieda_77

fujieda_77

ウェビナー:30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと に参加を申し込みました!

koyamamoto

koyamamoto

ウェビナー:30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと に参加を申し込みました!

y_kat11

y_kat11

ウェビナー:30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと に参加を申し込みました!

Attendees (226)