Edit model card

Tanuki-8B-dpo-v1.0

モデルについて

Tanuki-8Bは、フルスクラッチで約1.3Tトークン事前学習を行った約8Bパラメータの大規模言語モデルです。
Tanuki-8x8B-dpo-v1.0は、SFTおよびDPOにより対話用に調整されています。
より詳細な情報についてはブログ記事を参照してください。

GENIAC 松尾研 LLM開発プロジェクトのもと、一般公募により集まった有志の参加者(企業所属、学生、研究者等)が開発を実施しました。

量子化モデル

AWQ 4bit量子化 GPTQ 4bit量子化 GPTQ 8bit量子化 GGUF量子化*
*GGUF版は性能低下が発生している可能性があり、非推奨

使い方

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

model = AutoModelForCausalLM.from_pretrained("weblab-GENIAC/Tanuki-8B-dpo-v1.0", device_map="auto", torch_dtype="auto")
tokenizer = AutoTokenizer.from_pretrained("weblab-GENIAC/Tanuki-8B-dpo-v1.0")
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

messages = [
    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
    {"role": "user", "content": "たぬきに純粋理性批判は理解できますか?"}
]

input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
output_ids = model.generate(input_ids,
                            max_new_tokens=1024,
                            temperature=0.5,
                            streamer=streamer)

プロンプト形式

Tanuki-8B-dpo-v1.0は日本語版Alpacaのプロンプト形式を利用します。

  • シングルターン
    <s>以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。
    
    ### 指示:
    たぬきに純粋理性批判は理解できますか?
    
    ### 応答:
    
  • マルチターン
    <s>以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。
    
    ### 指示:
    {1ターン目の入力}
    
    ### 応答:
    {1ターン目の応答}</s>
    
    ### 指示:
    {2ターン目の入力}
    
    ### 応答:
    

なお、本モデルはデフォルトのシステムプロンプトである「以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。」以外を学習していないため、このシステムプロンプトの使用を推奨します。タスクの詳細はユーザープロンプトに記述してください。

ベンチマーク

人手評価
Chatbot Arenaを模したシステムを作成し、人手によるブラインドテストを実施しました。(詳細はこちら
全評価データ(約2000件)を公開しています。 image/png

Japanese MT-Bench

GPT-4による評価 (gpt-4-0613、平均スコア算出においてスコア-1は除外)

Tanuki-8B-dpo-v1.0 Tanuki-8x8B-dpo-v1.0
平均スコア 7.24 7.96
coding 5.4 6.75
extraction 6.65 6.90
humanities 9.1 9.3
math 3.9 5.75
reasoning 5.75 7.35
roleplay 8.75 8.95
stem 9.35 9.40
writing 9.05 8.85

開発メンバー

畠山 歓 [リーダー]、asaoka_tadashi、Atsushi Saito、Chattso-GPT、Chihiro Arata、Chihiro HIGUCHI、Daichi Kohmoto、Esty、Hideaki Hayashi、hiroaki shioya、Issei Fujimoto、Issei Fujimoto、Jie Zeng、Jinsei Shiraishi、K. Nishizawa、Kazutaka Nishimae、Kunihiro Watanabe、masaki okamura、Minami Someya、Mさん、Nishi、Nishijima、p1atdev、Rumi Nakagawa、Ryota Mitsuhashi、Susumu Ota、takagi、Toshio Nishida、y_morinaga、Yuki Namiuchi、Yukie Kawano、永原恒治、加藤純、河越 淳、岩田 兼太朗、菊池満帆、熊田匡仁、江國翔太、佐野敏幸、山口 裕輝、西井康隆、川村 正春、片上 舜、堀江吏将、林寛太 (Kanta Hayashi)

Downloads last month
11,042
Safetensors
Model size
7.51B params
Tensor type
BF16
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for weblab-GENIAC/Tanuki-8B-dpo-v1.0

Quantizations
4 models

Space using weblab-GENIAC/Tanuki-8B-dpo-v1.0 1