Phi-4 Technical Report (AI論文要約) AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2412.08905 どんなもの 140億パラメータの言語モデルphi-4。データの質に重点を置いたトレーニングレシピで開発された。ウェブコンテンツやコードなどのオーガニックデータ nlp deeplearning 2025-01-11
Can LLMs Design Good Questions Based on Context? (AI論文要約) AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2501.03491 どんなもの 本論文は、Large Language Models (LLMs)を用いたコンテキストベースの質問生成 (Question Generation: nlp deeplearning 2025-01-11
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking (AI論文要約) AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2501.04519 どんなもの rStar-Mathは、大規模言語モデル(LLM)からの蒸留なしに、小さな言語モデル(SLM)がOpenAI o1と同等以上の数学的推論能力を持つ nlp deeplearning 2025-01-11
Fact-aware Sentence Split and Rephrase with Permutation Invariant Training (AI論文要約) AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2001.11383 どんなもの 複雑な文を意味を保ったまま複数の簡単な文に分割・言い換える Sentence Split and Rephrase タスクのための新しいフレームワ nlp deeplearning 2025-01-02
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention (AI論文要約) AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2404.07143 どんなもの Transformerベースの大規模言語モデル(LLMs)を、bounded memoryとcomputationで無限長の入力にスケールするため nlp deeplearning 2025-01-02
Only-IF :Revealing the Decisive Effect of instruction diversity on Generalization (AI論文要約) AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2410.04717 どんなもの 大規模言語モデル(LLM)の指示遵守能力を向上させるためのデータセット構築戦略に関する研究。特に、instruction diversity(指示 nlp deeplearning 2025-01-02
Steering Knowledge Selection Behaviours in LLMs via SAE-Based Representation Engineering (AI論文要約) AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2410.15999 どんなもの 本論文は、大規模言語モデル (LLM) の知識選択行動を、事前学習済みスパースオートエンコーダ (SAE) を用いた表現エンジニアリング手法 SP nlp deeplearning 2025-01-02
Mechanistic Unlearning: Robust Knowledge Unlearning and Editing via Mechanistic Localization(AI論文要約) AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2410.12949 どんなもの 本論文は、大規模言語モデル(LLM)から望ましくない知識を削除または修正する「知識のアンラーニングと編集」手法に関する研究です。特に、モデルの特定 nlp deeplearning 2025-01-02
Mixture of expertsのサンプル実装 mixture of expertsを実装してみる。 並列化や計算効率の向上などの部分は複雑なので、それら取り除いた簡単な実装を行ってみる。 Mixture of expertsとは 特定のタスクに特化したexpertを複数用意し、入力に対してexpertを切り替えることで性能を上げる手法。 exp python nlp torch 2023-12-16
huggingfaceのgenerationの関数をtorch modelから使えるようにしたい torchなどのライブラリを使いpre_trainingを行い文章生成させる際、文章生成の計算は基本的に自分で実装する必要がある。 huggingface用のmodelに変換しても良いが、おれおれアーキテクチャにした場合、変換も面倒… そこで、huggingfaceにあるtop_kやt python nlp huggingface torch pre_training 2023-12-05
llama2のアーキテクチャを変更してpre trainingしてみる できるだけ小さいサイズのモデルで日本語を喋れるモデルを作りたい、ということでllama2のpre_trainingはすでにおこなったがさらなる改善のため、いくつかのアーキテクチャを考えてみる。 比較のベースとなる標準的なモデルに対し、新たに3つのモデルを作成し比較する transformerのatt python nlp transformer pre_training 2023-12-05
複数ファイルに分割されたデータセットをHuggingface Hubにアップロードするメモ データセットなどサイズの大きいデータをHuggingface Hubにアップロードして使う場合のメモ。 公式ドキュメントにはアップロードする方法が様々あるが、いまいちどれを使えば良いか分かりづらかったのでメモ。 今回作成したデータセットは以下。 https://huggingface.co/data python nlp huggingface 2023-11-21
HuggingfaceのDataLoaderとDatacollatorのソースコードを眺める エラーでハマったので、hugging faceのdatasetからbatche_sizeごとのinput_idsやlabelsにするあたりの実装、特にDataLoaderとDataCollatorあたりをちゃんと確認しておく train loopは以下から始まる def train( self, r python nlp huggingface 2023-09-21
xgenでJGLUEを試す 日本語ベンチマークとしてJGLUE(JP Language Model Evaluation Harness)が提案されている。 https://techblog.yahoo.co.jp/entry/2022122030379907/ 文章分類、文ペア分類、質問応答のタスクに対し評価を行う。 タスク python nlp jglue xgen 2023-07-01
OpenCALM-7Bをloraで学習して、quantizeするまで cyberagent/open-calm-7bをLoraを用いて学習し、quantizeするまでやっていきます https://huggingface.co/cyberagent/open-calm-7b gpt-neoxのlora weight mergeの記事が見つからなかったのでメモとして 動 nlp deeplearning python huggingface 2023-05-22
loraで学習する場合のpromptって何でも良いんだっけ?rinna instruction 3Bで試す loraを用いて学習する場合の、promptのtemplateは日本語にしたほうが良いんだっけ? ユーザー入力のフォーマットとかLLM側の出力のフォーマットとかどうすれば良いんだっけ? ってなったので学習させて結果を比較してみる。 せっかくなのでrinna/japanese-gpt-neox-3.6 nlp deeplearning python huggingface 2023-05-21
rinna 3Bをcppで動かす rinnaをcppで動かせるように色々試して見ました。 instructionもあり、そのままlangchainなどに突っ込んでも動かせそうということで、 ローカルで遊ぶならcppしてないと遊べないので色々試してみました。 https://huggingface.co/rinna/japanese- nlp deeplearning python huggingface 2023-05-18
VicunaでReActっぽいことを試してみる vicunaでReActっぽいことを試してみる。正確には違うので注意 ReActは、Thought、Action、Observationをループさせ、LLMの出力の精度上げる手法 ReActの処理の流れは以下のような形。LangChainの実装を参考にする。 与えられた質問(Question)に対し nlp python langchain 2023-04-01
Rust TokenizerをC++から呼び出す Bloomz.cppのtokenizerが日本語でうまく動かなかったので、 Rust製のHuggingface TokenizerをC++から呼び出せるようにしました。 初めに 「応答」の応の文字には2つのIDが振られている。 model_name = "bigscience/bloomz- nlp deeplearning python huggingface 2023-03-31
BloomをLoRaで日本語finetuning LlamaをAlpacaデータセットを使いLoRaでfine tuneしたものが良い感じだったので、Bloomを日本語で学習させてみようと思う。 https://github.com/tloen/alpaca-lora とりあえず動かすまででしっかりfine tuneしきってないので注意 huggi nlp deeplearning python huggingface 2023-03-20