Language Model Can Listen While Speaking (AI論文要約)

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2408.02622 どんなもの 本論文は、リアルタイムの双方向音声対話を実現する、Listening-while-Speaking Language Model (LSLM) を

Tensor Product Attention Is All You Need (AI論文要約)

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2501.06425 どんなもの Tensor Product Attention (TPA) は、クエリ(Q)、キー(K)、バリュー(V)をコンパクトに表現するためにテンソル分解

Titans: Learning to Memorize at Test Time (AI論文要約)

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2501.00663 どんなもの Titansは、テスト時に情報を記憶することを学習する新しいニューラル長期記憶モジュールを備えた、深層学習アーキテクチャのファミリーです。 このモ

Transformer2 : Self-adaptive LLMs (AI論文要約)

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2501.06252 どんなもの Transformer2は、未学習のタスクに対してリアルタイムでLarge Language Models (LLMs) を適応させるための自己適

Phi-4 Technical Report (AI論文要約)

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2412.08905 どんなもの 140億パラメータの言語モデルphi-4。データの質に重点を置いたトレーニングレシピで開発された。ウェブコンテンツやコードなどのオーガニックデータ

Mechanistic Unlearning: Robust Knowledge Unlearning and Editing via Mechanistic Localization(AI論文要約)

AIを使った論文要約です。簡単なサーベイ用で詳細は論文を参照してください。 https://arxiv.org/abs/2410.12949 どんなもの 本論文は、大規模言語モデル(LLM)から望ましくない知識を削除または修正する「知識のアンラーニングと編集」手法に関する研究です。特に、モデルの特定

Mixture of expertsのサンプル実装

mixture of expertsを実装してみる。 並列化や計算効率の向上などの部分は複雑なので、それら取り除いた簡単な実装を行ってみる。 Mixture of expertsとは 特定のタスクに特化したexpertを複数用意し、入力に対してexpertを切り替えることで性能を上げる手法。 exp

llama2のアーキテクチャを変更してpre trainingしてみる

できるだけ小さいサイズのモデルで日本語を喋れるモデルを作りたい、ということでllama2のpre_trainingはすでにおこなったがさらなる改善のため、いくつかのアーキテクチャを考えてみる。 比較のベースとなる標準的なモデルに対し、新たに3つのモデルを作成し比較する transformerのatt

複数ファイルに分割されたデータセットをHuggingface Hubにアップロードするメモ

データセットなどサイズの大きいデータをHuggingface Hubにアップロードして使う場合のメモ。 公式ドキュメントにはアップロードする方法が様々あるが、いまいちどれを使えば良いか分かりづらかったのでメモ。 今回作成したデータセットは以下。 https://huggingface.co/data