ニュースボイス

2025-05-23 16:13

科学・技術

本論文は、大規模言語モデルにおける中間的な「思考トークン（CoT）」の有効性を批判的に再検討します。正確な推論痕跡を使って訓練されたモデルでも、正しい解に至る過程で無効な中間表現が生成されることが多く、さらに意味のないランダムな痕跡でも精度が保たれることが判明。中間トークンの“意味”や“思考”としての解釈に対し、過大評価の危険性を指摘しています。

Google、LLMに拡張性をもたらすGemini Diffusionを発表

2025-05-22 01:13

科学・技術

GoogleがI/Oで発表した「Gemini Diffusion」は、従来のオートレグレッシブ生成に代わり、ノイズから出力を生成する拡散モデルを採用した初の商用LLMです。生成速度の高速化と自己修正能力の向上により、コードや数式の編集タスクに強みがあります。従来のTransformer構造を維持しつつ、出力方式が革新的で、次世代のLLMとして注目されています。

AIは人間より説得力がある？LLMと人間の比較実験

2025-05-17 20:05

科学・技術

最新の大規模言語モデル（Claude Sonnet 3.5）が、人間の説得者よりも高い成功率でクイズ回答者を誘導できることが、実験により示されました。正しい答えへの誘導のみならず、誤った情報を与えた場合でも同様の影響力を示し、LLMの説得能力の高さが明らかにされました。この結果は、AIの影響力の強さに警鐘を鳴らし、ガバナンスと倫理的整備の必要性を示しています。

Google Cloud、AIによる自然言語からのSQL生成を解説

2025-05-16 21:10

IT・ネット

Google Cloudは、自然言語からSQLクエリを生成する「text-to-SQL」技術の詳細を解説しました。GeminiをはじめとするLLMの進化により、BigQueryやCloud SQLなどで自然言語でのデータ検索が可能になっています。Googleは、スキーマ情報の提供、曖昧な質問への対応、SQL方言の違いなどの課題に対し、モデルの文脈構築や再生成、自己整合性評価などの手法を導入。正確性と信頼性を高め、非技術者にもデータ活用を促進しています。

Absolute Zero: 外部データゼロで自律学習するAI

2025-05-11 07:07

科学・技術

Absolute Zeroは、外部データなしで自律的に問題を生成・解決しながら学習を進める新たな強化学習パラダイムです。この手法では、大規模言語モデルが自ら課題を作成し、コード実行を通じてその正誤を検証することで、報酬を自己生成します。AZR（Absolute Zero Reasoner）は数学やコーディングタスクにおいて既存のゼロショットモデルを凌駕する性能を示し、モデル規模や構成にも柔軟に対応できることが確認されました。

人間の記憶を模倣するEM-LLM：無限コンテキストに対応した新アーキテクチャ

2025-05-10 07:49

科学・技術

EM-LLMは、人間のエピソード記憶とイベント認知の原理を模倣した大規模言語モデルの新たなアーキテクチャです。ファインチューニングを必要とせず、事実上無限の文脈長に対応可能で、高効率な処理を実現しています。トークン列を驚き度とグラフ理論に基づいてエピソードに区分し、必要に応じて類似性と時間的連続性に基づいてメモリを検索します。実験ではLongBenchなどで優れた性能を示し、RAG方式を超える精度も確認されました。

LLMにおける「創発性」はなぜ起きるのか

2025-05-08 20:07

科学・技術

大規模言語モデル（LLM）は、パラメータ数が増えると突然新たな能力を獲得する「創発性」を示すことがあります。これは自然界や機械学習の非線形性に起因すると考えられ、タスクを実現するのに必要な「ビット予算」が初めて十分になることで急に能力が発現するという仕組みです。数理的証明ではなく直感的な説明により、この現象の理解を深め、将来的には予測や制御につなげる可能性が探られています。

リアルタイム音声対話AI「RealtimeVoiceChat」の仕組み

2025-05-05 20:17

IT・ネット

「RealtimeVoiceChat」は、音声入力からAIによる応答までをリアルタイムで処理するシステムです。ユーザーの音声はブラウザで収録され、WebSocketを通じてPythonバックエンドに送信されます。音声はリアルタイムでテキストに変換され、大規模言語モデル（LLM）で処理された後、再び音声に変換されてユーザーに返されます。システムは低遅延を重視し、音声チャンクのストリーミングや動的な無音検出などの技術を採用しています。Docker Composeを使用したデプロイも可能で、OllamaやOpenAIなどのLLMバックエンドを柔軟に選択できます。

AIエージェント通信プロトコルの現状と未来

2025-05-04 03:05

科学・技術

LLM（大規模言語モデル）の普及により、さまざまな分野でAIエージェントが活用されていますが、外部ツールやデータソースとの通信方法に標準がなく、相互運用性や拡張性が課題となっています。本論文では、現行の通信プロトコルを網羅的に分類し、性能比較を行ったうえで、次世代プロトコルに必要な柔軟性やプライバシー保護などの特性を提示。今後の研究と実装の指針となる包括的なレビューです。

Apple Neural EngineでLLMを動かすANEMLLライブラリ

2025-05-03 15:29

IT・ネット

ANEMLLは、大規模言語モデル（LLM）をApple Neural Engine（ANE）上で動作させるためのオープンソースライブラリです。Hugging FaceのモデルをCoreML形式に変換し、iOSやmacOS上でのオンデバイス推論を可能にします。SwiftやPythonによるサンプル実装、ベンチマーク機能、iOS用チャットアプリのデモも提供されており、エッジデバイス上でのプライバシー重視のAI活用を促進します。現在はLLaMA系のモデルを中心に対応しています。

ChatGPTが自然言語処理の常識を変えた瞬間

2025-05-01 07:51

IT・ネット

自然言語処理（NLP）分野は、ChatGPTをはじめとする大規模言語モデル（LLM）の登場により、未曾有の変革期を迎えました。2017年のTransformer論文から始まり、BERTやGPT-3が登場、ChatGPTの公開で業界構造が一変。学術界では既存の研究が無意味になったと感じる研究者も多く、技術の本質的理解や倫理問題も議論の的となりました。従来の研究手法や教育、キャリア観が揺らぐ中、NLP分野は「AI」の一部として再定義されつつあります。

FlashAttentionの実装解説

2025-04-29 05:47

科学・技術

SGLangでFlash Attentionのバックエンドを実装する過程を解説した技術記事。基本構造からCUDA Graphの最適化まで段階的に紹介し、LLMの高速推論を実現する仕組みに迫る。

Qwen3公開：柔軟な思考モードと119言語対応の新世代モデル

2025-04-28 20:44

科学・技術

AlibabaのQwenプロジェクトが、Qwen3シリーズを発表。大規模MoEモデルから小型モデルまで幅広く揃い、柔軟な思考モード切替、119言語対応、高度なエージェント機能を搭載。プレトレーニングとポストトレーニングの両面で大幅な改良が加えられている。

「大規模言語モデル」の記事一覧