名古屋ではたらく社長のITニュースポッドキャスト

Ep.656 DeepSeek-OCR──“画像で圧縮するLLM”が長文処理の常識を変える(2025年10月23日配信)

発表は2025年10月21日、サウスチャイナ・モーニング・ポストが第一報を掲載しました。DeepSeekは長大な文書を“直接テキストで食わせる”のではなく、まず画像表現に置き換えてから処理する新手法を公開。これにより、LLMが扱うトークン数を7〜20分の1に削減できたと述べ、長文対応の計算コストを劇的に抑える方向性を示しました。モデルは「DeepSeek-OCR」としてHugging FaceとGitHubでオープン提供されています。

仕組みはシンプルかつ大胆です。エンコーダ側の「DeepEncoder」が長文テキストを視覚表現へマッピングして“ビジョントークン”に圧縮し、デコーダ側の「DeepSeek3B-MoE-A570M」がそこから言語を復元します。DeepSeekは公式ブログでこの二段構成を明示し、“LLM視点からビジョンエンコーダの役割を再定義した”と説明。圧縮率を高めても意味保持をできる限り維持する“視覚圧縮”は、長文の取り回しに新しい設計余地を与えます。

実装はすでに開発者向けに整っており、Hugging FaceのモデルカードとGitHubのリポジトリには、TransformersやvLLMで動かす手順が公開済み。必要ライブラリ、推奨CUDA、そして簡単な推論コードまで揃っており、試すハードルは低めです。コミュニティのSpaceでもデモが立ち上がり、実際に画像→Markdown抽出や超長文の圧縮復号を試せる環境が出回っています。

効果の中身について、報道・技術解説は“トークン節約のインパクト”を強調します。SCMPは7〜20倍の削減幅をそのまま伝え、The Decoderは「10倍圧縮でも情報の約97%を維持」と紹介。要は、1,000トークン級の段落を100前後のビジョントークンで“持ち運べる”イメージで、長期文脈を扱う際のメモリと速度のボトルネックが大きく緩む、という見立てです。

文脈として、DeepSeekはこの一年、性能とコストの“比”で攻めてきました。ReutersはV3やR1、そして9月末の実験版モデルまで、効率と価格を武器に競合を追い上げる動きを継続報道。今回のDeepSeek-OCRも、長文処理の実費を削ることで、検索連携RAGや社内文書アシスタント、ログ分析のような業務AIに“現実的なスケール”を持ち込む意図が透けて見えます。

開発現場の手触りも早速出ています。個人ブログやコミュニティでは6.6GB級モデルをローカルGPUで動かした記録が共有され、Hacker NewsやRedditでも「テキストを画像にするなんて逆説的だが理にかなう」という議論が活発です。長文の“忘却”を意図的に進めるため、圧縮率を時間経過で上げる運用案など、プロダクト側の工夫に直結するアイデアも出ています。

総じて、DeepSeek-OCRは“長文=高コスト”という常識を崩すための実験であり、すでに実用フェーズへ片足を踏み出しています。研究・社内ナレッジ・法務や顧客サポートのログなど、“長いが価値のある”情報を安く運べるなら、エンタープライズAIの設計は一段とシンプルになります。圧縮で起こる微細な情報損失と、その対価として得られるスループット――そのトレードオフをアプリ側でどう最適化するか。ここからが、プロダクト作りの腕の見せどころですね。