MiMo-7B-RL 是小米开发的一个 70 亿参数 的语言模型系列中的一个特定版本。它特别强调通过强化学习(RL)进行后训练,以解锁和提升模型固有的推理潜力。这个模型是基于 MiMo-7B-SFT 模型进一步训练而成的,在数学和代码推理任务上表现出色,其性能可与 OpenAI 的 o1-mini 模型媲美。
무삭제판 에피소드를 청취하려면 로그인하십시오.
이 프로그램의 최신 정보 받기
프로그램을 팔로우하고, 에피소드를 저장하고, 최신 소식을 받아보려면 로그인하거나 가입하십시오.