Open-O1：首个旨在媲美OpenAI o1的项目！

GPT452024-10-08 11:16:43407

自从OpenAI o1发布后，因其强大的推理能力引起了巨大反响，甚至直接将o1-like的LLM更名为LRM（大型推理模型）。

OpenAI o1是怎么练成的？

OpenAI o1推理能力全面评估

与此同时，一些开源项目也在尝试复现OpenAI o1，先有g1，它主要使用提示词策略通过类似o1的推理链来提高LLM（Llama-3.1 70b）的推理能力。

g1项目地址：https://github.com/bklieger-groq/g1

与g1项目不同，Open-O1则是通过策划一组O1风格的思考数据开发的，然后这些数据被用来训练LLaMA和Qwen模型。有两个模型可用：

OpenO1-V1-LLaMa-8B

OpenO1-V1-Qwen-7B

Open-O1的愿景：旨在媲美OpenAI O1模型的强大功能，为社区提供先进的开源替代方案。

接下来是大家最喜欢问的2个问题：草莓单词有多少个r， 9.9和9.11哪个大，Open-O1给出了详细、正确的推理过程，都能回答正确！

strawberry里有几个r？

💡Thought好的，我需要确定单词 "strawberry" 中有多少个 'r'。让我先仔细检查这个词中的每个字母，以识别所有 'r' 的实例。首先，我会列出 "strawberry" 的字母：S - T - R - A - W - B - E - R - R - Y现在，我将逐个检查每个字母，看它是否与字母 'r' 匹配：S：这是第一个字母，它是 's'。不是 'r'。T：第二个字母是 't'。不是 'r'。R：第三个字母是 'r'。这是第一个 'r'。A：第四个字母是 'a'。不是 'r'。W：第五个字母是 'w'。不是 'r'。B：第六个字母是 'b'。不是 'r'。E：第七个字母是 'e'。不是 'r'。R：第八个字母是 'r'。这是第二个 'r'。R：第九个字母是 'r'。这是第三个 'r'。Y：第十个字母是 'y'。不是 'r'。检查完每个字母后，我发现 'r' 在 "strawberry" 这个词中出现了三次。为了确保准确性，我会再次检查：位置3：'r'位置8：'r'位置9：'r'这个词中没有其他字母是 'r'。因此，我的最终计数是 "strawberry" 中有3个 'r'。📝OutPutstrawberry里有3个r。

9.11和9.9哪个更大？

💡Thought好的，我需要比较9.11和9.9的大小。首先，我注意到这两个数字都是小数，都以9.开头。我应该从左到右逐步比较它们的每一位数字。首先，比较它们的整数部分。9.11的整数部分是9，9.9的整数部分也是9。所以，整数部分相同，暂时无法确定哪个更大。接下来，我需要比较它们的小数部分。9.11的小数部分是0.11，9.9的小数部分是0.9。现在，我将比较0.11和0.9。为了更好地比较这两个小数，我可以将它们转换为相同的小数位数。0.9可以表示为0.90。这样，比较0.11和0.90。现在，比较0.11和0.90的每一位：第一位小数：0.11的第一位小数是1。0.90的第一位小数是9。由于1小于9，这意味着0.11小于0.90。因此，0.11 < 0.90，所以9.11 < 9.9。但我还可以用另一种方法来确认这个结论。我可以将9.11和9.9都转换为分数形式。9.11转换为分数是9 + 11/100 = 911/100。9.9转换为分数是9 + 9/10 = 99/10 = 990/100。现在，比较911/100和990/100。由于分母相同，比较分子：911 < 990。因此，911/100 < 990/100，即9.11 < 9.9。为了进一步确认，我还可以进行减法运算。计算9.9 - 9.11。9.9 - 0.11 = 9.79所以，9.9 - 9.11 = 0.79，这意味着9.9比9.11大0.79。综上所述，通过比较整数部分、小数部分以及使用分数和减法运算，可以确定9.11 < 9.9。📝OutPut9.9更大。

另外，Open-O1在编码、数学推理、物理、密码、反事实、数据分析、谜题、推理等方面也有很多优秀案例。

那么Open-O1是如何炼成的尼？

训练方法

stage: sftdo_train: truefinetuning_type: fulldeepspeed: ds_z3_config.json

数据集

dataset: 4o_responsetemplate: llama3cutoff_len: 4096overwrite_cache: truepreprocessing_num_workers: 16

训练过程

per_device_train_batch_size: 4gradient_accumulation_steps: 2learning_rate: 1.0e-5num_train_epochs: 3.0lr_scheduler_type: cosinewarmup_ratio: 0.1bf16: trueddp_timeout: 180000000

关于Open-O1的SFT数据、RW模型与数据、训练pipeline（SFT、RLHF）会在未来一个月会陆续开源......

体验demo：https://huggingface.co/spaces/happzy2633/open-o1https://github.com/OpenSource-O1/Open-O1https://github.com/hijkzzz/Awesome-LLM-Strawberry

本文链接：https://lipu365.com/gpt4_gpt5_179.html

chatgpt4.0人工智能下载人工智能chatgpt4.0推荐 chatgpt4.0安装教程mac ChatGPT Plus充值 ChatGPT Plus订阅 chatGPT商店 OpenAI sora OpenAI sora官网 OpenAI sora视频 sora视频

Open-O1：首个旨在媲美OpenAI o1的项目！

相关文章

2025年5月最新版，手把手教你用ChatGPT搞定科研论文，效率翻倍不是梦！

2025年5月最新版！用ChatGPT生成高质量文章的5个实用技巧

2025年5月最新实测，ChatGPT回答会重复吗？3个技巧让它更聪明

2025年5月最新版，ChatGPT中文版入口完全指南，轻松上手AI聊天神器！

2025年5月最新教程，3分钟找到必应ChatGPT入口，手把手教你玩转AI聊天