分析
这场富有洞察力的讨论精彩地突显了现代人工智能最关键的基础:数据本身。看到社区专注于构建强大模型所需的核心要素,例如利用开源平台或为微调构建自定义数据集,令人无比兴奋。通过提出这些基本问题,开发者们正在采取完全正确的步骤,以减少偏见并突破创新的边界!
Aggregated news, research, and updates specifically regarding training data. Auto-curated by our AI Engine.
"这家成立仅14个月的公司表示,其客户群包括“每一个领先的AI实验室”。在融资轮之前不久,其年度经常性收入超过了1亿美元。"
"从我在2010年开始从事AI工作到现在,前沿AI模型所使用的训练数据量已经惊人地增长了1万亿倍——从早期系统的大约10¹⁴次浮点运算,增长到当今最大模型超过10²⁶次浮点运算。"
"我构建了一个管道,将 YouTube AI/ML 视频转换为 LLM 训练数据(100 多个预处理,免费浏览)"
"这家配送巨头的新 Tasks 应用程序付费给快递员拍摄日常活动并录制语音样本,将 DoorDash 定位为数据基础设施提供商,而不仅仅是物流平台。"
"大英百科全书及其子公司 Merriam-Webster 在曼哈顿联邦法院起诉了 OpenAI,指控其滥用他们的参考资料来训练其人工智能模型。"
"该诉讼于 2026 年 3 月 13 日在纽约提起,指控 OpenAI 在未经许可的情况下使用参考出版商的内容作为 AI 训练数据,然后生成逐字复制其内容的回复,此前 6 个月,同一公司以几乎相同的理由起诉 Perplexity。"
"我注意到在 Casia 数据集上训练的 r18 模型的**文件大小相对较小,约为 112 MB**,而同样在 webface4M 上训练的 r18 模型的**文件大小约为 500 MB**,并且我注意到在 webface4M 上训练的 r50 模型的**文件大小约为 550 MB**。"