9月6日,“天池 Better Synth-多模态大模型数据合成挑战赛”(以下简称“大赛”)在京圆满落下帷幕。这场由阿里云、NVIDIA联合主办的AI盛事,自启动以来便吸引了来自全国各地的顶尖高校、科研机构及科技企业的积极参与。经过数月的激烈角逐,10支队伍脱颖而出,斩获荣誉奖项。来自阿里巴巴通义实验室、NVIDIA、中国人民大学、华东师范大学等企业和高校的技术专家担任决赛评委,共同见证大赛成果的诞生。
近年来,随着大模型技术的加速发展,人工智能的底层技术架构持续迭代。在AI发展的初期,人们更多地聚焦于模型算法的创新与优化,然而,随着技术的不断成熟,数据的质量和治理情况逐渐成为决定AI性能的关键因素。据中科院声学所的张博士研究指出,在实际工程应用中,AI系统落地效果的好坏,仅有20%取决于算法本身,而其余80%则依赖于数据的质量。
对于多模态大模型的训练而言,其对数据的海量需求与网络数据资源的有限性之间的矛盾日益凸显。如何在有限计算资源下,借助已有的大模型技术,高效高质地合成训练数据,成为了产业界和学术界共同面临的挑战。在此背景下,“天池Better Synth-多模态大模型数据合成挑战赛”应运而生,作为Data-Juicer for LLMs系列赛的第四场比赛,旨在汇聚各方智慧,探索数据合成的新方法与新策略,共同推动多模态大模型技术的创新发展。
本次大赛周期2个月,采用线上初赛与线下决赛相结合的“赛训一体”模式。晋级队伍不仅有机会与来自阿里巴巴通义实验室、NVIDIA等顶尖团队的技术专家面对面交流学习,还能在主办方统一提供的设备上进行研发与调试,确保比赛的公平性与高效性。
大赛统一使用阿里巴巴通义实验室一站式大模型数据处理系统Data-Juicer,该系统可为参赛者提供了系统化、可复用的数据处理与生成工具,极大地提高了数据合成的效率与质量。同时,NVIDIA发布的综合性模型优化库TensorRT-Model-Optimizer等工具和FP8训练框架的加入,更是让模型训练和推理过程如虎添翼。
自2024年8月启动以来,大赛共吸引来自清华大学、北京大学、复旦大学、度小满等国内顶尖高校、科研机构和企业的1066支队伍参赛。其中既有人工智能相关专业的专科团队,也有深耕技术的行业老兵。经过层层筛选,最终有10支队伍脱颖而出,决战AI之巅。
比赛中也涌现出诸多创新方案。例如VLM队针对比赛基模特点,使用了SSIM来衡量合成数据的学习难易程度,能够使模型在小数据量下学习更好;而dxm小分队则使用了最前沿的Image Textualization技术来尝试从合成数据中改写并消除图文内容不对齐的幻觉,进一步提升模型的模态间对齐能力。
“天池Better Synth-多模态大模型数据合成挑战赛”正式收官,为参赛选手带来了宝贵的实战经验和交流机会,也为多元智慧的碰撞提供了平台,涌现出了更多数据合成的“解题思路”。随着技术不断发展,期待各方进一步构建“数据驱动的人工智能”的新高地,激发科研生态、助力产业落地,引领多模态大模型的创新发展。
教育部发布的相关数据显示2023年我国应届博士毕业生达到7.52万人此外另有2万多人在海外获得博士学位。选择国内读博的学子与选择留学读博的学子数量对比已接近四比一也就是平均每十位博士...
为推动青少年对足球运动的热情,同时促进青少年身体健康和全面发展。2022年1月,中国足球发展基金会与壹基金达成合作,开展中国足球发展基金会少儿围栏足球公益项目。项目以儿童发...
9月6日“天池多模态大模型数据合成挑战赛”(以下简称“大赛”)在京圆满落下帷幕。这场由阿里云、联合主办的盛事自启动以来便吸引了来自全国各地的顶...
年初教育部在2024年全国教育工作会议上提及我国目前博士研究生数量达61.2万人已成为高校科研的主力军博士留学申请也随之逐渐火热。跨区域、跨国读博正在成为备受年轻一代青睐的读博方式...
全球终身学习公司培生(.)宣布正式启动2024年培生英语教师奖评选。该奖项旨在表彰全球在教学中表现卓越、激励学生用英文勇敢表达自我的英语教师。...
近日在新疆维吾尔自治区阿克苏地区温宿县一场别开生面的夏令营——“慧学习筑梦未来”圆满落下了帷幕。此次夏令营由温宿县党委精心策划温宿县京师社会工作服务中心倾力执行并得到了新东方智慧教...
8月29日北京市经济和信息化局联合北京援藏指挥部通过“数字桥梁跨越喜马拉雅”以线上线下结合的方式举办北京、拉萨两地拉萨实验小学“基础教育信创教室”捐赠仪式。北京市经济和信息化局党组书记、...
2024年9月3日,金秋送爽,正值秋季开学的第一周,康师傅在上海市闵行区龙柏第一小学成功举办康师傅水教育校本课程“开学第一课”的启动仪式。这不仅标志着康师傅水教育项目在龙柏第一小学正式落地生...
行业资讯
课程资料包领取