5月30日最新消息:俄罗斯科技巨头Yandex昨日重磅推出全球规模最大的音乐推荐系统开源数据集——Yambda,该数据集涵盖了479亿条匿名用户的交互记录,为开发者打造智能音乐服务提供了宝贵资源。
据悉,Yandex耗时十个月精心打造了这一数据集,采集了近2800万月度活跃用户的行为数据。这些数据不仅包括用户与平台上的939万首歌曲产生的479亿次互动记录,更包含了大量关键反馈信息。每一条交互记录都精确到时间戳,确保了数据的高可信度。
目前,Yambda数据集已正式登陆Hugging Face平台,面向全球开发者提供三种规模的版本:Yambda-5B(50亿交互记录)、Yambda-500M(5亿交互记录)和Yambda-50M(5千万交互记录)。其中,最大的5B版本数据集大小约为85GB,特别适合研究机构使用。
值得注意的是,该数据集采用行业领先的Apache Parquet格式存储,便于高效处理和分析。开发者可以利用这些数据来训练和优化音乐推荐算法,打造类似Spotify等流媒体平台的智能推荐功能。
据了解,在线音乐 streaming 服务如 Spotify 和 Tidal 都将音乐推荐算法视为核心商业机密,通常不会对外开放相关代码或模型。而Yandex此次开放的Yambda数据集无疑为全球音乐科技领域提供了极具价值的研究素材和开发资源。
© 版权声明
文章版权归作者所有,未经允许请勿转载。