微软为AI补课:抢救欧洲小语种

AI资讯4天前发布 ainav
13 0

微软于7月22日在巴黎宣布了两项重要计划,旨在保护欧洲的语言和文化遗产,并在人工智能时代增强欧洲的竞争实力。这些举措是对公司先前提出的“欧洲数字承诺”的延续与升级,该承诺主要围绕扩展人工智能技术、加强云基础设施建设、强化数据隐私保护以及提升网络安全性四大核心领域展开。微软的最新行动核心目标是提高欧洲语言与文化资源在全球互联网上的可及性,并在大语言模型(LLMs)中得到充分展现。

微软为AI补课:抢救欧洲小语种

欧洲拥有超过200种语言,承载着数千年的文化积淀,这些语言为创意表达、商业活动、科技创新和跨境贸易提供了坚实基础。然而,随着网络内容日益以英语为主导,并且多带有美式视角的倾向,使得欧洲的文化与商业在数据训练失衡的情况下面临被边缘化的风险。微软副董事长兼总裁布拉德·史密斯(Brad Smith)强调:“如果人工智能无法理解欧洲的语言、历史和价值观,它就无法真正服务于欧洲的人民、企业和未来。”

数据显示,这种失衡现象在模型评估中表现得尤为明显。以开源模型Llama 3.1为例,在希腊语上的得分比英语低15分以上,而在拉脱维亚语上更是低出25分之多,呈现出典型的‘英语最优、希腊语中等、拉脱维亚语最低’的分级模式,这种现象在主流大语言模型基准测试中普遍存在。

微软为AI补课:抢救欧洲小语种

为改变这一现状,微软将在其位于法国斯特拉斯堡的创新中心集中资源力量,基于Microsoft Azure平台开发和整理多语言数据集。由微软开放创新中心(MOIC)与AI for Good Lab团队携手全欧洲的文化机构、学术伙伴及技术企业,将重点增加包括爱沙尼亚语、阿尔萨斯语、斯洛伐克语、希腊语和马耳他语等在内的10种使用人口较少的欧洲语言的训练数据集。

此外,微软还面向公众发布了提案征集活动,旨在寻找可用于人工智能开发的数字文本、转录资料及其他相关资源。所有入选项目将获得Azure积分及专业技术支持。申请通道将于2025年9月1日在AI for Good Lab官方网站正式开启。

在文化遗产数字化方面,微软宣布将在今年秋季扩展“Culture AI”项目,与法国文化部和专业遗产数字化机构Iconem合作,为拥有862年历史的巴黎圣母院创建高精度数字孪生模型。此前,“Culture AI”项目已成功完成了对希腊古奥林匹亚、法国圣米歇尔山、罗马圣彼得大教堂以及诺曼底盟军登陆海滩等重要文化遗产的数字化保护工作。

微软指出,这些新举措建立在其40多年的本地化经验基础之上:目前Windows系统支持90多种语言,涵盖了欧盟所有官方语言以及巴斯克语、加泰罗尼亚语、加利西亚语、卢森堡语和瓦伦西亚语等地区性语言;Microsoft 365的Office界面也提供了超过30种欧洲语言版本。通过将欧洲的语言与文化资源深度融入人工智能技术和云平台,微软既致力于守护欧洲大陆的文化遗产,同时也旨在为欧洲的企业和个人在数字时代赋能。

微软方面重申,这些行动均以“支持性”角色展开:提供开放的数据、工具与专业知识,而不涉及任何专有资产的输出。

© 版权声明

相关文章