用于大模型的首批中文底子语料库发布,人(ren)工智能,面(mian)向(xiang)社(she)会,企业(ye)
中新网北京12月(yue)21日电(dian) 中国网络空间(jian)平安协会人(ren)工智能平安管理(li)专业(ye)委员会20日正(zheng)在北京召开辟布会,面(mian)向(xiang)社(she)会发布用于大模型的首批中文底子语料库。
据(ju)悉,网安协会人(ren)工智能平安管理(li)专委会会同国度权威机构(gou),发挥(hui)企业(ye)、高校和(he)科研单位协同优势,经过“共建-共享”机制,汇聚一批高质量可信数据(ju),经已(yi)往重、过滤(lu)等技能手段,形成并对社(she)会发布首批120G中文底子语料,包括1亿(yi)余条数据(ju),500亿(yi)个token。用户登录中国网络空间(jian)平安协会网站,点击“中文底子语料库”链接(jie),经过注册、认证等程序(xu),就可以或许(xu)下载相(xiang)关语料。
网安协会人(ren)工智能平安管理(li)专委会负责人(ren)表示,语料库建设(she)是一项(xiang)长(chang)时间(jian)性、专业(ye)性的事情,需要遵循响应(ying)法例、标准(zhun)和(he)范(fan)例,需要合力共建、冲破创新,推动形成科学有效(xiao)的语料库汇聚、处(chu)置惩罚、使用机制,为国度人(ren)工智能技能创新和(he)产业(ye)进展赋能。
来自专委会成员单位、大模型备案机构(gou)和(he)相(xiang)关范(fan)畴科研、企业(ye)、社(she)会构(gou)造代表近100人(ren)参加发布会。