上海人工智能实验室发布多模态语料

微云疏影 2023-08-17 579

　　近日，上海人工智能实验室发布联合语言资料数据联盟会员单位，共同发布“生万权”1.0多模式词典训练语言资料开源。

　　“书生·万卷”1.0将集中语言资料数据联盟会员们丰富的内容积累和上海人工智能实验室的数据处理能力等优势，为学术界及产业界提供高品质的大规模模型多模态事前训练语言资料。开放源代码提供2tb以上的数据，多种融合，精细处理，价值排序，使用方便高效。

　　此次开放源代码“书生·万卷”1.0包含文本、图片、文本和视频三部分数据集。其中，文本数据来自网页，百科全书，书籍，专利，教材，考试题等，数据总量超过5亿个，数据大小也超过1tb，涵盖科技，文学，媒体，教育，法律等多个领域。

　　图像和文字数据主要来自公开网页，经过处理形成图像和文字交叉的文件。总数字超过2200万个，数据大小超过140gb，涵盖新闻事件、人物、自然景观、社会生活等多个领域。

　　视频数据主要是中国中央电视台（cctv）和上海文广集团提供，新闻、电影、电视等多种类型的节目，包括视频，视频文件总数超过1000个，数据大小超过900gb，内容是军事、文艺、体育、自然、知识、影像艺术等领域覆盖着。

打开APP阅读更多精彩内容