Mistral多模态大模型来了!12B,原生支撑恣意巨细/数量图画

09-12 422阅读 23评论

明敏 发自 凹非寺
量子位 | 大众号 QbitAI

Mistral的多模态大模型来了!

Pixtral 12B正式发布,一起具有言语和视觉处理才能。

Mistral多模态大模型来了!12B,原生支撑恣意巨细/数量图画

它建立在文本模型Nemo 12B基础上,包括一个专门的视觉编码器。

大约24GB,原生支撑恣意数量和尺度的图画,大约有40层神经网络、14,336 个躲藏维度巨细和32个注意力头,以及一个专用的视觉编码器,支撑高分辨率图画(1024×1024)处理。

发布方式仍是简略直接一个种子链接。

Mistral多模态大模型来了!12B,原生支撑恣意巨细/数量图画

现在能够经过链接、GitHub或Hugging Face下载模型。

Mistral的开发主管表明,后续也会在Chatbot上接入模型,并供给API服务。

Mistral多模态大模型来了!12B,原生支撑恣意巨细/数量图画

逾越Qwen、LLaVA等

尽管现在模型的练习数据、细节都未揭露,可是经过模型代码网友们发现了更多细节。

1、先进架构:40层网络、14336躲藏维度巨细、32个注意力头。

2、视觉才能:专用视觉编码器,支撑1024x1024图画巨细和24个躲藏层,用于高档图画处理。

3、更大词汇量:131072tokens,支撑更详尽言语了解和 生成。

4、运用GeLU(用于视觉适配器)和2D RoPE(用于视觉编码器)。

5、Patch巨细:16×16像素。

6、在mistral_common中支撑tokenizer。

7、模型权重bf16。

Mistral多模态大模型来了!12B,原生支撑恣意巨细/数量图画

与此一起,还有人在放出了Mistral发布会上发布的模型基准状况。

Mistral多模态大模型来了!12B,原生支撑恣意巨细/数量图画

Pixtral 12B和Qwen2-VL-7B、LLaVA-OV-7B、Phi-3 Vision做了比照。

多模态常识和推理、QA等方面都体现不错。

Mistral多模态大模型来了!12B,原生支撑恣意巨细/数量图画

欧洲版OpenAI估值达60亿美元

最近几个月Mistral的动作仍是十分密布的。

本年6月,他们经过股权债款融资完结约6.4亿美元B轮融资。估值已达60亿美元(折合人民币约420亿)。

完结融资后,他们便发布了Mistral Large 2旗舰模型、SMoE模型Mistral 8×22B以及开源模型Codestral等。

现在,微软、AWS、Snowflake等巨子均出资Mistral。尤其是微软的入股,使得Mistral成为OpenAI以外,微软Azure第二个商业闭源模型供货商。这也进一步夯实了Mistral“欧洲版OpenAI”的位置。

参阅链接:
[1]https://x.com/_philschmid/status/1833954941624615151
[2]https://venturebeat.com/ai/pixtral-12b-is-here-mistral-releases-its-first-ever-multimodal-ai-model/
[3]https://x.com/theresanaiforit/status/1833784474342977627

文章版权声明:除非注明,否则均为ZBLOG原创文章,转载或复制请以超链接形式并注明出处。

发表评论

快捷回复: 表情:
评论列表 (有 23 条评论,422人围观)
网友昵称:湘情
湘情 V 游客 沙发
明敏 发自 凹非寺量子位 | 大众号 QbitAIMistral的多模态大模型来了!Pixtral 12B正式发布,一起具有言语和视觉处理才能。它建立在文本模型Nemo 12B基础上,包括一个专门的视觉编码器。大约24GB,原生支撑恣意数量和尺度的图画,大约有40层神经网络、14,33
09-13 回复
网友昵称:惩罚,
惩罚, V 游客 椅子
、更大词汇量:131072tokens,支撑更详尽言语了解和 生成。4、运用GeLU(用于视觉适配器)和2D RoPE(用于视觉编码器)。5、Patch巨细:16×16像素。6、在mistral_common中
09-13 回复
网友昵称:温柔琴师
温柔琴师 V 游客 板凳
m/_philschmid/status/1833954941624615151[2]https://venturebeat.com/ai/pixtral-12b-is-here-mistral-release
09-13 回复
网友昵称:敌可是现实
敌可是现实 V 游客 凉席
-mistral-releases-its-first-ever-multimodal-ai-model/[3]https://x.com/theresanaiforit/status/1
09-13 回复
网友昵称:清欢渡
清欢渡 V 游客 地板
lake等巨子均出资Mistral。尤其是微软的入股,使得Mistral成为OpenAI以外,微软Azure第二个商业闭源模型供货商。这也进一步夯实了Mistral“欧洲版OpenAI”的位置。参阅链接:[1]https://x.com/_philschmid/status/
09-13 回复
网友昵称:迎菊客
迎菊客 V 游客 6楼
载模型。Mistral的开发主管表明,后续也会在Chatbot上接入模型,并供给API服务。逾越Qwen、LLaVA等尽管现在模型的练习数据、细节都未揭露,可是经过模型代码网友们发现了更多细节。1、先进架构:40层网络、14336躲藏维度巨细
09-13 回复
网友昵称:剪剪清风
剪剪清风 V 游客 7楼
、Snowflake等巨子均出资Mistral。尤其是微软的入股,使得Mistral成为OpenAI以外,微软Azure第二个商业闭源模型供货商。这也进一步夯实了Mistral“欧洲版OpenAI”的位置。参阅链接:[1]https://x.com/_philschmid/
09-13 回复
网友昵称:源来你在这
源来你在这 V 游客 8楼
2B基础上,包括一个专门的视觉编码器。大约24GB,原生支撑恣意数量和尺度的图画,大约有40层神经网络、14,336 个躲藏维度巨细和32个注意力头,以及一个专用的视觉编码
09-13 回复
网友昵称:不二棒棒糖
不二棒棒糖 V 游客 9楼
结约6.4亿美元B轮融资。估值已达60亿美元(折合人民币约420亿)。完结融资后,他们便发布了Mistral Large 2旗舰模型、SMoE模型Mistral 8×22B以及开源模型Codestral等。现在,微软、AWS、Snowflake等巨子均出资Mistral。尤其是微软的
09-13 回复
网友昵称:笑着路过
笑着路过 V 游客 10楼
2B基础上,包括一个专门的视觉编码器。大约24GB,原生支撑恣意数量和尺度的图画,大约有40层神经网络、14,336 个躲藏维度巨细和32个注意力头,以及一个专用的视觉编码
09-13 回复
网友昵称:兰席琴寸
兰席琴寸 V 游客 11楼
tral 12B和Qwen2-VL-7B、LLaVA-OV-7B、Phi-3 Vision做了比照。多模态常识和推理、QA等方面都体现不错。欧洲版OpenAI估值达60亿美元最近几个月Mistral的动作仍是十分密布的。本年6月,他们经过股权债款融资完结约6.4亿美元B轮融资。估值已达60亿
09-13 回复
网友昵称:尽情吩咐佬孜
尽情吩咐佬孜 V 游客 12楼
恣意数量和尺度的图画,大约有40层神经网络、14,336 个躲藏维度巨细和32个注意力头,以及一个专用的视觉编码器,支撑高分辨率图画(1024×1024)处理。发布方式仍是简略直接一个种子链接。现在能够经过链接、GitHub或Hug
09-13 回复
网友昵称:忘了或记得
忘了或记得 V 游客 13楼
E模型Mistral 8×22B以及开源模型Codestral等。现在,微软、AWS、Snowflake等巨子均出资Mistral。尤其是微软的入股,使得Mistral成为OpenAI以外,微软Azure第二个商业闭源模型供货商。这也进一步夯实了Mistral
09-13 回复
网友昵称:玩伴ι
玩伴ι V 游客 14楼
024×1024)处理。发布方式仍是简略直接一个种子链接。现在能够经过链接、GitHub或Hugging Face下载模型。Mistral的开发主管表明,后续也会在Chatbot上接入
09-13 回复
网友昵称:几番轮回
几番轮回 V 游客 15楼
wen、LLaVA等尽管现在模型的练习数据、细节都未揭露,可是经过模型代码网友们发现了更多细节。1、先进架构:40层网络、14336躲藏维度巨细、32个注意力头。2、视觉才能:专用视觉编码器,支
09-13 回复
网友昵称:盛媛薇
盛媛薇 V 游客 16楼
ke等巨子均出资Mistral。尤其是微软的入股,使得Mistral成为OpenAI以外,微软Azure第二个商业闭源模型供货商。这也进一步夯实了Mistral“欧洲
09-13 回复
网友昵称:九亿少女的梦
九亿少女的梦 V 游客 17楼
维度巨细和32个注意力头,以及一个专用的视觉编码器,支撑高分辨率图画(1024×1024)处理。发布方式仍是简略直接一个种子链接。现在能够经过链接、GitHub或Hugging Face下载模型。Mistral的开发主管表明,后续也会在Chatbot上接入模型,并供给API服务。逾越Qwen、L
09-13 回复
网友昵称:光年
光年 V 游客 18楼
leases-its-first-ever-multimodal-ai-model/[3]https://x.com/theresanaiforit/status/1833784474342
09-13 回复
网友昵称:晚风不要停
晚风不要停 V 游客 19楼
,包括一个专门的视觉编码器。大约24GB,原生支撑恣意数量和尺度的图画,大约有40层神经网络、14,336 个躲藏维度巨细和32个注意力头,以及一个专用的视觉编码器,支撑高分辨率图画
09-13 回复
网友昵称:我病态i
我病态i V 游客 20楼
躲藏维度巨细和32个注意力头,以及一个专用的视觉编码器,支撑高分辨率图画(1024×1024)处理。发布方式仍是简略直接一个种子链接。现在能够经过链接、GitHub或Hugging Face下载模型。Mistral的开发主管表明,后续也会在Chatbot上接入模型,并供给API服务。逾越Qw
09-13 回复
网友昵称:旧人怎忘i
旧人怎忘i V 游客 21楼
明敏 发自 凹非寺量子位 | 大众号 QbitAIMistral的多模态大模型来了!Pixtral 12B正式发布,一起具有言语和视觉处理才能。它建立在文本模型Nemo 12B基础上,包括一个专门的视觉编码器。大
09-13 回复
网友昵称:卜翊瑛
卜翊瑛 V 游客 22楼
源模型供货商。这也进一步夯实了Mistral“欧洲版OpenAI”的位置。参阅链接:[1]https://x.com/_philschmid/status/1833954941624615151[2]https://venturebeat.com/ai/pixtral-12b-is-here-m
09-13 回复
网友昵称:吃素的蚊子
吃素的蚊子 V 游客 23楼
明敏 发自 凹非寺量子位 | 大众号 QbitAIMistral的多模态大模型来了!Pixtral 12B正式发布,一起具有言语和视觉处理才能。它建立在文本模型Nemo 12B基础上,包括一个专门的视觉编码器。大约24GB,原生支撑恣意数量和尺度的图画,大约有40层神经网络、1
09-12 回复