病毒式虚拟助手 Maya 背后的初创公司 Sesame 发布了其基础 AI 模型

170
2025-03-14


人工智能公司 Sesame发布了令人印象深刻的逼真语音助手 Maya 的基础模型 。


该模型拥有 10 亿个参数(“参数”指模型的各个组件),采用 Apache 2.0 许可,这意味着它可以在商业上使用,几乎没有限制。根据Sesame 在 AI 开发平台 Hugging Face 上的描述,该模型称为 CSM-1B,可从文本和音频输入生成“RVQ 音频代码”。


RVQ 指的是“残差矢量量化”,这是一种将音频编码为离散标记(称为代码)的技术。RVQ 用于许多最近的 AI 音频技术,包括 Google 的 SoundStream 和 Meta 的 Encodec。


CSM-1B 使用Meta 的 Llama 系列模型作为主干,并配有音频“解码器”组件。Sesame 表示,CSM 的精细调整版本为 Maya 提供动力。


Sesame 在 CSM-1B 的Hugging Face和GitHub存储库中写道:“这里开源的模型是一个基础生成模型。它能够生成各种声音,但尚未针对任何特定声音进行微调 [...] 由于训练数据中的数据污染,该模型对非英语语言有一定的能力,但效果可能不太好。”


目前尚不清楚芝麻街使用了哪些数据来训练 CSM-1B。该公司没有透露。


值得注意的是,该模型没有真正的保障措施。芝麻开门有一个荣誉系统,只是敦促开发人员和用户不要使用该模型在未经他人同意的情况下模仿他人的声音,不要创建虚假新闻等误导性内容,也不要从事“有害”或“恶意”活动。


我在 Hugging Face 上试用了演示版,克隆我的声音只用了不到一分钟的时间。从此以后,我就可以随心所欲地发表演讲,包括有关选举和俄罗斯宣传等有争议的话题。


人工智能公司 Sesame发布了令人印象深刻的逼真语音助手 Maya 的基础模型 。


该模型拥有 10 亿个参数(“参数”指模型的各个组件),采用 Apache 2.0 许可,这意味着它可以在商业上使用,几乎没有限制。根据Sesame 在 AI 开发平台 Hugging Face 上的描述,该模型称为 CSM-1B,可从文本和音频输入生成“RVQ 音频代码”。


RVQ 指的是“残差矢量量化”,这是一种将音频编码为离散标记(称为代码)的技术。RVQ 用于许多最近的 AI 音频技术,包括 Google 的 SoundStream 和 Meta 的 Encodec。


CSM-1B 使用Meta 的 Llama 系列模型作为主干,并配有音频“解码器”组件。Sesame 表示,CSM 的精细调整版本为 Maya 提供动力。


Sesame 在 CSM-1B 的Hugging Face和GitHub存储库中写道:“这里开源的模型是一个基础生成模型。它能够生成各种声音,但尚未针对任何特定声音进行微调 [...] 由于训练数据中的数据污染,该模型对非英语语言有一定的能力,但效果可能不太好。”


目前尚不清楚芝麻街使用了哪些数据来训练 CSM-1B。该公司没有透露。


值得注意的是,该模型没有真正的保障措施。芝麻开门有一个荣誉系统,只是敦促开发人员和用户不要使用该模型在未经他人同意的情况下模仿他人的声音,不要创建虚假新闻等误导性内容,也不要从事“有害”或“恶意”活动。


我在 Hugging Face 上试用了演示版,克隆我的声音只用了不到一分钟的时间。从此以后,我就可以随心所欲地发表演讲,包括有关选举和俄罗斯宣传等有争议的话题。

79275
文章来源于网络,如有侵权请联系本站删除
精选二手好课
更多>>
年卡|低价出还有书
专升本
¥1800
次卡|沧州 木/电吉他一对一课程转让 线上线下均可
吉他课
¥2600
次卡|Hellokid纯欧美英语外教一对一
欧美英语外教一对一
¥12000
年卡|便宜转让
健身年卡+私教课
¥10000
次卡|低价转让
瑜伽
¥75
年卡|JS舞蹈(珠海井岸店)双项教练班年卡转让
古典舞,JAZZ,K-POP,HIPPOP
¥9000
年卡|注册会计师会计、审计、财管强化阶段课程转让
注册会计师
¥3680
次卡|广州奥园广场芒果健身私教课转让
康复课、常规私教课
¥7500
次卡|瑜伽课转让
小班课
¥4263
年卡|大刊牛文课转让
大刊牛文课
¥1000
73
AI资讯

病毒式虚拟助手 Maya 背后的初创公司 Sesame 发布了其基础 AI 模型

收录于合集


人工智能公司 Sesame发布了令人印象深刻的逼真语音助手 Maya 的基础模型 。


该模型拥有 10 亿个参数(“参数”指模型的各个组件),采用 Apache 2.0 许可,这意味着它可以在商业上使用,几乎没有限制。根据Sesame 在 AI 开发平台 Hugging Face 上的描述,该模型称为 CSM-1B,可从文本和音频输入生成“RVQ 音频代码”。


RVQ 指的是“残差矢量量化”,这是一种将音频编码为离散标记(称为代码)的技术。RVQ 用于许多最近的 AI 音频技术,包括 Google 的 SoundStream 和 Meta 的 Encodec。


CSM-1B 使用Meta 的 Llama 系列模型作为主干,并配有音频“解码器”组件。Sesame 表示,CSM 的精细调整版本为 Maya 提供动力。


Sesame 在 CSM-1B 的Hugging Face和GitHub存储库中写道:“这里开源的模型是一个基础生成模型。它能够生成各种声音,但尚未针对任何特定声音进行微调 [...] 由于训练数据中的数据污染,该模型对非英语语言有一定的能力,但效果可能不太好。”


目前尚不清楚芝麻街使用了哪些数据来训练 CSM-1B。该公司没有透露。


值得注意的是,该模型没有真正的保障措施。芝麻开门有一个荣誉系统,只是敦促开发人员和用户不要使用该模型在未经他人同意的情况下模仿他人的声音,不要创建虚假新闻等误导性内容,也不要从事“有害”或“恶意”活动。


我在 Hugging Face 上试用了演示版,克隆我的声音只用了不到一分钟的时间。从此以后,我就可以随心所欲地发表演讲,包括有关选举和俄罗斯宣传等有争议的话题。


人工智能公司 Sesame发布了令人印象深刻的逼真语音助手 Maya 的基础模型 。


该模型拥有 10 亿个参数(“参数”指模型的各个组件),采用 Apache 2.0 许可,这意味着它可以在商业上使用,几乎没有限制。根据Sesame 在 AI 开发平台 Hugging Face 上的描述,该模型称为 CSM-1B,可从文本和音频输入生成“RVQ 音频代码”。


RVQ 指的是“残差矢量量化”,这是一种将音频编码为离散标记(称为代码)的技术。RVQ 用于许多最近的 AI 音频技术,包括 Google 的 SoundStream 和 Meta 的 Encodec。


CSM-1B 使用Meta 的 Llama 系列模型作为主干,并配有音频“解码器”组件。Sesame 表示,CSM 的精细调整版本为 Maya 提供动力。


Sesame 在 CSM-1B 的Hugging Face和GitHub存储库中写道:“这里开源的模型是一个基础生成模型。它能够生成各种声音,但尚未针对任何特定声音进行微调 [...] 由于训练数据中的数据污染,该模型对非英语语言有一定的能力,但效果可能不太好。”


目前尚不清楚芝麻街使用了哪些数据来训练 CSM-1B。该公司没有透露。


值得注意的是,该模型没有真正的保障措施。芝麻开门有一个荣誉系统,只是敦促开发人员和用户不要使用该模型在未经他人同意的情况下模仿他人的声音,不要创建虚假新闻等误导性内容,也不要从事“有害”或“恶意”活动。


我在 Hugging Face 上试用了演示版,克隆我的声音只用了不到一分钟的时间。从此以后,我就可以随心所欲地发表演讲,包括有关选举和俄罗斯宣传等有争议的话题。

79275
收录于合集
文章来源于网络,如有侵权请联系本站删除
二手好课
更多>>
年卡|低价出还有书
专升本
¥1800
次卡|沧州 木/电吉他一对一课程转让 线上线下均可
吉他课
¥2600
次卡|Hellokid纯欧美英语外教一对一
欧美英语外教一对一
¥12000
年卡|便宜转让
健身年卡+私教课
¥10000
次卡|低价转让
瑜伽
¥75
年卡|JS舞蹈(珠海井岸店)双项教练班年卡转让
古典舞,JAZZ,K-POP,HIPPOP
¥9000
年卡|注册会计师会计、审计、财管强化阶段课程转让
注册会计师
¥3680
次卡|广州奥园广场芒果健身私教课转让
康复课、常规私教课
¥7500
次卡|瑜伽课转让
小班课
¥4263
年卡|大刊牛文课转让
大刊牛文课
¥1000