金融情报局网_中国金融门户网站 让金融财经离的更近

ChatGLM-6B V2开源(可申请商用);快HF24倍+高吞吐量LLM推理库vllm开源

当前位置:金融情报局网_中国金融门户网站 让金融财经离的更近>房产 > 正文  2023-06-26 21:41:53 来源:哔哩哔哩

本周带来的 个模型项目分别用于中英对话、视觉分割、文本到图像生成、视频生成等;个工具项目用于大型语言模型推理、3D场景生成、问答系统构建;1 个数据集用于医学视觉问答。

ChatGLM-6B第二代版本发布,中英双语对话性能大幅提升,支持更长上下文和更高效推理,权重开放商业使用

近日,ChatGLM-6B 发布第二代版本 ChatGLM2-6B,该模型支持中英对话,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础上,引入了更强大的性能、更长的上下文、更高效的推理和更开放的协议等新特性。其中,ChatGLM2-6B 在 MMLU、CEval、GSM8K、等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。ChatGLM2-6B 的上下文长度扩展到了 32K,并使用 8K 的上下文长度训练,允许更多轮次的对话。基于 Multi-Query Attention 技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用。ChatGLM2-6B 的权重对学术研究完全开放,申请后可允许商业使用。


【资料图】

获取资源:

/project/chatglm2-6b

伯克利开源高吞吐量LLM推理服务库vllm,比HF Transformers高出最多24倍,与HuggingFace模型无缝集成

vllm 是一款易于使用、快速且廉价的 LLM(Language Model)服务库。它的吞吐量比 HuggingFace Transformers 高出最多 24 倍,比 Text Generation Inference 高出最多 倍,具有出色的推理吞吐量、对注意力键和值内存的高效管理、动态批处理、优化的 CUDA 内核等特点。vllm 能够与流行的 HuggingFace 模型无缝集成,支持高吞吐量的服务和各种解码算法,并提供 Tensor 并行支持和流式输出。它支持多种 HuggingFace 模型,包括 GPT-2、GPTNeoX、LLaMA 和 OPT。

获取资源:

/project/vllm

艾伦人工智能实验室等提出大模型集成框架LLM-Blender,通过集合多个开源大模型来提高模型性能

LLM-Blender 是一个大型模型集成框架,旨在帮助开发者通过集合多个开源大型模型的优势来提高模型性能。该框架包含两个模块:PairRanker 和 GenFuser。PairRanker 模块基于 BERT 结构的编码器,通过双向注意机制对不同模型的输出结果进行比较排序。GenFuser 模块将排名前 N 的输出结果进行融合生成,从而生成最佳答案。LLM-Blender 通过减少单个模型的弱点和整合多个模型的优势来提高模型性能,是一个创新集成框架。

获取资源:

/project/llm-blender

中科院发布SAM的高效替代模型FastSAM,用2%的数据集训练,可在50倍速度下实现与SAM相当的性能

SAM 在图像分割、图像描述和图像编辑等高级任务中已经产生了重大影响,但该模型所需巨大的计算成本使得它无法广泛应用于工业场景中。FastSAM 是一种用于计算机视觉任务的高效 Segment Anything Model(SAM)的替代方法。FastSAM 是一个 CNN Segment Anything Model,仅使用 SAM 作者发布的 2%的 SA-1B 数据集进行训练,可以在 50 倍的运行时速度下实现与 SAM 方法相当的性能。

获取资源:

/project/fastsam

Stability AI发布Stable Diffusion新版本,包括35 亿+66亿双模型,生成图像质量大幅提升

Stability AI 发布 Stable Diffusion 的 XL 版本(SDXL ),搭载最大 OpenCLIP,大幅提升图片生成的质量,参数上, 具有 35 亿参数基础模型和 66 亿参数模型。相比之前版本,SD-XL 具有以下改进:使用较短的描述性 prompt 即可生成高质量图像;可以生成更贴合 prompt 的图像;图像中的人体结构更合理;与之前版本相比,生成的图片更符合大众审美;负面提示词是可选项;生成的肖像图更逼真;图像中的文本更清晰。

获取资源:

/project/sd-xl

普林斯顿大学提出自动化生成自然界3D场景的生成器Infinigen,可用于生成各种视觉任务的多样化训练数据

大规模标记数据对计算机视觉进展是非常具有重要性的,可以通过生成带有高质量标签的无限数量的合成数据来达成。然而,目前公开的合成数据集通常只涵盖狭窄的物体和形状范围,而且多为室内环境或人造对象。为此,普林斯顿大学的研究者们提出自动化生成自然界逼真 3D 场景的程序生成器 Infinigen,可用于生成各种计算机视觉任务的无限多样化的训练数据,包括目标检测、语义分割、光流和三维重建。

获取资源:

/project/infinite

指令跟随大规模语言模型BayLing,支持多语言性能媲美,适用于翻译、写作和创作等任务

BayLing 是一个指令跟随大规模语言模型,通过对 LLM 的基础模型进行语言特定的训练和指令构建,实现了对非英语语言的支持,同时拥有强大的语言生成和指令跟随能力。BayLing 使用 LLaMA 作为基础模型,并自动构建交互翻译指令进行指令调优。在多轮指令测试集 BayLing-80 上的实验结果显示,BayLing 的性能达到了 的 89%。此外,BayLing 在中文高考和英文 SAT 的知识评估中表现出色,仅次于 。BayLing 可以在 16GB 显存的消费级 GPU 上部署,帮助用户完成翻译、写作、创作、建议等任务。

获取资源:

/project/bayling

武汉大学发布金融技术应用项目PIXIU,涵盖金融大模型、指令调优数据、全面评估的基准

金融技术 (FinTech) 中自然语言处理 (NLP) 和机器学习 (ML) 技术的进步实现了从预测股价走势到高级金融分析的多种功能。PIXIU 项目中开源了金融大型语言模型 、指令调优数据和评估基准,旨在提高金融领域中 NLP 和 ML 技术的应用效果。该项目了金融大模型 FinMA,其使用 PIXIU 中构建的数据集微调 LLaMA;大规模、高质量的多任务、多模态金融指令调优数据 FIT;用于评估金融大模型的评估基准 FLARE。

获取资源:

/project/pixiu

开源企业级问答系统Danswer,支持自然语言提问和多种常见工具连接,可一键部署和个性化搜索

Danswer 是一个开源企业级问答系统,支持自然语言提问和多种常见工具连接,包括直接问答、智能文档检索和 AI 助手等功能。Danswer 支持用户认证和文档级的访问管理,提供个性化搜索和一键部署等特性。使用最新的 LLMs 实现了智能文档检索和 AI 助手,支持 Slack、GitHub、Confluence 等多种工具连接。Danswer 还提供管理仪表板,方便管理连接器和设置实时更新等功能。只需一行 Docker Compose(或 Kubernetes)部署,即可在任何地方托管 Danswer。

获取资源:

/project/danswer

可控视频扩散模型VideoComposer,实现同时控制空间和时间模式的视频合成

VideoComposer 是一种可控的视频扩散模型,可让开发者在各种形式的合成视频中同时灵活地控制空间和时间模式,如文本描述、草图序列、参考视频,甚至是简单的手工动作和手绘图。VideoComposer 基于组合生成范例,通过引入压缩视频中的运动向量作为明确的控制信号,提供关于时间动态的指导,从而克服了实现可控视频合成的挑战。同时,通过空间-时间条件编码器(STC-encoder),提高了模型利用时间条件的效果,实现了更高的帧间一致性。VideoComposer 能够在各种形式的合成视频中同时控制空间和时间模式,如文本描述、草图序列、参考视频,甚至是简单的手工动作和手绘图。

获取资源:

/project/videocomposer

大规模医学视觉问答数据集PMC-VQA,涵盖多种模态/疾病的149k张图像,包含227k个VQA对

缺乏大规模、多模态的医学视觉问答数据集是有效生成 MedVQA 模型的重要障碍。PMC-VQA 是一个大规模医学视觉问答数据集,包含 149k 张图像和 227k 个 VQA 对,覆盖了多种模态和疾病。PMC-VQA 使用一种可扩展和自动化的方法创建得到,其使用 PMC-OA 作为源数据,通过 ChatGPT 自动生成高质量的问答对,并经过严格过滤和格式化,最终获得了 1,497,808 个问题-答案对。这些问答对与原始图像的链接自然地找到对应的图像,平均每张图像有 个问答对。PMC-VQA 数据集的构建旨在为医学视觉问答研究和应用提供更加丰富和真实的数据支持。

获取资源:

/project/pmc-vqa

网页端访问:在浏览器地址栏输入新版站点地址 ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。 

移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。

关键词:

相关内容