医学人文周系列活动
智疗:医在未来
智能赋能科普-软件篇
主办单位:“久脉”健康科普计划
欢迎来到 未来医疗时代……
在这里,你会了解如何用AI:
📸 无中生有图像合成
🗣️ 静中有动人物说话
🎥 动画呈现视频转换
我们将为您介绍
相关功能常用的软件
并且推出我们开发的
科普智能推送系统
“小e”
和我们一起
探索医学与智能的魔幻世界!
01
AI作图:
Stable Diffusion
SD能做什么?
你知道吗,AI的笔下有一个世界呢!
图像生成领域最常见生成模型有GAN和VAE,2020年,DDPM(Denoising Diffusion Probabilistic Model)被提出,被称为扩散模型(Diffusion Model),同样可用于图像生成。近年扩散模型大热,Stability AI、OpenAI、Google Brain等相继基于扩散模型提出的以文生图,图像生成视频生成等模型。
图:扩散模型原理
诸多扩散模型中,最广为人知的开源模型便是Stable Diffusion。利用B站up主秋叶的“绘世启动器”(以下简称“绘世”),我们可以完成这样的图片:
图:古风大模型
图:真人大模型
图:蜡笔风格大模型
SD使用方法
图:SD工作界面
- 首先选择底模/大模型。
- 一般使用默认VAE即可,如需特殊要求可更换VAE。
- 输入正向提示词及反向提示词。
- 迭代次数一般默认20到30之间,取决于你的计算机性能。
- 不同的采样方式决定了不同的结果,Euler a随机性较大,一般使用DPM系列的采样方式,++使用了二阶处理,对计算机算力有一定要求。
- 点击生成即可输出图片。
SD与医疗科普
在AI的世界里,你可以随意绘制你的思想,描述你的梦境,这种宛如“造梦师”一般的能力带给我们医疗科普领域的,是极大的便利。
科普推送的制作需要大量的图文,传统人力绘图的方式需要极为繁琐的工作量,对绘画者的技术也有很高的要求。然而在“绘世”中,仅仅需要设置一个参数,调整一下底模,点击生成就可以轻松得到一张非常精美的图片啦。
而在一些线下宣讲、动画制作中,往往需要设计一些独属于我们的医学符号,没有设计师天赋可怎么办,好头疼。不怕,“绘世”帮你一键搞定。利用LoRa技术生成制定画风的人物,再次利用三视图的LoRa就可以获得人物三视图。
02
AI配音:
HeyGen
HeyGen是什么
HeyGen作为数字人赛道的一个重磅软件,与SD大型人模型赛道的算法编码不同,HeyGen其本身其实可以理解为由多个AI智能模块组成的结果,当中就包括了对于影像中人物语音动作的识别与影像重构还有声纹特征识别以及语音合成。
HeyGen在医疗科普上重要的意义在于,可以让在线就诊的医生不再“冷冰冰”的,可以以医生本人的形象、甚至是患者定制的医生形象“说话”!HeyGen也能够通过翻译的方式,把科普作品“丝滑地”翻译成各种语言,让作品传播到更广阔的天地。
已关注
关注
重播分享赞
关闭
观看更多
更多
正在加载
正在加载
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
视频来源:Youtube “HeyGen”
HeyGen功能
– 语音动作识别与重构
- 从各路大神对HeyGen测试的视频来看,目前HeyGen生成的视频内容基本还是以访谈场景等单人、且人物动作比较单一的正脸内容为主。
- 这主要是因为HeyGen需要在识别视频中的语音内容的同时,分析人物嘴部动作,并利用抽取的嘴部动作素材来用于翻译后视频内容的合成使用。此外,HeyGen目前公开测试的新功能组件里就有通过虚拟合成的方式,生成高度拟真的人物头像语音短视频,未来可能可以看到更真实的虚拟形象与AI对话内容。
–声纹特征识别及语音合成
- “霉霉说地道中文”视频爆火的视频,就是使用预先学习、训练好的声纹模型去进行合成的。
- HeyGen的高级之处在于,它不需要声纹采集者通过录制指定的语音内容,仅凭用户提交的视频素材中人物的语音内容,就能生成一个相对简易的声纹特征模型,从而在后面的语音合成时,能用接近原人物声线来呈现翻译后的语音内容。
HeyGen使用方法
- HeyGen官网地址:
https://app.heygen.com/
1.建立人物模型:点入“Avatar”界面之后,可以在”Instant Avatar”里面挑选已经生成好的人物模型,可以在“Photo Avatar“里通过图片生成人物形象,或者通过”Studio Avatar”通过一段视频生成更精确的人物模型。
图:Avatar界面
2. 选择声音音频:进入”Voice”界面以后,音频风格选择是多样的,可以输入”My voice”生成一段自己风格的音频,也可以在”Public voice”选择既定风格直接使用。
图:Voice界面
3. 选择视频模板:最后在“Template“选择合适的模板,键入模型和输出音频对应的文字,就可以输出视频了。
图:Template界面
03
AI做视频:
Runway
Runway是什么?
Runway(Runway ML)是一个做视频的创意工具,它结合了人工智能技术,以简化和增强视觉、音频和文本内容的创作过程。今年2月,Runway推出了第二代模型Gen2,比一代功能更强大,并且仍然具有网页版、移动端版本,不用下载也可以轻松做视频,可以极大程度上简化做视频流程、增加科普趣味程度与丰富程度。
Runway视频功能
图:Runway主要视频功能
1. 根据视频生成视频(Video to Video)
- Runway内部拥有众多风格的动画模板,可以把自己的视频内容转换为动画模板的内容。今年大火的“瞬息全宇宙”风格视频大部分就是用Runway制作的。
- 利用视频生成视频功能,我们可以将录制的科普视频,转换成有趣的动画视频,增加趣味性。
已关注
关注
重播分享赞
关闭
观看更多
更多
正在加载
正在加载
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
视频来源:抖音“Taoosii”
2. 根据文字/照片生成视频(Text/Images to Video)
- 输入一段话,或者输入一张照片,Runway也可以直接帮你做一段视频。这就大大降低了视频制作的门槛。
- 直接告诉AI你想做什么,Runway可以给你各种风格的答案;剪辑在一起,就是一段有趣的故事。
已关注
关注
重播分享赞
关闭
观看更多
更多
正在加载
正在加载
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
视频来源:哔站UP主“CG迷李辰”
Runway使用教程
以视频转视频为例
1. 点入“Video to Video”界面之后,就会出现操作界面。左边可以插入我们已经录制好的视频,右边可以进行风格的选择。
图:Runway操作界面
2. 风格选择是多样的,可以输入图片风格(Image)/ 自带风格(Presets)/ 文字描述风格(Prompt)。
图:Runway风格选择
3. 然后选择风格强度(Style strength)和种子强度(Seed),就可以输出视频了。
图:Runway导出界面
04
ExploreMedAI
产品介绍
医学科普人工智能系统
ExploreMedAI 概念视频
已关注
关注
重播分享赞
关闭
观看更多
更多
正在加载
正在加载
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
医学之门厚重,医学知识枯燥。让民众理解医学术语、掌握健康知识,是实现健康中国的难点、痛点。瞄准这一“靶点”,本团队即将推出医学科普人工智能系统——ExploreMedAI,让这一困难不复存在。
这不只是一个桌面精灵
这不只是一个聊天软件
这不是传统意义上的专家系统
这不是随处可见的医疗科普
- ExploreMedAI,搭载最先进的transformer架构,基于清华大学开源的ChatGLM6B模型,由本地数据集微调制作而成,在语言交互上有十分优秀的性能,并且由于其量级轻的特点,完全可以在消费级显卡上运行,做到本地部署、离线使用。
- ExploreMedAI具有智能院前诊断功能,第一时间得到疾病的可能病因、诊断与治疗方法,在发病初期即刻缓解您的焦虑,为您排忧解难。
- ExploreMedAI采用最新目标检测模型Focus-DETR,利用计算机内置摄像头捕捉人像、识别用户特征。在确保精准度的同时实现轻量化,真正做到零延迟识别。利用3D建模预设虚拟形象动作与表情,可以与用户通过摄像头实时反馈互动,赋予人工智能生命体征。
- ExploreMedAI使用最新版的语音合成VITS模型进行合成,精确合成超过八百多种音色,告别一眼“AI”,满足用户个性化需求。
科幻风格聊天界面设计、机械键盘打字音效,感受科幻电影般的未来特效从指尖流过。
炫酷加载页面,医学并不枯燥!智能推荐系统,结合本团队风格各异的精美推送,真正做到让健康知识飞入寻常百姓家,传遍千家万户。
来源丨小学鸠










