Learn Linux Kernel
了解操作系统基本概念。如果不会,可以学习《操作系统:设计与实现》Andrew S.Tanenbaum 写的那本。以MINIX为例子讲解操作系统的概念。非常推荐。
有了操作系统的基本概念以后,可以了解Linux的机制了。推荐《Linux内核设计与实现》Robert Love 写的。这本书从概念上讲解了Linux有什么,他们是怎么运行的。这本书要反复认真看透。
有了Linux内核的了解,还需要具体研究Linux内核源码。经典的就是《深入理解Linux内核》Daniel P. Bovet 写的。学习这本书的时候,要对着内核代码看着学。这本书学起来相当费力了,那么多多代码要研究。不过这本书如果学明白了,恭喜你,Linux内核你已经很熟悉了。
如果要开发设备驱动,可以学习《linux设备驱动程序》O’Reilly出版社的。这本作为驱动的入门是很好的资料。另外还有一本《精通Linux 驱动程序开发》也是不错的教材,可以参考着看。学习驱动,免不了要学习一些硬件的协议和资料,研究哪个就找到相应的硬件文档,把硬件的工作原理搞明白。这些就不细说了。
网络部分,学些L ...
Programming Language
Programming Skill
pwn.college: Learn to hack
Programming Paradigm
Design Pattern
REFACTORING GURU: Design Pattern
Object-Oriented Programming
GeeksforGeeks: Object Oriented Programming in C++
面向对象三大特征之多态 - 一隻小菜鳥的文章 - 知乎
3D Reconstruction
Learning Roadmap
三维视觉包含哪些研究内容,学习路线是什么? - 平凡的兵的回答 - 知乎
90 【关于三维重建的最新创新点 - 西西学长会辅导
idea这不就有了!CVPR 2024 扩散模型diffusion最新最全汇总!6万字!40+方向100篇! - 机器学习与AI生成的文章 - 知乎
ECCV 2024 | 真妙!21项工作用diffusion扩散模型做3D视觉! - 机器学习与AI生成的文章 - 知乎
MIT最新开源!MiDiffusion:最精确的室内3D场景合成 - 3D视觉工坊的文章 - 知乎
3D Gaussian Splatting
awesome-3D-gaussian-splatting
3DGS Github
Diffusion
首先是采样部分。你把一个照片不断加噪音,让它糊掉,于是你得到了一串从清晰到全糊的一串照片。
然后训练的部分,你弄一个AI。你拿相邻的两张照片,比如一张糊了一点和糊了一些的照片放到AI面前,或者95%糊和100%纯gaussian noise给它看,让它找规律。它见得多了,对于任意一张清晰到白噪音的照片,它都能“想起”或者“生成”一张稍微再清晰一点的照片。
最后生成的时候,你拿一张白噪音给它,它就想起自己之前看过的95糊到全糊的训练样本,然后给你一张95糊的。你再把95糊的给它,还你90糊的,以此类推。让它重复个几十次,到最后就给你一张全清晰的。
注意,信息是由网络注入到白噪音里的。
Diffusion Forcing的讲解
对于behavior cloning + noisy data的场景很适合,也许可以用在拟人化的对话生成任务
这个似乎还能结果“幻觉”问题,之前的Diffusion容易出现缺乏局部相关性的问题,这个模型可以解决。
Paper
-【Diffusion】Alignment of Diffusion Models: Fundamentals, ...
Sequence Model
Next-token Prediction Models
这两个缺点涉及到next-token prediction models(即基于下一个token预测的模型,如GPT等)在训练和应用中的局限性。我们可以逐一解释:
缺点1:无法引导序列采样以最小化特定目标
解释:在当前的next-token prediction模型中,模型通过teacher forcing(教师强制)进行训练,即模型在每一步预测下一个token时,都基于真实的、正确的历史token序列(ground truth history)。然而,这种训练方式没有提供一种机制来引导模型在生成序列时优化特定的目标函数。
例子:假设我们希望生成的序列满足某种特定的条件(例如,生成的文本需要包含某些关键词,或者生成的视频需要满足某种视觉质量指标)。当前的模型无法在生成过程中主动优化这些目标,因为它只是简单地预测下一个token,而没有全局的优化能力。
问题:模型缺乏对生成过程的全局控制,无法在生成过程中动态调整以最小化某些目标(如生成质量、多样性等)。
缺点2:在连续数据上容易不稳 ...
3D Digital Human
awesome-digital-human
基于神经网络的生成式三维数字人研究综述 - Shark19的文章 - 知乎
天津Valse2022-三维数字人生成:交互性、沉浸性与创造性-刘烨斌-清华大学 - 阿帆阿帆的文章 - 知乎
Open source projects
几个数字人开源项目,值得一看👍 - Open Github社区的文章 - 知乎
1.视频驱动肖像动画框架:LivePortrait 13.7k⭐
项目地址:https://github.com/KwaiVGI/LivePortrait
开源时间:2024-07-04
最后更新:2025-01-01
主要语言:Python
项目分类:[AI]
项目标签:[AI生成] [数字人]
推荐理由:视频驱动肖像动画框架,专注于更好的泛化性、可控性和实际使用的效率。为了提高生成质量和泛化能力,我们将训练数据扩展到约 6900 万个高质量帧,采用混合图像 - 视频训练策略,升级网络架构,并设计更好的运动变换和优化目标。
1.1 静态图像生成肖像动画:
1.2 肖像视频合成:
通过结合上文推 ...
Embodied AI
具身智能/机器人实习、硕博信息(长期更新)
具身智能入门
22 【入坑具身智能?把这几节课学了就够了! - 许华哲Harry
Courses
机器人入门(图3) 比较推荐西北大学的现代机器人学(modern robotics),有配套的youtube视频,而且比较轻量级,很适合了解机器人学基本知识。正逆运动学、动力学、各种space等等。
人工智能入门(图4) 推荐伯克利课号CS188,是比较基础的人工智能入门课程。适合快速刷一遍,比如里面的搜索、min-max剪枝等等可以跳过(算法课学过),里面的粒子滤波,卡尔曼滤波,等等可以用心看看,蛮有趣的。
机器学习入门(图5) 推荐斯坦福马腾宇老师的CS229,整体对机器学习的理论可以建立体系,推荐一定做一下作业哦~
深度学习/计算机视觉入门(图6) 推荐斯坦福李飞飞老师的CS231N,手写神经网络回传,了解各种基本网络结构和最新深度学习模型。基本是搞具身智能的必备基本功了。
深度强化学习(图7) 推荐伯克利Sergey Levine老师的CS285。相较于David Silver的公开课,内容更广,理论推导更 ...