中科大2025
生物信息学考试资料
祝考试顺利!加油!
`
中国科学技术大学生命科学学院系
2025 学年第 1 学期考试试卷参考(附参考答案)
课程名称: 生物信息学 课程代码:______
院系:___________________________ 考试形式:半开卷
姓 名: 学 号: 专 业:
题 号 填空题 选择题 名词解释 简答题
得 分
一、填空题
-
生物大数据处理面临的挑战:数据量庞大(存储压力)、数据异质性高(来源 / 格式多样)、数据噪声多(误差 / 冗余)、分析效率低(计算资源需求大)、数据隐私与安全问题(任答 3 点及以上即可)
-
RNA 二级结构的研究方法:实验方法(如核磁共振 NMR、X 射线晶体衍射、SHAPE 化学修饰测序)、计算预测方法(如基于能量最小化的 Mfold、RNAfold,基于共进化分析的 RNAcov)(任答 2 类及以上即可)
-
层次聚类分析的四种计算方式(距离 / 相似度计算):欧氏距离(Euclidean distance)、曼哈顿距离(Manhattan distance)、皮尔逊相关系数(Pearson correlation coefficient)、斯皮尔曼相关系数(Spearman correlation coefficient)
-
聚类算法:层次聚类(Hierarchical Clustering)、K 均值聚类(K-means Clustering)、密度聚类(DBSCAN)、谱聚类(Spectral Clustering)(任答 3 种及以上即可)
-
DAE(深度自编码器)两部分组成(机器学习部分):编码器(Encoder)、解码器(Decoder)(编码器将输入数据压缩为低维特征,解码器将低维特征重构为原始数据)
-
scRNA 测序技术(单细胞 RNA 测序):10x Genomics Chromium、Drop-seq、Smart-seq2、CEL-seq2(任答 3 种及以上即可)
-
常见测序文件格式:FASTQ(存储测序 reads 及质量值)、BAM(二进制比对文件,存储 reads 与参考基因组的比对结果)、VCF(存储变异位点信息)、GFF/GTF(存储基因组注释信息)(任答 3 种即可)
-
scRNA 标准化三种方式:文库大小标准化(Library Size Normalization,如 CPM)、中位数标准化(Median Normalization)、对数转换标准化(如 log2 (TPM+1)、log2 (CPM+1))、SCTransform 标准化(针对单细胞数据异质性优化)(任答 3 种即可)
二、选择题
1.若某基因在样本 A 中的表达量为 200(测序深度 1000 万 reads),在样本 B 中的表达量为 300(测序深度 1500 万 reads),经 CPM(每百万 reads 中计数)标准化后,样本 A 与样本 B 中该基因的 CPM 值之比为( )
A. 1:1 B. 2:3 C. 3:2 D. 4:3
答案:A
解析:CPM 计算公式为(基因计数 / 样本总 reads 数)×10⁶。样本 A 的 CPM =(200/10⁷)×10⁶ = 20;样本 B 的 CPM =(300/1.5×10⁷)×10⁶ = 20,两者之比为 1:1。
2.在 Linux 服务器中,用于提交批处理任务并查看任务状态的指令组合是( )
A. ssh(提交)和top(查看) B. qsub(提交)和qstat(查看)
C. scp(提交)和ps(查看) D. mkdir(提交)和ls(查看)
答案:B
解析:qsub是集群系统(如 PBS、SGE)中提交批处理任务的指令,qstat用于查看任务的运行状态(如排队、运行、完成);ssh用于远程登录,top查看系统进程;scp用于文件传输,ps查看进程;mkdir创建目录,ls查看目录内容,均不符合 “提交 + 查看任务” 需求。
3.在 Linux 服务器间进行文件传输的指令是( )
A. cp B. mv C. scp D. cat
答案:C
解析:scp(secure copy)用于跨服务器(或本地与服务器间)的安全文件传输;cp用于本地文件复制,mv用于本地文件移动 / 重命名,cat用于查看文件内容,均不涉及跨服务器传输。
4.下列关于原位测序技术与原位杂交技术的描述,正确的是( )
A. 两者均只能检测 RNA,无法检测 DNA
B. 原位测序可直接获取核酸序列信息,原位杂交仅能定位核酸位置
C. 原位杂交需通过 PCR 扩增,原位测序无需扩增
D. 两者均需依赖荧光探针,但原位测序无需信号放大
答案:B
解析:原位杂交(如 FISH)通过特异性探针与核酸结合,仅能定位核酸在细胞 / 组织中的位置,无法获取序列;原位测序(如 ISS)在组织原位进行核酸扩增与测序反应,可同时实现位置定位和序列读取(B 正确);两者均可检测 DNA 或 RNA(A 错误);原位杂交无需 PCR 扩增,原位测序通常需局部扩增(C 错误);原位测序常需信号放大以增强检测灵敏度(D 错误)。
5.假时间轨迹分析(Pseudotime Trajectory Analysis)的核心目的是( )
A. 对单细胞数据进行聚类,划分细胞亚群
B. 重构细胞在发育、分化或应激过程中的动态变化路径
C. 识别不同样本间的差异表达基因
D. 校正单细胞测序中的批次效应
答案:B
解析:假时间轨迹分析基于单细胞 RNA 测序数据,通过细胞表达谱的相似性,为细胞分配 “假时间”(模拟时间轴),从而重构细胞从起始状态到终末状态的动态过程(如干细胞分化、细胞周期进程),核心是捕捉动态变化路径(B 正确);A 是聚类算法的目的,C 是差异分析的目的,D 是批次校正方法的目的。
6.基于空间约束的细胞间通讯分析工具 COMMOT 的核心优势是( )
A. 仅依赖单细胞表达数据,无需空间位置信息
B. 结合细胞的空间邻近关系,更精准预测真实的细胞间信号传递
C. 仅能分析配体 – 受体对的表达,无法量化通讯强度
D. 需依赖传统的批量 RNA 测序数据,不适用于单细胞数据
答案:B
解析:传统细胞间通讯分析仅基于表达数据预测配体 – 受体相互作用,忽略空间位置(细胞需邻近才能有效通讯);COMMOT(Cellular cOmmunication MOdeling Toolkit)的核心是整合单细胞的空间坐标信息,通过空间约束条件(如距离阈值)筛选潜在的通讯细胞对,提升预测的准确性(B 正确);A、D 错误(需空间信息,适用于单细胞),C 错误(可量化通讯强度)。
三、名词解释
- GWAS(全基因组关联研究,Genome-Wide Association Study):通过对大规模人群的基因组 DNA 进行基因分型,筛选与特定疾病或性状相关的单核苷酸多态性(SNP)等遗传变异位点的研究方法。核心原理是 “连锁不平衡”,即与疾病 / 性状相关的变异位点会与周围位点共同遗传,通过统计分析可定位到潜在的致病基因区域,广泛应用于复杂疾病(如糖尿病、高血压)的遗传机制研究。
- motif(基序):生物分子中具有特定功能或结构特征的短序列片段,常见于核酸(如 DNA、RNA)或蛋白质。核酸 motif 如转录因子结合位点(TFBS,如 AP-1 结合的 “TGA (C/G) TCA” 序列)、RNA 剪切位点;蛋白质 motif 如酶的活性中心、信号肽序列。motif 是生物分子功能的核心单元,常通过多序列比对或 motif 预测工具(如 MEME)识别。
- PCA(主成分分析,Principal Component Analysis):一种常用的降维与数据可视化方法。核心原理是通过线性变换,将高维数据(如基因表达矩阵)映射到低维空间,生成 “主成分”(PC):第一主成分(PC1)解释数据中最大的方差,第二主成分(PC2)解释剩余方差中最大的部分,且与 PC1 正交。PCA 可减少数据维度、去除冗余信息,常用于单细胞数据的批次效应校正、样本聚类可视化(如 PCA 散点图)。
- Wilcoxon rank-sum test(威尔科克森秩和检验):一种非参数统计检验方法,用于比较两组独立样本的总体分布是否存在差异。适用于不符合正态分布的连续型数据(如基因表达量),无需假设数据服从特定分布。步骤包括:将两组数据合并排序并分配秩次,计算两组的秩和,通过统计量判断两组秩和是否存在显著差异。在生物信息学中,常用于筛选两组样本(如处理组 vs 对照组)间的差异表达基因。
- 染色质可及性(Chromatin Accessibility):指基因组 DNA 区域是否能够被转录因子、核酸酶等调控因子或工具酶接触的特性。染色质的紧密(异染色质)或松散(常染色质)状态决定了可及性:可及性高的区域(如启动子、增强子)通常是基因表达调控的关键位点,可被调控因子结合以启动转录;可及性低的区域则基因表达受抑制。常用 ATAC-seq、DNase-seq 等技术检测染色质可及性。
四、简答题
1.ChIP-seq 与 ATAC-seq 的原理、捕获基因组区域差异及应用
ChIP-seq(染色质免疫共沉淀测序)
原理:用特异性抗体结合目标蛋白质(如转录因子、组蛋白修饰),沉淀与该蛋白质结合的 DNA 片段,对片段进行测序;
捕获区域:与目标蛋白质直接结合的 DNA 序列(如转录因子结合位点、组蛋白修饰对应的染色质区域);
应用:研究转录因子的基因组结合位点、组蛋白修饰的基因组分布(如 H3K4me3 标记活性启动子)、蛋白质 – DNA 相互作用机制。
ATAC-seq(转座酶可及性染色质测序)
原理:利用 Tn5 转座酶优先插入染色质松散的可及性区域,对插入片段测序;
捕获区域:全基因组范围内染色质可及性高的区域(如启动子、增强子、绝缘子);
应用:绘制全基因组染色质可及性图谱、鉴定细胞特异性的调控区域、分析细胞分化 / 疾病状态下染色质可及性的动态变化。
2.KNN 分类预测待测细胞类型及相关降维、聚类算法
(1)KNN 分类原理:通过计算待测细胞与已知细胞类型样本的距离(如欧氏距离、相关系数),选择距离最近的 K 个 “邻居”,根据 K 个邻居中占比最高的细胞类型,确定待测细胞的类型。
(2)应用 KNN 的降维算法:t-SNE(t-distributed Stochastic Neighbor Embedding)—— 通过保留局部邻居关系进行降维,常用于单细胞数据可视化,降维后的数据可用于 KNN 分类;
(3)应用 KNN 的聚类算法:KNN 聚类(或基于密度的 DBSCAN,其核心是通过 “领域内最少样本数” 判断核心点,依赖邻居关系)—— 通过 K 个邻居的密度或相似性,将相似细胞聚为一类。
3.样本 A(对照组)中基因 X 的表达量为 100(总 reads 10⁷),样本 B(处理组)中基因 X 的表达量为 400(总 reads 2×10⁷),请进行 CPM 标准化,计算差异倍数(FC),判断基因 X 是否上调。
3.标准化、差异倍数计算及上调 / 下调判断
① 标准化:CPM_A =(100/10⁷)×10⁶ = 10;CPM_B =(400/2×10⁷)×10⁶ = 20;
② 差异倍数:FC = CPM_B / CPM_A = 2;(若取 log2 (FC) = 1);
③ 上调 / 下调判断:FC > 1(或 log2 (FC) > 0),说明处理组基因 X 表达量高于对照组,故基因 X 上调。
4.欧氏距离、层次聚类示意图及自下而上层次聚类步骤
1欧氏距离:用于计算两个样本(如两个细胞的基因表达向量)间的距离,公式为:对于样本 i(x₁,x₂,…,xₙ)和样本 j(y₁,y₂,…,yₙ),欧氏距离 d_ij = √[(x₁-y₁)² + (x₂-y₂)² + … + (xₙ-yₙ)²]。
2.层次聚类示意图(文字描述):以 3 个样本 A、B、C 为例,先计算两两间欧氏距离(假设 d_AB=2,d_AC=5,d_BC=4);将距离最近的 A 和 B 聚为一个簇;再计算该簇与 C 的距离(如取簇内样本与 C 的平均距离:(d_AC + d_BC)/2 = 4.5);最后将簇(A+B)与 C 聚为一个大簇,形成树状图( dendrogram ),树的高度代表聚类时的距离。
3.自下而上层次聚类(凝聚式聚类)步骤:
① 初始化:每个样本为一个独立的簇;
② 计算所有簇之间的距离(如欧氏距离、平均距离);
③ 将距离最近的两个簇合并为一个新簇;
④ 重复步骤②-③,直到所有样本合并为一个簇;
⑤ 生成树状图,根据需求设定阈值切割树状图,得到最终聚类结果。
5.代码题(conda 环境下)
1.ChIP-seq peak calling 代码(以 MACS2 为例):
conda activate chipseq
macs2
callpeak -t treatment.sorted.dedup.bam
-c control.sorted.dedup.bam
-f BAM -g hs -n chipseq_peak
–outdir ./peak_results
6、用于 motif search 的软件:
MEME(Multiple EM for Motif Elicitation)、HOMER(Hypergeometric Optimization of Motif EnRichment)、JASPAR(含 motif 数据库及搜索工具)。
7、在参考基因组中提取 peak 对应核苷酸序列的软件及命令(以 bedtools 为例):
conda activate bioinfo
bedtools getfasta -fi hg38.fa -bed chipseq_peak.narrowPeak -fo peak_sequences.fa
2022 学年第 1 学期考试试卷回顾及建议
1.建议 理解一些关键名词
如 精准医疗 染色质开放性 RIBOSWITCHES(核糖体开关) 基因调控网络 单细胞多组学
2.课堂QUIZ
虽然相当于点名,但是还是可以认真答一下,答案可以参考CSDN上的文章,有总结
3.实践作业
请关注RNA-seq ATAC-SEQ CHIP-SEQ
4.考试
(1)可自备一张A4纸
(2)大题会考察实验设计
(3)计算题,2022年考察了2021年的原题,KNN算法
(2020-2021年考题(秋),2021-2022年考题(秋))
(4)特别注意理解 RPKM FPKM TPM 原始reads的区别,标准化计算
(2021-2022年考题(秋
中国科学技术大学生命科学学院系
2021 学年第 1 学期考试试卷(附参考答案)
课程名称: 生物信息学 课程代码:______
院系:___________________________ 考试形式:半开卷
姓 名: 学 号: 专 业:
题 号 选择题 填空题 名词解释 问答题
得 分
一、选择题(选择一个或多个最佳答案)
1.生物信息学创建文件夹的操作是()
A.cd B.rm C.vi D.mkdir
2.以下关于DNA测序与 RNA测序的表述有错误的是:(C)
A. RNA测序最常见的应用是检测基因表达以及变化。
B. 与DNA测序不同,RNA测序需要先将提取的RNA反转录为cDNA,然后再进行扩增。
C. DNA测序可以检测基因突变和SNP, RNA测序则不能。
D. 全基因组测序,全外显子组测序和靶向测序都属于DNA测序。
3.以下是chip-seq产生的结果的是(A)
A. B.
C.
4.生信超算平台提交pbs脚本时用到的命令是()
A.qsub <name.pbs> B.qstat–u C.qdel job.id D.qsu
5.Fastq文件的第一行格式是以()开头
A、@ B、> C 、 = D、 !
6.( )收录了各种人类癌症(包括亚型在内的肿瘤)的临床数据,基 因组变异,mRNA 表达,miRNA 表达,甲基化等数据,是癌症研究者很重要的 数据来源
A. HCA B.TCGA C.ENCODE D.Galaxy
7. 以下类别的RNA中,哪个( )最稳定,( )最不稳定 ()
A. mRNA,lncRNA B.tRNA,mRNA C.lncRNA,mRNA D.siRNA,tRNA
8. 从高通量测序数据中分析变异信息中Peak calling的金标准是( )
A.Bowtie B.Tophat C.histat D.GATK
9.以下不属于ATAC-Seq的特点的是()
A.所需细胞量少 B.相比于Mnase时间相对慢 C.可获得调控多维信息
注:以下为多选题,可能有多个正确答案,全选得分。
1.以下关于精准医疗的说法正确的有?
A精准医疗涉及多个领域的融合交叉
B.精准医疗包括精准诊断和精准治疗(免疫、基因、靶向、放化疗)
C.精准医疗直接源于组学数据高通量测序技术
D.精准医疗包括三代测序技术
2. HOTAIR 对肝癌细胞增殖的促进作用可以通过调控阿片生长因子受体的表达来实现,此调控机制可能在各种类型的癌细胞中普遍存在,那么Hotair可以发挥哪些功能?
A.signal B.decoy C.guide D.Scaffold
3.单细胞测序技术相对传统的bulk RNA-Seq 有什么的区别?
A.单细胞测序可以细胞亚型和基因靶点
B.单细胞测序每个细胞获得的基因没有传统技术多,丢失了很多信息,数据量最大
C.单细胞测序技术的分析软件有seurat
D.传统的RNA-seq的价格更为昂贵,而单细胞测序克服了这一点
二、填空题
1.RNA-seq的用途有哪些?(至少写3个)差异基因表达分析、KEGG 富集分析、蛋白互作网络分析、转录因子分析新转录本预测 、可变剪切分析、SNP InDel 分析。
2.基因表达定量的方法有 RPKM 和 FPKM 和 TPM 。
3.lncRNA的功能: 1.signal 、2.Decoy 、 3.guide 、 4.Scaffold 。
4.RNA-seq 组装mapping软件有(至少3个) tophat 2 、 HISAT 或 STAR (注bowtie2也可)
5.RNA 的二级结构研究方法有 1.PARS 、2.icSHAPE、 3.PARTE .
6.RNA-SEQ数据去质控数据,通过这些软件得到这些质控数据,到底是好是坏,如何过滤这些数据(数据过滤的软件:cutadapter,trimmomatic, (注:fastp,trim_galore也可)
三、名词解释(4×5=20)
1.精准医疗:每一次,都在正确的时间,给予正确的患者,以正确的治疗方法,即治疗病人个体化、利用医疗大数据、实时监控,基因检测增加诊断准确性、治疗最大有效性和副作用最小化
2.GWAS 全基因组关联研究在全基因组层面上,开展多中心、大样本、反复验证的基因与疾病 的关联研究,是通过对大规模的群体 DNA 样本进行全基因组高密度遗传标记 (如 SNP 或 CNV 等)分型,从而寻找与复杂疾病相关的遗传因素的研究方法, 全面揭示疾病发生、发展与治疗相关的遗传基因
3.FKPM(Fragments Per Kilobase per Million)是将Map到基因的Fragments数除以Map到Genome的所有Read数(以Million为单位)与RNA的长度(以KB为单位)。适用于单端和双端测序,用于RNA-seq等分析中衡量基因相对表达量
4.lncRNA 长非是一类转录本长度超过 200nt 的 RNA 分子,并不编码蛋白, 而是以 RNA 形式在多种层面上(表观遗传调控、转录调控以及转录后调 控)调控基因的表达水平
5.SNP 单核苷酸多态性主要 是指在基因组水平上由单个核苷酸的变异置换、颠换、缺失和插入所引起的DNA 序列多态性,占所有已知多态性的 90%以上
四、问答题(40)
1.PARIS能够检测RNA二级结构的原理,请画出示意图并简单描述
(1)PARS 利用识别切除单链核苷酸的特异序列 RNase S1,识别切除双链或成对 RNA 序列的 RNase V1,(2)根据 PARSsocrelog(V1/S1)预测 mRNA 二级结构
2.RNA-seq的实现过程,其中的软件有哪些?
(1)QC:质控:采用FastQC用于分析 Illumina 测序平台的数据、 FASTX-Toolkit、Trimmomatic 可以用于切除低质量的碱基和接头序列;
(2)mapping(序列比对)采用TopHat、STAR、Bowtie比对序列到参考基因组
(3)转录组定量:使用 HTSeq-count 或 featureCounts 计算区间内的 reads 数来量化基因的表达,包括对read进行normalization:方法有RPKM/FPKM、TPM
(4)差异表达分析:对样本间基因的表达值进行比较,软件包括edgeR、DEseq2
(5)可变剪切分析/功能注释:标准的转录组分析的最后一步,是使用差异表达基因来进行功能或通路的注释
3.要确定方块属于哪个类别,如果k=3,在其最近的3个样本中红色三角形数量最多,绿圆属于红色三角形类别,如果k=5,在其最近的5个样本中蓝色矩形数量最多,绿圆属于蓝色矩形类别,请写出如何通过算法实现这一过程:
参考答案:# KNN
def KNeighborsClassifier(n_neighbors = 5,
weights=‘uniform’,
algorithm = ‘’,
leaf_size = ‘30’,
p = 2,
metric = ‘minkowski’,
metric_params = None,
n_jobs = None)
4.单细胞测序的处理过程有哪些?它们需要哪些软件,简单描述下这个过程
(1)数据预处理 基因表达量 质控 归一化 测 Ge 全长 TPM、测 2 端 UMI 归一化 降纬分析 PCA 降纬后空间样本之间距离=降纬前;前 N 个主成 分代表整个数据特征,主成分之间正交,数据信息几无损失结果稳定 tSNE 和 UMAP 高纬空间降纬到二维或三维,有利于展示和理解数据,一定程度 上代表样品之间的距离
(2)细胞分群 seurat,SCENIC SIMIR SC3
(3)假时间轨迹利用轨迹推断方法可以根据测序细胞之间表达模式的相似性对单细胞沿 着轨迹进行排序,模拟细胞动态变化的过程。预测细胞分化过程和发育路径 Monocle Velocyto Palantir
(4)插值与降噪 Magic(关联矩阵)SAVER 深度学 习负二项分布 DCA 深度学习回归表达量均值和离散度 拟合分析 WEDGE 对表达量矩阵中零元和非零元分别做不同权重的非负矩阵分解
5.简述ATAC-seq 的实现原理、基本分析流程以及用到的工具、质控指标及其原理
参考答案:
(1)ATAC-Seq原理:(4)
利用转座酶 Tn5 实现可接近开放染色质分析,裂解细胞,将核单 独收集在一起,并通过转座酶对核内的染色质进行打断。紧密包裹的染色质 DNA 不会受到转座酶的打断,而开放区域的染色质 DNA 会被转座酶随机插入 并打断,将这些打断后的 DNA 收集在一起进行后续的建库、测序、分析,即 可得到开放染色质的信息。
(2)ATAC-seq 分析流程基本分析流程以及用到的工具(6)
- mapping 将测序读长 map 到参考基因组上利用 bowtie2 fq-bam
- QC:统计有效 reads 数质控标准采用 Python bam-bed 在此之前有 merge
- callpeak 根据 read 在基因组分布搜寻信号峰 MACS(read bed-peaks bed
- 差异分析 寻找不同条件下显著开放/关闭位点 PythonR SigAna 进行 PCA分析及差异表达分析
- TFmotif富集分析 homer 差异peak bed到motif
6.注释 寻找差异开放位点所富集的生物学功能 Great
(3)质控指标及其原理:
Fragment distribution 周期性多峰,NFR 片段最多, 核小体单体,二体等会形成峰;
TSS 转录起始位点 score>5 的细胞样本,过低说明染色体结构瓦解、细胞裂解方式不当,peak 信噪比要高。
期末考试A4纸考场适用版(建议彩色打印,本文为高清版,同时纸上还可以再加东西)
精准医疗:每一次,都在正确的时间,给予正确的患者,以正确的治疗方法,即治疗病人个体化、利用医疗大数据、实时监控,基因检测增加诊断准确性、治疗最大有效性和副作用最小化 精准诊断(共享 数据整合、医疗诊断、环境因素、表观遗传、组学(基因编辑技术)、变异基因相关性ctDNA、三代测序)及精准治疗(肿瘤治疗采用免疫、基因、靶向疗法、放化疗)肿瘤治疗前研技术:基因组编辑、SC-seq 肿瘤免疫疗法;原发性非小细胞肺癌:基因测序指导体外培养细胞进行药物筛选、人源化小鼠模型进行体外药物验证慢性诊断根据突变用药,如EML4-AL采用克里唑蒂尼,EFGR突变易瑞沙K-RAS突变传统放化疗;黑色素瘤采集患处图片信息,构建多重深度神经网络机器学习构建训练集进行概率预测判断恶性损伤还是良性损伤
NIHGEO全称GENE EXPRESSION OMNIBUS,是NCBI创建并维护的基因表达数据库ENCODE按不同组织,收集人类(还有小鼠、worm、fly)基因组里面的所有功能元件TCGAThecancergenomeatlas由 NCI、NHGRI于 2006 年联合启动的项目 收录了各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源HCA人类细胞图谱,旨在描述人体中每个细胞(约37万亿个)的详细特征,呈现不同类型细胞在人体组织的3D结构,勾勒所有人体系统的相互联系,揭示图谱变化与健康和疾病的关系Toolsources:Galaxy可视化分析开源项目 GenomeSpace整合基因组数据分析工具genepattern给出差异基因,cytoscape差异基因相关蛋白网络相互作用;
UCSC:BLAT上下游基因或蛋白的序列比对到自己所在的物种基因组序列In-Silico PCR根据基因组设计引物genome browser数据可视化tablebrowser tracks信息及之间的交叉以及包含的序列信息查询下载VAI SNP的功能效应预测gene sorter基因同源相关关联筛选蛋白水平、基因表达谱、基因组的相似性Liftover不同基因组版本、不同基因组之间的转换。Genome data提供基因组及注释文件功能框 9 个内容 Mapping and sequencing; genes and gene predictions; phenotype and literature; mRNA and EST; Expression; Regulation; comparative genomics; variation; Repeats @PG 使用的比对程序说明
Fastq@开头序列描述信息 序列 链 +(可以跟序列表述信息)第4行质量评估Q
Sam@HD版本号@SQ参考序列说明依次是SNref LN参考序列长度1)QNAME:比对片段2)FLAG:位标识,template mapping情况的数字表示,每一个数字代表一种比对情况,这里的值是符合情况的数字相加总和3)RNAME:参考序列的编号,如果注释中对SQ-SN进行了定义,保持一致4)POS:比对上的位置,从1开始计数,没有比对上为0;5)MAPQ:mapping的质量;6)CIGAR:简要比对信息表达式其以参考序列为基础,使用数字加字母表示比对结果,3S6M1P1I4M前三个碱基被剪切去除了,6个比对上了,然后打开了一个缺口,有一个碱基插入,最后是4个比对上了.
BED有3个必须的列染色体号、 chromStart End9个额外可选的列feature的名字 ,在基因组浏览器左边显示score显示灰度设定 strand :定义链的方向”thickStart :起始位置基因起始编码位置thickEnd基因终止编码位置 itemRGB 决定数据的显示的颜色。 blockCount 外显子数目blockSize:用逗号分割的外显子的大小,item的数目对应于外显子数目start 每个外显子起始位置 Vcf:VCF是用于描述SNP,INDEL和SV结果的文本文件 CHROM:参考序列名
GWAS在全基因组层面上,开展多中心、大样本、反复验证的基因与疾病的关联研究,是通过对大规模的群体DNA样本进行全基因组高密度遗传标记(如SNP或CNV等)分型,从而寻找与复杂疾病相关的遗传因素的研究方法,全面揭示疾病发生、发展与治疗相关的遗传基因SNP单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异置换、颠换、缺失和插入所引起的DNA序列多态性,占所有已知多态性的90%以上
Mapping:CASAVA/BWA+GATKcallSNPindel Nextgene,Varscan.Seqgene
ATAC-Seq利用转座酶Tn5实现可接近开放染色质分析,裂解细胞,将核单独收集在一起,并通过转座酶对核内的染色质进行打断。紧密包裹的染色质DNA不会受到转座酶的打断,而开放区域的染色质DNA会被转座酶随机插入并打断,将这些打断后的DNA收集在一起进行后续的建库、测序、分析,即
可得到开放染色质的信息。质控指标Fragment dis 周期性多峰,10.5bp 是 DNA 的螺距造成,大多数的 Linker DNA 的大小介于 10-80bp 之间,得到的大多数片段都会是小于 100bpNFR片段最多,核小体单体,二体等会形成峰;片段非常分散:是混上了很多线粒体DNA,TSS转录起始位点score>5的细胞样本,过低说明染色体结构瓦解、细胞裂解方式不当酶切过度,peak信噪比要高,25%则细胞状态不好,或者测序深度不够;转录因子结合的位置无法被切割,留下footprint印记,根据转录因子的motif序列,在ATAC得到的reads中查找结合区域,然后分析这些结合区域两端reads的分布情况,转录因子结合区域有蛋白保护,是无法被Tn5切割的,中间空,两侧reads深度高的情况,观察特定转录因子结合位点的reads分布,可以判断该转录因子是否正在结合,称之为footprint分析。
RNA的二级结构研究分子存在着许多的由互补碱基对构成的单链区结构、茎环结构,以及双链结构等各种不同组件形成的平面结构,并通过这些结构进行自我折叠运动,所构成的结构即为 RNA 二级结构 1)有助于分析非编码RNA2)RNA二级结构有助于转录组水平RNA功能和结构预测3)提供外显子剪切模式图判断miRNA靶位点;PARS利用识别切除单链核苷酸的特异序列RNase S1,识别切除双链或成对RNA序列的RNase V1,根据PARSsocrelog(V1/S1)预测mRNA二级结构;PARTE通过程序升温揭示可能的二级结构,基因组范围内直接测量RNA折叠自由能来检测,ncRNA最稳定,mRNA最不稳定;icSHAPE利用小分子NAI-N3对活细胞中单链RNA部分碱基进行特异性化学修饰,再加入DIBO-biotin进行click化学反应,使得带有标记的RNA分子可以被链霉亲和素磁珠纯化,结合深度测序探测RNA二级结构(用于RNA-蛋白相互作用及m6A修饰预测)不损伤RNA
ATAC-seq分析流程1.mapping将测序读长map到参考基因组上利用bowtie2 fq-bam 2.QC:统计有效reads数质控标准采用Python bam-bed 在此之前有merge3.callpeak根据read在基因组分布搜寻信号峰MACS(read bed-peaks bed 4.差异分析 寻找不同条件下显著开放/关闭位点 PythonR SigAna进行PCA分析及差异表达分析5.TFmotif富集分析 homer 差异peak bed到motif 6.注释 寻找差异开放位点所富集的生物学功能 Great
lncRNA 长非是一类转录本长度超过200nt的RNA分子,并不编码蛋白,而是以RNA形式在多种层面上(表观遗传调控、转录调控以及转录后调控)调控基因的表达水平;1.signal作为信号分子响应各种刺激来调节转录KCNQ1ot1, Air, Xist, Hotair eRNA,2.Decoy呈现decoy结合位点来限制调节分子的可用性DHFR, TERRA, PANDA, Gas5 3.guide与RNP相互作用引导至特定靶基因in cis: Xist, Air, COLDAIR trans: Hotair LincRNA-p21 4.Scaffold HOTAIR, TERC, ANRIL提供组装复合物平台发挥结构性作用
CHip-seq和ATAC-seq的不同前者peaks是代表抗体结合转录因子的位点,后者peaks是代表Tn5转座酶切开染色质开放区的两端,因此在一个位置,前者peaks有一个,后者有两个;RNA-seq和DNA-seq的不同:由于真核生物内含子的存在、可变剪切机制,RNA-seq存在junction reads;DNA-seq包括全基因组、外显子组(mRNA编码区进行测序)、靶向测序(目标基因测序)RNA-seq包括全转录组测序、mRNA测序、小RNA测序,提取的RNA要经过反转录成cDNA进行测序,RNA-seq主要目的是研究基因表达变化、可变剪切、转录因子分析、转录本预测、SNPIndel分析、蛋白互作网络分析
RNA组装软件(没有参考转录组,组装优先)Trinity (trans)aBySS SOAP (有参考转录组,图map优先)Culfflinks Scripture STringTie trinity捕获的已注释可变剪切模式(注释内含子)最多,同时又有着很好的准确度,Inchworm,Chrysalis 和 Butterfly3个模块处理Scrpiture假阳性率高。
RNA-seq发现lncRNA:①文库构建与测序:常选类mRNA研究对象,加接头进行测序,双端测序提供更准确转录本信息,QC质控②转录本重建 map
1.Scripture重头组装,去掉已经注释转录本,发现新基因间转录本2.map到Refseq/Gencode已有基因组,去掉蛋白编码基因,从Refseq/Gencode中寻找注释lncRNA 从而发现由癌基因BRAFV600E调控的转录本或lncRNA 3.组装到Refseq/Gencode中去掉已注释的ncRNA去除,研究编码蛋白基因转录本,找下游由癌基因驱动的蛋coding Gene.新ncRNA识别与分析。
1.获取原始数据sratookit prefetch下载数据,转换sra to fq fastq-dump –gzip / -split3 下载原始文件并对其压缩-split-3可以针对单双端
2.fastqc质控:fastqc -o . /.fastq.gz multiqc批看修剪过滤:trim_galore trimmomatic fastp cutadapter picard测序数据进行质量评估和结果查看 过滤标准去除碱基质量低的reads和接头部。分去除碱基质量值低于20的reads去除N比例高于百分之5的reads、Index或接头、一些reads的head或tail 30=0.1%错误率 碱基质量值低于10或中位数低于25会质量报警箱体红线代表中位数如果低于20或者蓝线碱基质量值低于5,fastqc会报告失败 蓝线降 DNA合成酶活性降低
3.参考序列比对分析:参考基因组及基因注释下载ref wget-P gzip -d ;STAR -线程4 -runMode genemoeGenerate –genomeDir索引存放地址–genomeFastaFiles genome.fa -sjdbGTFfile .gtf STAR -线程4 –genomeDir.–readFilesIn–outFileNamePrefix 确定每条reads来源基因&位置 参考基因组可视化samtools建索引Bedtools & bedGraphToBigWig & UCSC;Samtools, deeptoolssam, bam文件进行操作 意义降低文本大小,直观展示不同组间差异 bowtie fast work well bowtie2 fast local alignments BWA fast allowIndels, genome/exome重测序 Subread veryfast splice alignment STAR extremely Fast splice alignment 30Gb memory RNA-seq比对工具有 Bowtie, tophat, STAR, hisat2 (将测序reads比对到基因组数据上)
4.基因表达水平分析:RSEM计算TPM、FPKM的值,HTSeq计算readcounts,根据unique mapped>60%,chrMapped线粒体污染小Duplicate可能是建库PCR扩增,TPM FPKM对readcounts进行标准化 可以评估样本的好坏,分析质量的好坏 PCA高维数据进行降维至3维,更重要的是经过降维去除了噪声,发现了数据中的模式 如果相同组没有聚在一起说明样品建库或测序过程出现问题 用到的工具有RSEM, HTSeq, featurecounts, self-made scripts计算基因表达量,reads counts/RPKM/TPM)RPM10^6标准化了测序深度的影响,但是没有考虑转录本长度的影响RPM适合做产生read读数不受基因长度影响的测序:miRNA-seq 20-24碱基 RPKM/FPKM map的read数×103×106/总的reads数x基因长度bp 标准化103基因长度和106测序深度的影响,FPKM适合于双末端RNA-seq实验转录本定量RPKM/FPKM 适用于基因长度波动较大的测序方法,如 IncRNA长度在 200-100000bp TPM改进了跨样品间定量的不准确性5.基因差异表达分析 Limma DEseq2 edgeR差异分析的处理效应=组间差异-组内,得到火山图、热图直观展示,还可以选用Metascape、Enrichr、STRING比较标准化后的基因表达丰度,差异分析6.RNA-seq还可以做GO富集分析差异基因与哪些功能相关DAVID/GSEA、KEGG富集分析、蛋白互作网络分析GATK Cytoscape 转录因子分析HOMER MEME、新转录本预测Cufflinks、可变剪切分析rMATs SNP InDel分析GATK2意义:发现新的转录本和可变剪切形式还可以通过Enrichr, Metascape, String, GSEA (基因集功能分析) 通路可视化
CHIP-seq蛋白-DNA相互作用 RIP-seq CLIP-seq紫外交联免疫沉淀结h高测RNA及蛋白紫外交联,蛋白特异性抗体沉淀复合体,回收测序,验证 RNA 与靶蛋白的相互作用;在全基因组范围内鉴定 RNA 与 RBP 的相互作用网络;分析 RBP 与 miRNA、lncRNA 等非编码 RNA 的相互作用。
sequencing motif:转录因子结合的特定的序列,基序GeneRegulatory network基因调控网络根据基因间相互作用关系构建的生物网络GRN是生物体控制基因表达机制,主要是转录和翻译过程。GRN由数量有限的转录因子(TFs)和辅因子相互调节及调节下游靶基因,构建不同转录因子基因之间的关系网络通,过基因表达矩阵分析基因网络如布尔网络、线性模型、马尔科夫model、微分方程模型、互信息关联、贝叶斯网络模型以贝叶斯定理和假设为理论基础,用有向无环图DAG形式表示随机变量间的概率关系,每个基因是节点每个调控关系是边,可以处理随机事件,控制噪声,获得变量间因果关系比其他模型更有优势
单细胞数据处理过程1数据预处理 基因表达量 质控 归一化 测Ge全长TPM、测2端UMI归一化 降纬分析PCA降纬后空间样本之间距离=降纬前;前N个主成分代表整个数据特征,主成分之间正交,数据信息几无损失结果稳定 tSNE和UMAP 高纬空间降纬到二维或三维,有利于展示和理解数据,一定程度上代表样品之间的距离 2.细胞分群 seurat,SCENIC SIMIR SC3 3.假时间轨迹利用轨迹推断方法可以根据测序细胞之间表达模式的相似性对单细胞沿着轨迹进行排序,模拟细胞动态变化的过程。预测细胞分化过程和发育路径Monocle Velocyto Palantir4.插值与降噪 Magic(关联矩阵)SAVER深度学习负二项分布 DCA深度学习回归表达量均值和离散度 拟合分析WEDGE对表达量矩阵中零元和非零元分别做不同权重的非负矩阵分解 5.scATAC-Seq scATAC-seq数据过于稀疏>95%丢失细胞分群无法达到scRNA-seq一样精度 ChromVAR motifs Cicero genes cisTopic topic APEC pattern
6.多组学整合Multi-omics 采用RNA+ATACseq(SHARE-seq, sci-CAR)、RNA+antiboyCITE RNA+MethylationscTrio和scMT-seq
RNA+ATAC+Methylation scNMT-seq(空间)转录组学、蛋白质组学、代谢组学,系统性研究临床发病机理确定疾病靶点、进行疾病早筛、精准治疗 单细胞基因表达量:全长Fluidigm C1, Smart-seq 单端Drop-seq, Microwell-seq, SPLiT-seq 单细胞染色体可及性scATAC-seq(表观遗传), sciATAC-seq, snATAC-seq 空间转录组(seqFISH, MERFISH, StarMAP, 10X Visium测序深度低,测序通量大,表达矩阵稀疏 、 Slide-seq2 )
单细胞转录组SMART-seq用流式细胞仪分选细胞,可以覆盖整个转录本,除了表达量信息,还可以后续分析SNV和可变剪切信息测序深度高,每个细胞获得的测序片段数高。测序通量低,一次建库获得96至几百个单细胞。
单细胞测序优势:①能揭示与疾病或特点生物学状态相关细胞亚型和基因靶点②分辨率sc 特征清晰get异质性信息、能清晰区分细胞亚型③高灵敏度超低起始量和scRNA-seq探测复杂组织细胞不同生物学特性了解细胞亚群对环境要素影响,研究细胞功能和细胞分化增殖肿瘤发生时间依赖过程异质性
④可以揭示全新细胞类型和分化轨迹 缺点平均每个细胞丢失80-90%的基因信息,数据量巨大后续分析是难点需要新算法支持
seurat R包①filter genes表达量变化幅度大基音对细胞之间差异性贡献更大②PCA降纬选取重要的主成分然后再寻找-③差异基因展示 MS4A1 B细胞亚群marker,展示t-SNE图、violin图、热图 Satjia Lab细胞分群:KNN K最近邻居 Louvain社群分群 基于图数据社区发现算法,最大化整个数据的模块度,针对节点便利该结点所以邻居节点,衡量把节点加入邻居节点所在社区所带来模块度收益,加入对应最大收益邻居节点社群通过seurat进行细胞分群,singleR定义细胞类型有监督学习 预先定义ref。SCENIC motifs 发现调控基因表达重要转录因子、不同组织器官的调控网络有相近模式、避免批次效应 缺点细胞亚群不清晰 细胞一些重要特征被基因的平均表达量所掩盖SIMIR多核学习 动态聚类求解优化 细胞分群清晰获得较多亚群 缺点①参数βγ的选取需经验性知识②需事先定义区块数C③对群数影响较大容易导致过拟合SC3一致性聚类不同纬度综合分群加和平均 结果比较稳定,对参数依赖小 对大数据集速度较快 自动预测亚群数 缺点①考虑较多主成分时计算时间指数上升②对精细细胞亚型分辨较差
算法表现性Graph方法:PAGA SLICER Tree方法:PAGA tree Slingshot MST pCreode SCUBA Monocle DDRTree MonocleICA,.cellTree maptpx, cellTree VEM, SLICE, 11.EIPiGraph, 12.Sincell, 13.URD, 14.CellTrails, MpathCellRout
Linux命令大全mv aaa bbb将aaa改名bbb mv /home/a.txt /you/b.txt 移动+重命名cp 1.pbs /order/把cp1.pbs复制到order目录下 cp -r /yang /yang2 复制目录rm test.txt删除text,rm -r /dir 删除dir目录 -rf /dir不询问直接删除 pwd显示当前路径 cd/切换到根目录 find . -name “.c”当前目录及其子目录所以后缀为c的文件 . -ctime -20 20天内更新过的文件 vi 1.pbs 创建1.pbs touch 1.pbs创建文件或更改目录时间 echo “直接写进去点东西”1.pbs less和more可以分页显示 cat显示全部 qstat & showq: show status of PBS batch jobs qdel & canceljob: delete PBS batch jobs checkjobs: check PBS jobs PBSnodes & qnodes: PBS node manipulation qhold: hold PBS batch jobs qrls: release hold on PBS batch jobs qorder: exchange order of two PBS batch jobs in a queue qselect: select PBS batch jobs
ATAC-seq优点 需要的细胞量少时间快可以获得开放位点、转结点 调控多维信息ATAC-seq的用途:转录因子的调控差异Motif对应转录因子的检索能为双盲实验下游实验设计提供信息 限制ATAC-seq测序所得结果,记录还不是特别完全,无法充分解释酶切割序列偏好问题 每个细胞不同,需要根据情况调整细胞数量和裂解条件3使用太少的细胞会导致较短的DNA片段细胞的最佳数量会有不同,取决于细胞起源的组织或机体器官用MACS peak calling重复性差,不一定反映真实的结合位点 同时结果较为稀疏。
Chip–seq重复性差(70%左右质量已经算优了,Chip-Seq实验中全基因组的reads分布恰好是符合泊松分布的 MACS算法建立双峰模型的,将原始reads朝3’端偏移更好表示蛋白和DNA作用位置,单端测序为了更好地还原出原来的文库片段,两峰距离的一半d作为偏倚长度,建立双峰模型单细胞测批次效应merge看效果,如果看到批次效应不明显,即不同个体的同类细胞大体在一起不需要校正 否则:对样本处理问题 细胞活性问题,试剂kit问题测序问题1)造成了样本间mRNA的相对不稳定2)造成细胞破裂,其mRNA流出最后污染整个样本3)造成样本间mRNA捕获率不一致4)造成测序饱和度不一致,或者数据质量不一 ·处理:ambiant RNA的来源 查看其中的差异表达基因是否混入诸如红细胞基因Hba用FeaturePlot对这些基因进行确认 测序深度加大·样本质量 mRNA结构 5’UTR不稳定,而3’UTR很稳定 APC 结肠癌coad 直肠癌read 中高突变的基因 cancer tp53
比对RNAseq的reads 2种策略Exon fisrt approach + Potential limitations of exon-first approaches 2. Seed extend approach
生物信息学复习内容
第一周课:生物医学大数据和精准医疗
早期诊断 正确用药 治疗手段
癌症基因组计划:
表观遗传、组蛋白修饰
ctDNA(肿瘤游离DNA circulating tumor DNA,ctDNA)的来源:坏死的肿瘤细胞;凋亡的肿瘤细胞;循环肿瘤细胞;肿瘤细胞分泌的外排体。1994年时,科学家们通过识别ctDNA上肿瘤的特异性突变来确定它是来自肿瘤细胞还是正常细胞。于是研究人员们通过不断地研究,开始将ctDNA应用于肿瘤的早筛上。ctDNA无创、无损,可以多次获取,并且可以实时监测,从而提供比组织样品检测更多的信息。当然ctDNA不仅仅可以用于肿瘤的超早期检测和预防,同时在肿瘤发生发展的全过程中都可以发挥出自己的作用:
肿瘤治疗的3个前沿技术:基因编辑技术(CriSPR/Cas 9) 、单细胞测序/基因组扩增技术,肿瘤细胞免疫疗法。
第2周课:UCSC数据库的使用
1.Hp38使用查找tp53基因,正负链的判别(5’-3 ’,以及3’-5’)
2.查看基因突变与哪些疾病有关-variation
3.基因的上下游基因
4.比较基因在不同细胞系的保守程度-comparation
5.数据的下载方式
6.查看某个基因在其他物种中同源基因的染色体位置 -Liftover
第3-5周课Nebula生信超算平台使用指南
1.BLAST
1、Login in
①Web浏览器网址:http://nebula.ustc.edu.cn:6080 或 http://nebula.ustc.edu.cn:6080/login/loginPage.action
②Or through SSH服务器:Secure Shell缩写是SSH,SSH是一项创建在应用层和传输层基础上的安全协议,为计算机的shell提供安全的传输和使用环境。
·Module avail 命令可以查看当下那些可以使用的软件
2.PBS脚本
·cd.script
Module load bowtie2
bowtie2 p10 x./indexes/hg19 ~s./Adim.somc ATFFCACAWFA python /script/multi_prefetch.py
scripts|$ 命令行 ·考试:输入()以完成任务command
3.sam文件转换成bam文件
Identify somatic variation from genome-wide association studies(GWAS)
1.全基因组关联研究(Genome-Wide Association Studies,GWAS)
是指在全基因组层面上,开展多中心、大样本、反复验证的基因与疾病的关联研究,是通过对大规模的群体DNA样本进行全基因组高密度遗传标记(如SNP或CNV等)分型,从而寻找与复杂疾病相关的遗传因素的研究方法,全面揭示疾病发生、发展与治疗相关的遗传基因。这一研究方法的引入,使对遗传流行病的发病预测不再停留在传统的年龄、家族史等“环境性”因素分析,而是通过对人体的全基因组的分析,找出可能导致今后发病的基因,并结合“环境性”因素,得出包括癌症在内的多种流行病的发病率。
How? Experimentals vs Analytical approaches. Paper2
遗传功能注释 统计计算工具 细胞异质性
2.GWAS需要解决的问题
GWAS是对多个个体在全基因组范围的遗传变异(标记)多态性进行检测,获得基因型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或显著性 p 值筛选出最有可能影响该性状的遗传变异(标记),挖掘与性状变异相关的基因
3.除了SNP之外的指标
·CNV(基因拷贝数变异 copy number variations)
·SV(structure variations)结构变异标记:基因组水平上大片段的插入、缺失、倒置、易位等序列
4.GWAS Catalog 数据库:
GWAS Catalog是EBI负责维护的1个收集已发表的GWAS研究的数据库:
1.搜索表型
2.搜索SNP
3.搜索人名:作者名,可以得到相关的文献
4.搜索染色体位置:
5.搜索基因
6.搜索区域
第6周课
- 2个基因
TP53基因编码的p53蛋白其中的重要作用之一是调控细胞分裂和增殖。机体内部的细胞分裂增殖是时刻受到“指令”调控的,每个细胞各司其职,共同维持机体内部的稳定运转。TP53基因,又称为p53基因,是因为编码一种分子量为53kDa的蛋白质而得名。被作为著名的“抑癌基因”而被广泛研究。
APC 结肠癌coad 直肠癌read 中高突变的基因
2.Bowtie 2
功能:将小序列比对至大基因组上去,是一个快速,较为节省内存的短序列拼接至模板基因组的工具。Web:http://bowtie-bio.sourceforge.net/bowtie2/index.shtml Bowtie 2 supports gapped, local, and paired-end alignment modes。bwa软件使用时需要参考序列fasta格式文件,和一个需要处理的fastq格式文件。跑完三步会生成一个sam文件,其中第一列表示id,第十列表示序列
3.GATK
是Genome Analysis ToolKit 的缩写,是一款从高通量测序数据中分析变异信息的软件,是目前最主流的SNP calling 软件之一 GATK使用教程:
4.BWA
即Burrows-Wheeler-Alignment Tool,BWA 是一种能够将差异度较小的序列比对到一个较大的参考基因组上的软件包 Web:http://bio-bwa.sourceforge.net/
5.BWA-GATK
做序列比对和SNP calling的算法中,表现优,现在成为金标。灵敏度95% 特异度97% 准确度96% - 序列比对工具
Bowtie 2 BWA soap
适合RNA-Seq
SAM file example
To get a Raw reads alignment
灵敏度 特异度 准确度 评价1个比对工具的算法 BWA-GATK 优 金标
TP: Correctly called ALT genotype which is also listed in GIAB truth-set.
TN: Correctly called REF genotype which is also not listed in GIAB-truth-set
FP: Incorrectly called ALT genotype which is not listed in GIAB truth-set.
FN: Incorrectly missed ALT genotype which is listed in GIAB truth-set.
(1) 灵敏度 = 正阳/正阳+假阴
(2) 特异度 = 正阳/正阳+假阳
(3)
GATK:
BWA+GATK
PCR扩增产生的重复序列可能造成mutation calling 的不准确:记得remove duplicate
第6周课
1.染色体易位:染色体片段位置的改变
RNA特点:
染色体命名 长度 1-22 X Y
2.如何在DNA上找到lncRNA
H3K4me3的启动和H3K36me3表达, 而Coding potential 大 -暗示是编码基因
3.RNA Seq vs DNA seq的不同
RNA seq 有junction reads 外显子之间的拼接连接 UCSC中5’UTR比外显子峰值高些。
基因组和转录组测序串行比对使用的工具有什么不同?转录组reads比对回基因组时需要特殊地考虑什么?
RNA测序并不能直接使用DNA测序常用的BWA、Bowtie等比对软件,这是由于真核生物内含子的存在,导致测到的reads有时并不与基因组串行完全一致,因此需要使用Tophat2/ HISAT/ STAR等专门为RNA测序设计的软件进行splice-map比对。
rRNA-depletion 没有polyA的ratio高
4.lncRNA
长链非编码RNA(lncRNA)是一类转录本长度超过200nt的RNA分子,它们并不编码蛋白,而是以RNA的形式在多种层面上(表观遗传调控、转录调控以及转录后调控等)调控基因的表达水平
第7周课lncRNA有什么功能(第二次小测验))
1.signal Xist Hotair
2.Decoy 诱饵 PANDA
3.Guide RNA和DNA结合而RNA带入蛋白可能发挥功能
4.Scaffold 可以带有蛋白质去抑制/激活 基因的表达 hotair
调控X染色体沉默,基因组印记以及染色质修饰,转录激活,转录干扰,核内运输等多种重要的调控过程
Hotair
是一种与肿瘤发生密切相关的长链非编码RNA
5.3种非编码RNA:(第二次小测验) 还包括tRNA和rRNA
6.大约多少比例的基因可以被转录?(第二次小测验))
90% 基因组中约 90% 的基因是转录基因。这些转录基因中只有 1-2% 编码蛋白质;大多数转录为 ncRNA。
第8周课
1.Chip-seq的用途
寻找motif(DNA和蛋白质互作信息)也可以反向检测1个motif是否在其他序列中存在;
2. 直接重编程direct reprogramming(成纤维细胞→神经细胞,不经过iPS)
加上转录因子 Ascl I(必需) , Brn2 myt1l (活的更好)
3.热图 heatmap的获得:(cai)
(1)RNA-seq比对,t.1 fastq文件 t.2 fastq … (mapping)- tophat /最新的STAR 进行RNA-seq比对 – .SAM文件 -经过Samtools转换成BAM;BAM和 trans.GTF文件一起 – 经过cufflinks (多少reads)-得到基因表达谱矩阵
(2)寻找显著变化的基因, 经过Deseq2、差异倍数(fold change) 、FDR进行差异表达分析
如何进行差异表达分析3种tools
1.Deseq2 进行差异表达分析
2.差异倍数(fold change) 分析的优点是计算简单直观,缺点是没有考虑到差异表达的统计显著性 / 加上P value 【t test 】 < 0.05
3. 错误发现率FDR (false discovery rate)在转录组分析中,主要用在差异表达基因的分析中,控制最终分析结果中,假阳性结果的比例
文章中用的Differential expression analysis was performed using Student’s t test function ‘‘t.test’’ in R, and genes with a p value < 0.05 and at least 2-fold expression change were defined as significant.
将差异基因进行聚类Cluster, 经过Treeview 得到热图
4.热图的功能:1)直观呈现多样本多个基因的全局表达量变化;2)呈现多样本或多基因表达量的聚类关系 。
热图一般使用颜色(例如红绿的深浅)来展示多个样本多个基因的表达量高低,既直观又美观。同时可以对样本聚类或者对基因聚类。
5.基因本体论(Gene Ontology, GO)分析 term通过有向无环图(Directed Acyclic Graph, DAG)的形式将严格定义的不同功能类之间的关系组织起来。GO是跨越原核生物与真核生物各物种的基因功能分类体系,分为三个独立的ontology, 分别是生物过程(biological process, BP),分子功能(molecular function, MF),和细胞组分(cellular component, CC)。GO分析是对这三个ontology分别进行分析
GO分析结果主要包括GO功能分类结果和GO功能富集结果。文章中用的 DAVID (david.abcc.ncifcrf.gov). 分析基因上调 和下调
DAVID为大规模的基因或蛋白列表(成百上千个基因ID或者蛋白ID列表)提供系统综合的生物功能注释信息,帮助用户从中提取生物学信息。目前DAVID数据库主要用于Gene ID转换、差异基因的功能和通路富集分析。
Chip-Seq得到的文件 chip-fq; input.fq ; igg fq
Chip.fq 经过 bowtie2 得到.SAM文件 经过MACS2 peak calling得到 – bedgragh文件 – UCSC 用该文件寻找结合位点的motif。能够直接载入UCSC browser,用其他软件分析时需要去掉第一行。
或IGV(转换) 为了了方便在IGV上查看ChIP-seq的结果和后期的可视化展示,需要把MACS2的结果.bdg file转化为.bw file(更小,bigwig文件)提供给IGV
6.Chip.Seq 分析流程:(cai)
1.CHIP-Seq -数据下载(得到fastq文件)
2.质量控制(用Fastqc /multiqc进行质控)
3.比对到参考基因组(mapping_analysis)(用Bowtie2 或 BWA或tophat或star,得到.sam文件,经Samtools转换成bam)
4.搜峰(Peak_calling)(用MACS2进行)(peaks calling:寻找可能的结合位点,即基因组中大量reads富集的区域。)5.峰注释(Peak_annotation)(用ChIPseeker进行)
注:CHIPseeker的功能分为三类:
。注释:提取peak附近最近的基因,注释peak所在区域。
。比较:估计ChIP peak数据集中重叠部分的显著性;整合GEO数据集,以便于将当前结果和已知结果比较。
。可视化:peak的覆盖情况;TSS区域结合的peak的平均表达谱和热图;基因组注释;TSS距离;peak和基因的重叠。)
注:sam经samtools转换成它的二进制压缩形式bam,一是可以节省空间,方便存储。二是便于下面的分析
7.Peak calling
用 MACS,Peak每个点都可以知道有多少reads,选取经过Peak shift后的位置最稳定的点的左右200bp – 把sequence取出来 – 通过meme 找motif 如Ascl I 把 brn2带到了 ascl 1结合的位点。
8.描述下常规转录组分析的流程,列举每步可用的工具、每步分析的意义? (10分)
数据质控 :质量评估用FastQC软件,质控cutadapt,Trimmomatic。意义:去除碱基质量低的reads和接头部分。
比对: Tophat2/HISAT2/STAR 。意义:确定每条reads来源于哪个基因,什么位置。
差异基因鉴定: DEseq2 。意义:比较标准化后的基因表达丰度,得到差异基因。
GO富集分析: GOEAST 。 意义:寻找差异基因与哪些功能有关。
转录本拼装:String Tie;可变剪切:Rmats。意义:发现新的转录本和可变剪切形式。
通路可视化 、 WGCNA共表达分析 等
第9周课
1.Paper: Hierarchical Mechanisms for Direct Reprogramming of Fibroblasts to Neurons
·Ascl I 把 brn2带到了 ascl 1结合的位点。
·skeletal muscle myoblasts转换效率最高,osteoblast对照 ,转换效率很低
2.ATAC-Seq (结合高通量测序技术的转座酶5结合开放染色质的研究方法)(cai)
染色体开放性 ATAC-seq 通过转座酶对某种特定时空下开放的核染色质区域进行切割,进而获得在该特定时空下基因组中所有活跃转录的调控序列
Assay for Transposase 5 Accessible-Chromatin with high-throughout sequencing即结合高通量测序技术,利用转座酶可接近开放染色质的研究方法。ATAC-seq利用DNA转座酶技术实现染色质可及性分析。DNA转座酶可以将自身结合的一段序列随机插入到基因组中。在ATAC-seq试验中,细胞或组织样本在核质分离后,将细胞核单独收集在一起,并通过转座酶对核内的染色质进行打断。紧密包裹的染色质DNA不会受到转座酶的打断,而开放区域的染色质DNA会被转座酶随机插入并打断。将这些打断后的DNA收集在一起进行后续的建库、测序、分析,即可得到开放染色质的信息。
·传统的DNA酶足迹 ATAC-SEQ的50000 CELLS 相当于 10 million个 DNase-seq(黄金标准seq)的准确度
·DNA-蛋白相互作用
·footprint向两端扩展50个bp左右是DNA最活跃位点。
·基因网络构建的转录因子结合位点预测:motif+DNA accessiblity + DNA足迹
·ATAC可以揭示染色体结构——核小体的组合(单个、二聚体、三聚体等)
·Epigenomic profiling technology
·ATAC-seq可以用作药物筛选(结合位点的强弱)
3.ATAC-Seq的优点:(cai)
1、需要的细胞量少 2、时间快。3、 可获得开放染色体位置、转录因子结合位点等调控多维信息
ATAC-seq通过Tn5转座酶将测序的adapters插入到基因组的可接近区域来标记调控的区域,所需要的细胞量少(最少500个细胞即快速得到调控的多维信息,比其他方法节省3-5个数量级的细胞)、实验流程中由于没有片段选择的步骤,可以同时获得 开放的染色质位置、转录因子结合位点、核小体调控区域、染色质状态等信息
ATAC-Seq的应用:药物筛选 癌症早筛
4. ATAC-Seq的用途
1)转录因子的调控差异 在某些疾病、肿瘤组织,根据RNA-seq的结果提示样本转录表达的差异,在这些情况下,ATAC-seq可以从源头,即基因转录的情况提供信息,从而有可能证明转录差异的表达是由转录起始的某些调控因子引起的。
2)Motif对应转录因子的检索 ATAC-seq不仅可以在已知转录因子缺陷的实验组中进行染色质调控差异的研究。它还能为双盲实验提供信息。因为ATAC-seq研究的是开放染色质的区域,这些区域的序列中包含大量的转录起始的Motif信息。这些Motif信息可以在数据库中找到对应的调控转录因子,从而为下游实验设计提供信息。
5.X染色体失活:
gender specific regulome
FIRRE escape
6.补充:开放染色质的研究方法
DNase-seq、ATAC-seq、MNase-seq(金黄色葡萄球菌的微球菌核酸酶)
7.ATAC-seq进行motif分析的限制:【quiz】
(1)对于ATAC-seq测序所得结果,记录还不是特别完全,无法充分解释酶切割序列偏好问题
(2)每个细胞懂事不同的,需要根据情况调整细胞数量和裂解条件
(3)使用太多的细胞会导致插入的测序适配器减少,从而导致较大的DNA片段,使用太少的细胞会导致较短的DNA片段
(4)细胞的最佳数量会有不同,取决于细胞起源的组织或机体器官
用MACS peak calling重复性差,不一定反映真实的结合位点
单细胞测序中ATAC-seq存在的问题:单细胞测序的结果较为稀疏,在基因组任何位置都存在零星的1-2个可接近位点,但是这些数据不准确。
7. 为什么要研究染色质可及性
8.ATAC-Seq Quality Measures
有多种方法可以评估ATAC-Seq数据的质量。最重要的两个是FRiP得分和峰数量。
FRiP分数:全称Fraction of Reads in Peaks,代表的是与peaks有交叉的reads占总reads数的百分比。 它是对开放区域富集的一种度量,也可以看作是信噪比的度量,其中信号为比对到peak上的reads,噪音为比对到peak外的reads。 FRiP分数根据细胞类型而有所不同。 FRiP分数> 30%是成功的良好指标。 但是,对于一些难处理的样本,只要样本之间具有一致性,较低的FRiP分数也是可以接受的。
峰数量:在ATAC-Seq数据中识别出的峰的数量。 像ENCODE这样的数据库建议数据识别出50,000个以上的峰。 但是,这取决于细胞类型,组织和细胞健康状况。
9.ATAC实验流程
1.细胞制备 2. 转座酶反应 3.文库扩增 4.在Illumina平台上测序 5.生信分析
第10周课
1.lncRNA的功能:
1.signal Xist Hotair
2.Decoy 诱饵 PANDA
3.Guide RNA和DNA结合而RNA带入蛋白可能发挥功能
4.Scaffold 可以带有蛋白质去抑制/激活 基因的表达 hotairHOTAIR是一种与肿瘤发生密切相关的长链非编码RNA
表观遗传学调控
2.比对RNAseq的reads 2种策略 How to align RNAseq reads?
- Exon fisrt approach + Potential limitations of exon-first approaches 2. Seed extend approach
- 3种RNA-seq的比对工具(第二次小测验)
采用 bowtie 或 tophat 2 、 HISAT软件(更快的速度和更少的资源占用) 或STAR进行RNA-seq 比对 mapping
STAR为了提高比对率做了哪些容错机制? (4分)
STAR具有最高比例的在基因组上有唯一比对位置的reads,尤其是对读长为300nt的样品也有最高的比对率。STAR只保留双端reads都比对到基因组的串行,但对低质量的比对(允许更多的错配碱基和soft-clip事件)容忍度高,这一点在长reads样品中的体现更为明显。
注:soft-clip事件即reads末端存在低质量碱基或接头导致比对不上的,STAR会自动尝试截去未比对部分,只保留比对上的部分
4.如何assemble the transcriptome(组装转录组) 3种算法 即转录基因组组装软件
1.Scripture 2、CuffLinks 3、Trinity(缺点:速度较慢)
StringTie和Cufflinks是做什么的?什么时候会用到?(2分) 转录本拼装, 研究新转录本,可变剪切时会用到。
有参考转录本组装工具:Cufflinks StringTie 无参考转录本组装工具:Trinity
·转录本拼装的意义是什么? 不同样品拼装结果最后需要merge在一起的意义是? (2分)
发现新的转录本,新的可变剪切形式,鉴定非编码RNA。合并是为了便于寻找发现。
5.不同组装转录组的方法的比较
Reference introns unique introns 课上举了1个Example:pipeline to discover novel lncRNAs
RNA 测序- 用了Melanocyte对照(黑色素细胞) 和melanocyte+BRAFV600E 2个黑(色)素瘤来源于前边的
组装到转录组上的方法:Scripture Cpc值越低,越可能是非编码RNA
注:Refseq是美国NCBI开发的,Gencode是欧洲EMBL-EBI开发的。
GENCODE项目的目标是基于生物学证据高精度地识别和分类人类和小鼠基因组中的所有基因特征,并发布这些注释以利于生物医学研究和基因组解释,我们使用Ensembl genome browser时,默认的基因注释就是Gencode annotation。
gencode的注释,我们最常用的是Comprehensive 版本,这个版本有一个特点,那就是全。这个版本与Refseq相比,转录本注释有着更多更全的外显子,对基因组的覆盖范围更广,能够帮助我们发现更多的突变
6.RNA-seq data的其他信息: 主要:除了表达水平信息外,RNA-seq数据还可用于识别重要的基因组和转录组的变异。
1.Fusion gene(融合基因) 癌症患者中很常见 融合基因会产生融合转录组
2.非编码RNA可以部分产生小肽(AUG和UAA之间的寻找,8-10个氨基酸连接)
7.怎么鉴定蛋白质-DNA的互作?Hypersensitive sites
采用染色体免疫共沉淀 大量的采用ChiP-seq 但不是直接证明(而是1种强证据,不能判断是否调控) DNA足迹
8.ChiP-seq and RIP/CLiP-seq的不同
染色体免疫共沉淀原理:在活细胞状态下固定蛋白质-DNA复合物,并将其随机切断为一定长度范围内的染色质小 片段,然后通过免疫学方法沉淀此复合体,特异性地富集目的蛋白结合的DNA片段,通过对目的片断的纯化与检测,从而获得蛋 白质与DNA相互作用的信息。
ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等相互作用的DNA区段信息
RIP-seq RNA Immunoprecipitation是研究细胞内RNA与蛋白结合情况的技术,是了解转录后调控网络动态过程的有力工具,能帮助我们发现miRNA的调节靶点。RIP-seq运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来,然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物,RIP实验的优化条件与ChIP实验不太相同(如复合物不需要固定,RIP反应体系中的试剂和抗体绝对不能含有RNA酶,抗体需经RIP实验验证等等)。RIP技术下游结合microarray技术被称为RIP-Chip,帮助我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。
CLIP-seq,又称为HITS-CLIP,即紫外交联免疫沉淀结合高通量测序(crosslinking-immunprecipitation and high-throughput sequencing), 是一项在全基因组水平揭示RNA分子与RNA结合蛋白相互作用的革命性技术,其主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生耦联,以RNA结合蛋白的特异性抗体将RNA-蛋白质复合体沉淀之后,回收其中的RNA片段,经添加接头、RT-PCR等步骤,对这些分子进行高通量测序,再经生物信息学的分析和处理、总结,挖掘出其特定规律,从而深入揭示RNA结合蛋白与RNA分子的调控作用及其对生命的意义 - meme一个蛋白质是怎么识别它的DNA、RNA结合位点的?
Motif meme Search motif 也可以反向检测1个motif是否在其他序列中存在
10.Peak calling 用 MACS Model-based Analysis of ChIP-Seq
缺点:Chip–seq的重复性差(70%左右质量已经算优了),Chip-Seq实验中全基因组的reads分布恰好是符合泊松分布的。https://www.jianshu.com/p/390f6d57488d
MACS:建立模型然后分析,模型指的是双峰模型,建立双峰模型的目的是为了更好的将原始reads朝3’偏移,更好的表示蛋白和DNA的作用位置。为什么要偏倚?
ChIP-seq目标是找到蛋白和DNA的作用位置,所以先要让蛋白和DNA进行交联,之后用超声打碎,再用抗体把与蛋白结合的DNA收集起来测序。在MACS发表的2008年,那个时候的测序大多都以单端50bp为主,而超声破碎的片段肯定大于50 bp(这可以通过电泳图来了解),也就是说最开始的SE50数据比对到参考基因组之后,得到的峰图并没有真实反映出原来的文库情况。但由于比对到基因组正负链的概率是相似的,那么就会形成两个峰(如下图),为了更好的还原出最来的文库片段,就先建立了双峰模型,以两峰距离d的一半作为偏倚长度。
如果你的数据是SE50或者SE100,为了更准确地找peak,需要建立双峰模型,可能要调整–bw, –mfold, –fix-bimodal, –shift, –extsize。 但是对于双端测序而言,它本身测的就是文库的两端,因此建立模型没有必要,偏倚也没有必要,你 只需要 设置
第11周课
Key:基因组水平的RNA结构 PARS icSHAPE 转录组水平的RNA二级结构的辨别
RNA的特点:单链灵活,不稳定的分布
1.RNA的功能
a.signal信号 b.decoy诱饵 c.guide指导 d.scarfford脚架
2.PARS(Parallel Analysis of RNA Structure,PARS)RNA结构平行分析
结构特异性核酸酶:
识别切除单链核苷酸的特异序列RNase S1 ,识别切除双链或成对的RNA序列 RNase V 1
PARS score 越高,提示该位点处越可能是双链RNA
①RNA编码特殊元件的区域与其他区域相比有更多的二级结构,有可能仅通过分析该特殊区域就能够鉴别一个RNA转录子的结构。
②相似结构的RNA分子具有相似的功能——有可能是结构决定了它们在细胞中的特异定位。
存在的问题:
(1)0的作用,需要去0
(2)针对酿酒酵母,推广到其他物种复杂度增加
(3)RNA结构的多样性,结构可能不是标准的
3.PARTE(Parallel Analysis of RNA by Temperature Elevation)
(1)去0的作用 log(V+1/S+1)
(2)smooth:取平均值
(3)归类
ncRNA对温度不敏感(稳定),mRNA对温度最敏感
4.mRNA结构 5’UTR不稳定,而3’UTR很稳定
第12周课
6.Agonaute结合位点是microRNA结合位点
AGO(Argonaute更容易结合RNA单链区域single Strand mRNA 即 PAR score 低的位置),单链区域更易被沉默,双链区域更稳定。
microRNA seeds 的碱基 base ,5’端2-8个碱基被称为种子序列,根据seed可以寻找micro结合位点,microRNA序列的互补序列
microRNA结合在UTR3’端
7.PARS的用途:
·SNPs can change RNA structure predictions: RiboSNitches。
·PARS can identify RiboSNitches in human transcriptomes
RiboSNitches是可以改变RNA结构的单核苷酸变异体(SNVs),它的丢失可能会导致特定RNA结构的改变,这种现象发生在成千上万的区域位点,其中包括3’-UTRs、microRNA的结合位点、RNA结合蛋白(RBPs)的结合位点。因此评估SNVs对转录后调控网络的作用将有助于理解不引起蛋白结构改变的遗传变异或RNA编辑影响生物表型的机制
RiboSNitches can be validated using RNA footprinting RNA的单链、双链
RNA构象的表示方法:
·····(())····· 二进制:0000011 1100000
RiboSNitches流程:
1、以5个碱基的框阅读
2、select expressed SNVs by coverage
3、Z-score which is StrucDiff / SD of doped in control
4、1000 permutation – select out stable/significant structure changes
错误发现率FDR (false discovery rate):Adjust p-values to estimate FDR
第15周课 单细胞测序 1
- 背景:单细胞测序技术 vs 传统测序
传统测序取所有细胞的平均值,特征模糊,无法分辨清晰类型;
单细胞测序 单细胞分辨率 特征清晰,能清晰分辨细胞亚型。
2.单细胞测序技术的优势和问题
优势:能揭示与疾病或特定生物学状态相关的细胞亚型和基因靶点
问题:平均每个细胞丢失80~90%的基因信息,并且数据量巨大,后续分析是难点,需要新型生物信息学算法的支持
3.单细胞测序技术的应用:从微观到宏观
(1)基因组、表观基因组研究 (2)调控网络、信号通路
(3)生物学现象、临床病症 (4)个性化医疗,精准医疗
4.(1)单细胞基因表达量Single cell gene expression
Full length: Fluidigm C1, Smart-seq
Single end: Drop-seq, Microwell-seq, SPLiT-seq
(2)单细胞染色体可及性分析Single cell chromatin accessibility scATAC-seq, sciATAC-seq, snATAC-seq
(3)Single cell epi-genomic information
(4)空间基因表达Spatial gene expression :seqFISH, MERFISH, StarMAP, 10X Visium, Slide-seq2
(5)多组学研究
5.单细胞转录组SMART-seq
(1)SMART-seq技术用流式细胞仪分选细胞,可以覆盖整个转录本,除了表达量信息,还可以后续分析SNV和可变剪切信息。
(2)测序深度高,每个细胞获得的测序片段数高。
(3)测序通量低,一次建库获得96至几百个单细胞
6.单细胞转录组10X Genomics
(1)自动捕获细胞,抓取基因的3’端信息,除了包含表达量信息,还可以做CNV分析。
(2)测序深度低,大部分基因仅有4个以下的片段被读取,每个细胞探测到的基因数也较少。
(3)测序通量大,对大部分类型的器官或组织的样本,一次建库能捕获6000个以上的细胞。
7.单细胞染色质组scATAC-seq
(1)染色质可及性是影响相关基因片段是否表达或者参与调控的关键因素。
(2)相同类型或者发育阶段的细胞具有类似的染色质可及性。
(3)DNA片段的开放也是上游基因(转录因子)绑定和调控的必要条件
8.测序技术:空间转录组MERFISH
探测的总基因数在几十至几百,可以区分单细胞,每个细胞的信息比较完整,对实验技术的要求较高。
9、测序技术: 空间转录组10X Visium
探测的基因数饱和度高,但是每个Spot并非单细胞,而是平均包含有5~20个细胞。测序方式和scRNA-seq类似,因此表达量矩阵也是稀疏的。
10、测序技术:多组学同时测序
数据预处理部分:基因表达量,质量控制,归一化,降维分析
12.
R toolkit for single cell genomics: Seurat(对于单细胞基因组的分析)
13.
细胞分群Seurat, SCENIC, SIMLR, SC3
Seurat:R工具(对于单细胞基因组的分析)
Filter genes 表达量变化幅度大的基因,对于细胞之间差异的贡献更大。
24不同的基因将基因表达量用不同正态曲线拟合
细胞分群:常见的分群算法:
1、细胞分群:Seurat(KNN graph + Louvain)
细胞分群:如何定义细胞类型? Single R 适合做(大的细胞类群的划分)
2、细胞分群:SCENIC (group Genes by motifs)
优点:(1)发现调控基因表达的重要转录因子(2)不同组织或器官的调控网络有相近的模式(3)避免批次效应
缺点:(1)细胞分群不清晰(2)细胞的一些重要特征被基因的平均表达量所掩盖。
3、细胞分群:SIMLR (Multiple Kernels)多核学习 内部细胞距离足够近,不同区块之间的距离足够远。
SIMIR:动态聚类 求解优化问题
优点:(1)细胞的分群清晰,获得较多的亚群
缺点:(1)参数 (β, γ) 的选取需要经验性知识(2)需要事先定义区块数© ,对群数的影响较大
(3)容易导致过拟合
4、细胞分群方法:SC3 Predict cluster number预测聚类数目
单细胞一致性聚类(single cell consensus clustering, SC3), 不同纬度的综合进行分群,即加和平均。
优点:①结果比较稳定,对参数依赖小②对大数据集的速度比较快③自动预测亚群数目
缺点:①考虑较多主成分的时候,计算时间指数上升②对精细细胞亚型的分辨较差
第16周课 单细胞测序 2
假时间轨迹:①monocle ②Velocyto ③Palantir (从1个时间点的数据模拟出成熟体系的过程)
1.monocle(基于表达量expression) 时间树,进行降纬分析,建立发育路径,
·利用真实数据进行验证软件功能是可靠的。
·monocle2 预测肺部上皮细胞分化命运:(可以预测与发育分支密切相关的基因集)利用免疫刺激树突细胞分化的基因knockout进行验证(基因是已知的)。
Go term分析:从基因集到基因集功能
Monocle的pros和cons:
2.Velocyto(基于splicing)`
·mRNA成熟度:验证实验SCP细胞向chromaffin cells的分化过程
·小鼠海马区:(细胞分群,进行细胞图谱构建):不同的发育轨迹由不同的转录因子调控
Velocyto的pros和cons:
优点:①从RNA成熟度的角度出发预测发育的起点和终点;②对多分支路径的预测比较好;
缺点:①对测序质量有一定要求,最好是全长测 ②路径的预测是基于tSNE或者UMAP的降维结果,需要质量是较高的(细胞群的相连)
3.Palantir·基于熵增大原理:
发育潜能很大,但变化幅度(熵)是较小的,而分化后,发育潜能小,变化幅度熵是较大的。
适合于诸如研究胚胎细胞的分化 ·验证方法:早期人类造血干细胞
Palantir的pros和cons:
Pros: ①从发育可能性的熵值出发,估计发育起点和终点 ②仅需要表达量信息 (需要很多样本)
Cons:①对原本就高无序性的样本,如肿瘤可能不适用 ②路径的展示方法比较依赖于降维方法
假时间轨迹:算法横向比较
判断指标:①分叉树的结构的正确性②分叉支点的正确性(细胞是否位于正确的结点上)③分叉的顺序④分化过程中重要的基因
合成数据 进行评估
插值与降噪:①Magic ②Saver ③DCA ④WEDGE (原因:细胞分群的稀疏,只有5%-10%的数据能被捕捉)
单细胞数据分析中的科学问题:
①稀疏矩阵(采用插值与降噪 解决) ②调控关系 (scATAC-seq解决)
③RNA-蛋白表达差异(RNA被翻译的次数不同) ④空间转录组(采用整合分析 解决)发育过程的空间位置信息
整合分析及原因
插值与降噪
1.MAGIC(细胞与细胞之间的关联,构建关联矩阵,关联度很高的基因表达量相互为依据)
(依赖对于邻居cell的确定)
2.SAVER(深度学习模型,负二项分布,利用偏移的负二项分布 挪移以重新获取基因表达量)
(假设基因表达符合负二项分布,理论与实践是近似的)
3.DCA(使用深度学习回归表达量均值和离散度)
拟合分析
4.WEDGE(对表达量矩阵中的零元和非零元分别做不同权重的非负矩阵分解) qulab
非零元:基因表达量的确很低
零元:由于实验原因,噪音基因表达信息未get,进行非权重分解 进行分群质量恢复的提高
用途:发现精细细胞亚型() 细胞层次降维
单细胞ATAC-seq分析:
前边提到的SIMIR 也可以用于验证 表达基因片段的上游是否存在一些motif
scATAC-Seq技术的开发:由斯坦福大学Howard Chang 和Greenleaf实验室联合开发
科学问题:scATAC-seq数据过于稀疏(>95%丢失),细胞分群无法达到scATAC RNA-seq一样的精度
1.ChromVAR:group peaks by motifs
peak的开放位点上游的motif进行堆积富集
用途:①细胞分化 路径的确立(造血干细胞 HSC的分群)②细胞聚类clustering ③假时间轨迹:细胞发育路径
ChromVAR优缺点:
优点:①从motif/TF分析容易定义每个亚群的功能 ②可以发现细胞发育的路径
缺点:①分群效果较差(将motif进行堆积,忽略了很多信息)②使用的motif都(必须)是已知的 ③只考虑开放位点上游调控的关系(忽略了开放位点下游网络)
- Cicero(group peak by genes)
认为基因的开放性(转录起始位点)周围与附近的峰认为也与之相关,能得到顺式开放型(下游网络)
Cicero的优缺点
优点:①揭示基因转录区域附近的调控因子 ②从DNA开放程度预测RNA表达量
缺点:①分群效果较差 ②仅考虑近端的调控因子 ③仅考虑下游调控关系
3.cisTopic:group peaks by topics
topic(影响开放位点差异型的组合)降纬,能够凝练成细胞和topic的矩阵 – 集群
ARI越高,细胞分群可信度越高 利用不同的表达topic(区分细胞亚群)
cisTopic优缺点: (一个topic可能包含了很多功能类型的细胞,因此)
优点:①细胞分群的效果较好 ②每个亚群的特征清晰
缺点:①每个特征(topic)的生物学功能比较模糊 ②每个topic内DNA开放片段之间的关联不清楚。
4.APEC:group peaks by pattern qulab
Peak的开放位点的Pattern – 细胞 和 pattern group 矩阵
缺点:有批次效应
用途:对单细胞数分群存在优势 构建单细胞发育路径(发育轨迹构建)
多组学整合:seurat novoSpaRc
1.seurat
Mutual 相互之间寻找neighbor 将不同 的数据整合在一起 用了cicero
空间转录组:将很少的scRNA RNA转录组信息 投影 到整体的空间转录组,在空间转录组得到更多的转录信息。
2.novoSpaRc
假设表达量模式相近的细胞在空间上也是相近的。
备注:如需其他科目,请关注中科大期末复习资料:
https://blog.csdn.net/qq_43337249/article/details/121847027
(CSDN爱做饭的电饭煲)








