Skip to content

生信爱好者周刊(第 112 期):龙腾虎跃、砥砺前行

这里记录每周值得分享的生信相关内容,周日发布。

本杂志开源(GitHub: openbiox/weekly),欢迎提交 issue,投稿或推荐生信相关内容。

「生信周刊讨论区」

封面图

视作新年的音符🎵

本周话题:龙腾虎跃、砥砺前行

龙年即将来临,我们在这个除旧迎新的日子里为大家献上旧年的最后一期。祝各位小编和读者新年龙腾虎跃、龙马精神、龙行天下!踏过今天,我们的周刊将进入第四个年头,感谢各位的阅读、支持、相伴和付出。在春节期间,我们的周刊计划暂停两周,期待我们再次相遇,龙年再会!

ShixiangWang - 在龙年到来前的一天,我整理最后一期的内容,回想着周刊的时间线、往事种种。在我们学习、长大、事业中,我认为我们总该为自己留一点不难么追求利益、又在坚持付出的事情,过去几年这个周刊其实就在填满我内心关于这一部分的空白。只是想单纯做点什么、坚持点什么。现实和生活越来越复杂多变,我需要一些恒定的东西记录着自己前行的脚步。特别感谢阅读的读者们和一路支持的小伙伴们。世界很大、未来很长,衷心祝愿各位每一步都能往自己的梦想和内心多靠近一点点。

生信研究

1、Nature Medicine | 100k基因组计划(100000 Genomes Project)癌症数据集,旨在为精准肿瘤学提供新方向

文章介绍了英国的100,000基因组计划(100,000 Genomes Project)的癌症数据集,旨在为精准肿瘤学提供新方向。该计划致力于收集大量癌症患者的基因组数据,以便更好地理解肿瘤的发展机制、个体差异和治疗响应。通过分析这些数据,研究人员可以发现潜在的治疗靶点,为个性化治疗提供指导。

  • 论文链接:https://www.nature.com/articles/s41591-023-02682-0

2、Nature Medicine | 首次临床蛋白组学用于胰腺癌临床诊疗

本文介绍了由沈柏、陈赛娟、方海和印彤团队共同完成了将临床蛋白组学应用于胰腺癌治疗的工作。该工作首次将临床蛋白组数据应用于指导患者预后,还探索预测辅助治疗疗效的蛋白标志物,为制定胰腺癌临床诊疗方案提供了有力支持,同时为肿瘤领域的研究者们提供了一个深层次挖掘现有的肿瘤临床组学大数据的实际操作案例。

  • 论文链接:https://www.nature.com/articles/s41591-023-02790-x

3、Nat Biotechnol | 用于DNA杂交染色质结构解析的空间基因组校准器

在细胞的生命周期中,真核生物染色体经历剧烈的压缩和解压缩过程,这一动态的结构对于细胞核中DNA复制,重组,修复及基因转录等过程十分重要。多路复用DNA荧光原位杂交(multiplexed DNA fluorescence in situ hybridization, M-DNA-FISH)是分析真核生物三维基因组结构的常用手段,能识别几十到几千个基因组位点,但其并不直接对染色质进行追踪,从噪点荧光信号中提取染色质构象信息一直以来都存在挑战,任兵教授团队报道了一个空间基因组校准器,通过将信号对准DNA聚合物模型,从噪声中解析真正的染色质信号。作者用此方法对以往的全基因组染色体追踪数据进行再处理,发现非同期的小鼠胚胎干细胞S/G2期姐妹染色单体会发生空间聚集,并为成年小鼠皮层有丝分裂后期神经元中保持紧密配对的胞外染色体的存在提供了证据。

  • 论文链接:https://doi.org/10.1038/s41587-022-01568-9

4、Genome Med | 大规模长读长WGS队列分析揭示WES无法检测到的分子诊断结果

相比于短读长WGS,长读长全基因组测序(lrWGS)有可能解决WES的技术限制。目前,市场上主要有两种lrWGS技术:Pacific Biosciences(PacBio)的单分子实时(SMRT)测序和Oxford Nanopore Technologies(ONT)的纳米孔测序。近日,来自沙特阿拉伯的研究团队对疑似常染色体隐性遗传病的患者进行了迄今为止规模最大的低深度lrWGS应用的探讨,分析导致WES未能进行基因诊断的各种因素,以及lrWGS作为一种反射性检测的应用。该研究表明,虽然lrWGS清楚地揭示了被WES遗漏的因果变异,但注释挑战仍然是WES无法诊断的一个重要原因。

  • 论文链接:https://doi.org/10.1186/s13073-023-01270-8

5、iMeta | 原核微生物泛基因组与基因组分析平台IPGA

IPGA是一个可以对较大规模微生物基因组进行比较分析的平台,它提供了基于基因组注释与泛基因组注释的包括进系统发育分析、基因组共线性分析和核心基因差异分析等后续分析在内的整合流程,并提供了免费、简单的页面操作环境。相关论文中展示了9个不同的数据集演示了IPGA泛基因组分析模块的性能,包括宏基因组组装的基因组,食源性病原体的基因组,以及来自几种细菌分支的基因组。

  • 论文链接:https://doi.org/10.1002/imt2.55
  • 平台链接:https://nmdc.cn/ipga/

博文资讯

6、“Linux 中国” 开源社区,停止运营

“Linux 中国” 这个社区,包括它的主网( https://linux.cn/ )、公众号、视频号,以及下属的《硬核观察》栏目,将无限期停止更新和运营。

硬核老王宣布这个运行了20年的社区将停止运维,这对开源来说是一个悲痛的消息,也预示着个人媒体在个人生活与时代变化中挣扎后的宿命。未来我们公众号和这个周刊的归宿是不是会与之相同?能安慰自我的是,不变的就是改变,干一天算一天的事情。

7、Polars (最强Pandas平替)

Pandas 和 Polars 都是 Python 中用于数据分析和处理的流行库。它们都提供了一组强大的工具,用于加载、清理、转换和分析数据。这篇文章简要介绍了Polars库的使用方法。

8、Diffusion 和Stable Diffusion的数学和工作原理详细解释

Diffusion Model

Stable Diffusion (Latent Diffusion Model)

文中总结:

  • 扩散模型分为正向扩散和反向扩散两部分。
  • 正扩散可以用封闭形式的公式计算。
  • 反向扩散可以用训练好的神经网络来完成。
  • 为了近似所需的去噪步骤q,我们只需要使用神经网络εθ近似噪声εₜ。
  • 在简化损失函数上进行训练可以获得更好的样本质量。
  • 稳定扩散(潜扩散模型)是在潜空间中进行扩散过程,因此比纯扩散模型快得多。
  • 纯扩散模型被修改为接受条件输入,如文本、图像、语义等。

9、疫苗的发明

本文根据《生物学概念与途径》第七章内容整理展开了人类发明疫苗的进程。

10、全新编程语言「Mojo」:兼容Python核心功能,提速35000倍

Mojo 是一门新的编程语言,其将 Python 的易用性和 C 的性能结合起来,弥合了研究和生产之间的差距。使用 Mojo,用户可以编写比 C 语言更快的可移植代码,并与 Python 生态系统无缝互操作,其目标是成为 AI 研究和生产的理想选择。

工具

11、Polychrome | 创建、查看和评估具有多种(20-30或更多)颜色的调色板的工具

读者感兴趣可以读读对应的论文:https://www.jstatsoft.org/article/view/v090c01

12、pipen | 基于 Python 的分析流程框架

from pipen import Proc, Pipen

class P1(Proc):
    """Sort input file"""
    input = "infile"
    input_data = ["/tmp/data.txt"]
    output = "outfile:file:intermediate.txt"
    script = "cat {{in.infile}} | sort > {{out.outfile}}"

class P2(Proc):
    """Paste line number"""
    requires = P1
    input = "infile"
    output = "outfile:file:result.txt"
    script = "paste <(seq 1 3) {{in.infile}} > {{out.outfile}}"

class MyPipeline(Pipen):
    starts = P1

if __name__ == "__main__":
    MyPipeline().run()

13、基于GPT的快速提示语言(Prompt)应用开发框架

  • https://github.com/mleoking/PromptAppGPT

14、基于shiny.semantic和Fomantic UI的Shiny快速、漂亮和可定制的仪表板模板

15、TransVar | 精准医学的多路注释器

TransVar是遗传元素和遗传变异的多路注释器。它在基因组坐标(例如,chr3:g.178936091G>A)和转录物依赖性cDNA以及蛋白质坐标(例如,PIK3CA:p.E545K或PIK3CA:c.1633G>A,或NM_006218.2:p.E545K,或NP_006266.2:p.G240Afs*50)上运行。它特别设计具有解决因差异转录使用而产生的模棱两可的突变注释的功能。TransVar在进行反向注释(通过从蛋白质水平到cDNA水平的模糊匹配)时,保持对潜在未知转录结构(外显子边界、参考氨基酸/碱)的认识。

16、babelgene | 满足你对基因互转的所有想象

babelgene是一个进行同种/异种间基因ID和symbol的转换的R包,本推文通过具体实例介绍了通过它进行ID转换工作。

  • 工具教程:https://igordot.github.io/babelgene/articles/babelgene-intro.html

资源

17、单细胞测序术语 | Single Cell Vocabulary

本资源整理了单细胞研究中常见的名词及其解释。

18、在CRAN上发布带有Rust代码的R包

另外可以参考:https://cran.r-project.org/web/packages/using_rust.html

历史上的本周

贡献者(GitHub ID)

「Openbiox 生信周刊」运维小队:

  • @ShixiangWang(王诗翔)
  • @kkjtmac(阚科佳)
  • @NiEntropy(赵启祥)
  • @He-Kai-fly(何凯)
  • @JnanZhang(张佳楠)
  • @Tomcxf(陈啸枫)
  • @wangdepin(王德品)
  • @kongjianyang(空间阳)

订阅

这个周刊每周日发布,同步更新在微信公众号「优雅R」(elegant-r)上。

微信搜索“优雅R”或者扫描二维码,即可订阅。

(完)

Comments