卡耐基梅隆大学计算机项目
Carnegie Mellon University CS Research
面向对象:以欲申请美国名校计算机类、电子工程类、自动化等相关专业的大学生及优秀的高中生;
软性背景:有一定的科研履历者优先;
科研主题:机器学习;人机交互;用户研究;移动系统;知识图谱;自然语言理解;
科研导师:CMU 计算机专业导师;
科研地点:CMU 科研组会议室;
科研时间:寒假,暑假,4 周。具体时间由科研组调整,面试前我们会安排学生阅读一篇专业论文
CMU 科研组 6 个科研项目简介
I.[DL] 深度学习最前沿
关键词: 深度学习理论/方法, 高级机器学习
学生群体: 想要在 ICML/NIPS/ICLR 发表论文的同学. 学生必须有非常强的编程背景,较好的数学能力,和深厚的机器学习功底,最好对于统计,线性代数,优化,以及脑神经科学也有所了解。
简介: 卡耐基梅隆并不是一个随随便便被别人的研究方向影响然后做一点小小的提高的地方,我们更感兴趣的是提出引领世界的想法,并且把这些想发高质量的实现出来。比如说,把一些著名的深度学习模型,如 CNN/LSTM/GAN, 变得更好只能算是二流的科研,我们感兴趣的是如何彻底的取代 CNN/LSTM/GAN.
具体的方向在这份简介中不便透露,但是大概的方向包括:
AI.[DL] 深度学习:新方法与新应用
关键词: 深度学习, 机器学习, CNN, GAN
学生群体: 有较好的编程能力和对深度学习有一定理解的同学。最好是接触过 TensorFlow 或者 PyTorch 的同学. 这个项目在有将来创业想法的同学中非常受欢迎.
简介: 深度学习是近期最热的话题之一了。由于其无可比拟的表征能力,人们将深度学习应用在了各种各样的问题中。我们仍然有很多机会最初很有趣的项目来。这个项目非常适合那些想要了解深度学习并且想要使用深度学习解决问题的同学。 一些曾经的例子包括:
●多模态情感分析 [1]
●医疗图像分析 [2]
●人类基因组研究 [3]
在未来,这个项目将会重点关注基因组研究领域。项目的核心是希望同学们能够练习使用深度学习解决当前最复杂的问题,该项目并不要求同学们掌握生物学知识。
BI.[STATS] 高维数据中的模型选择等问题
关键词: 统计, 模型选择, lasso, confounder correction, 线性混合模型, 高维数据, 生物统计
学生群体: 有扎实统计学背景的同学. 统计专业的同学.
简介: 这个大数据的时代见证了数据量的高速增长。在同数据量告诉增长的同时, 每一个数据点所带来的信息增长的更加迅速, 从而带来了一个高维数据的世界。 在机器学习和统计学领域,我们通常将数据特征比数据点更多的情况称之为高维数据. 不难理解,在高维数据中我们没有足够的数据来研究这届特征。从统计学的角度上讲,很多相关的问题时下并没有解法,在这些问题上的任何一点进步都有可能影响世界。这个项目鼓励同学们去研究相关的充满挑战性的问题。
我们准备了一些新颖的问题共同学们解决,但是细节不便透露。这里罗列一些在我们这里已经解决的问题以便参考(以下为专业相关细节,不提供翻译。如果同学们不能看懂的话,请选择其他项目。):
●Lasso is known with inconsistent [2] and unstable problems [3], therefore, variable selection usually turns out to be underperform than expected. There are a few solutions proposed to rescue these problems, like Adaptive Lasso [4], Elastic Net [5], Precision Lasso [6], but these are not satisfying enough.
●Another challenge is about heterogeneous data: modern data sets are barely collected with a consistent setting, resulting the data come from twisted distributions. This heterogenous property raises challenges for reliable variable selection, and some attempt solutions are based on linear mixed model [7]. Some extensions are proposed as follow-ups [8], but there are a lot of chances to extend this work [9].
IV. [ML] 经典机器学习应用: 计算金融 & 计算生物学
关键词: 机器学习, 计算金融, 计算生物学
学生群体: 具有基础机器学习只是和编程能力的同学。学生需要了解微积分,线性代数和统计学。广泛适用于各个专业的同学,包括计算机专业,统计专业,数学专业,电子工程,金融专业,甚至生物专业。
简介: 机器学习将成为这个人工智能时代最重要的话题。 该项目主要为同学们提供研究新的机器学习方法并且使用机器学习方法解决问题的机会。该项目目前仅关注于时下最火热的计算金融和计算生物学的问题。这两个分支的关注点略有区别:
●计算金融:
○应用已有的方法解决金融的问题。
○相比于数学能力,需要更多的编程能力。
○几乎不需要金融学相关知识。
○及其优秀的同学可以获得去纽约梅隆银行实习的机会。
●计算生物学:
○更多关注于开发新的方法。
○相比于编程能力,需要更多的数学能力。
○有时需要对生物学只是有所了解。
○及其优秀的同学可获得 CMU MSBIC 或 MSCB 等项目的内部推荐。
V. [HCI] 基因组研究数据的可视化问题
关键词: HCI, 可视化, 基因组研究, GUI
学生群体: 具有基本编程能力的人机交互方向同学, 最好同时又基本的统计学知识。
简介: 基因组研究是目前最热门的研究领域之一, 有大量的科学家为此夜以继日。他们中的很多研究都发表在了诸如 Nature 一样的期刊中。可是,由于生物系统极其复杂,想找到一个清晰地报告自己科研成果的方法并不容易。这个项目鼓励同学们去帮助他们。
项目具体包括两个步骤:
●我们要研究现有的,例如 LocusZoom 等工具, 模仿并通过 python 实现出来。
●我们研究目前这些可视化方法的局限性,并提高他们,已达到帮助科学家们简化汇报结果的繁琐过程,并且让结果更加简明的汇报出来。
VI. [HCI] 设计并实现 EIR 项目的网络平台
关键词: 交互式的网络接口, GUI
学生群体: 具有基本编程能力的人机交互方向同学。对 UI 设计感兴趣的同学。
简介: Eir 项目是我们近期的一个主要项目,试图将机器学习应用于生物信息的科研中。我们创造了一个人工智能的科学家,她可以无休无止的选择并阅读相关的科研文献并且将文献中的内容加以总结。为了保证我们的系统能够以最好的方式为社会服务,我们需要一个交互式的网络平台为普通大众提供一个使用 Eir 的接口。 在这之前,我们已经完成了一个叫做 GenAMap 的项目。
这个项目要求同学们设计并实现一个交互式的网络接口使得 Eir 可以接受一个科研命题,搜索相关文献,选择重点文献阅读并且总结汇报成果。这个项目包含四个模块:
●设计介绍网站。
●用 HTML5 实现介绍网站。
●设计应用网站。
●用 HTML5 和 Python,实现应用网站。