科创研究院2018十一科研营
人工智能机器学习方向(自然语言处理之文本分类)
项目简介
人类第一次技术革命是18世纪的工业革命,第二次技术革命是19世纪的电力革命,第三次技术革命是20世纪的信息革命,第四次革命史正在发生的新能源革命,第五次革命就是即将发生的人工智能革命。人工智能的核心是机器学习,它是使计算机具有智能的根本途径。整个21世纪毫无疑问是人工智能的时代,如果你现在20岁,你将在本世纪完整见证人工智能的崛起,如果你能参与到机器学习领域,那你将抓住21世纪的脉搏。
此实习项目专门为计划申请计算机、软件工程、电子及自动化等专业的学生所设计。学生将跟随导师一同工作,实际进行数据预处理、数据管理、数据探索与分析、机器学习、数据可视化等工作。实习结束后,导师会根据学生表现出具推荐信。
项目内容
本课程是一门理论知识与技术实践相结合的课程。课程将描述一个完整的机器学习项目:文本分类,他是指如何用机器学习算法,分析智能手机用户的年龄,性别,兴趣爱好。课程目的包括
是使学生了解机器是怎么学习人类知识的:包括机器学习的基本方法:线性回归,逻辑回归,决策树,支持向量机,贝叶斯分类器,神经网络。
培养学生使用机器学习解决现实问题的能力:面对具体的问题,如何使用上述工具,搭建相应的机器学习模型,解决具体的现实问题。
培养学生开发搭建人工智能应用的动手能力:使用开发一个Python+Sklearn+spark的文本分类算法。
师资背景
任职教师是知名研究所助理研究员。作为教学组成员,参与研究生教学工作。从数据采集到数据管理,聚类,模型建立,并形成准确的步态分类模型。从数据预测到可视化,拥有丰富且成功的研究和时间经历和经验。从事超过9年的计算机系统经历。
招生对象及要求
有志参与人工智能,对机器学习有浓厚兴趣的学生。大二以上优秀本科生及部分优秀高中生,计划申请计算机、软件工程、电子及自动化等相关专业,为了让学生可以更好的完成科研项目,项目组会以笔试和面试的形式对学生进行筛选。
行程安排
时间:10.1-10.7
日期 |
时间 |
项目进度 |
Lab相关 |
10月1日 |
下午 |
外地学生入住酒店,破冰活动,自我介绍,学生分组,导师进行项目简介 |
|
10月2日 |
上午 |
人工智能大背景,机器学习是什么,基本原理,方法论 |
开发环境普查 |
下午 |
线性回归及逻辑回归 |
||
10月3日 |
上午 |
决策树及KNN算法实现 |
编程基础 |
下午 |
朴素贝叶斯分类器及逻辑回归 |
||
10月4日 |
上午 |
词向量模型 |
数据库基础介绍 |
下午 |
文本分类之特征选择:词向量,熵增益,互信息等 |
||
10月5日 |
上午 |
感知机,神经网络和Word2Vex |
Spark/Sklearn开发 |
下午 |
基于Spark/Sklearn的文本分类应用开发 |
||
10月6日 |
上午 |
文本分类应用开发(上) |
算法开发 |
下午 |
文本分类应用开发(下) 实现对所提供的的多个公共文本分类数据集用自己的算法进行分类,并尽可能的提高准确率 |
||
10月7日 |
上午 |
应用开发验收 |
算法实现 |
下午 |
大作业验收与课程总结 |
备注:实际行程安排顺序可能会根据特定原因进行调整