珞珈村下山 每天前进一小步

关于基于树的建模的完整教程(从R&Python)

基于树的学习算法被认为是最好的和最常用的监督学习(supervised learning)方法之一。基于树的方法赋予预测模型高精度,稳定性和易于解释的能力。 与线性模型不同,它们非常好地映射非线性关系。 它们适应于解决手头的任何问题(分类或回归)。 决策树,随机森林,梯度提升等方法被广泛用于各种数据科学问题。 因此,对于每个分析师(新手也是一样)来说,重要的是学习这些算法并将其用于建模。 本教程旨在帮助初学者从头开始学习基于树的建模。 成功完成本教程之后,人们期望熟练使用基于树的算法和构建...

数据分析笔试

考点1 SQL语句 例题:有一个计费表,表名jifei,字段如下:phone(8位的电话号码),month(月份),expenses(月消费,费用为0表明该月没有产生费用) 下面是该表的一条记录:64262631,201011,30.6 这条记录的含义就是64262631的号码在2010年11月份产生了30.6元的话费。 按照要求写出满足下列条件的sql语句: 1、 查找2010年6、7、8月有话费产生但9、10月没有使用并(6、7、8月话费均在51-100元之间的用户 1 sele...

SQL基本操作

DML(数据操纵语言) SELECT - 从数据库表中获取数据 UPDATE - 更新数据库表中的数据 DELETE - 从数据库表中删除数据 INSERT INTO - 向数据库表中插入数据 DDL(数据定义语言) CREATE DATABASE - 创建新数据库 ALTER DATABASE - 修改数据库 CREATE TABLE - 创建新表 ALTER TABLE - 变更(改变)数据库表 DROP TABLE - 删除表 CR...

“和颐酒店女生遇袭”事件梳理

和颐酒店女生遇袭事件 “和颐酒店女生遇袭”事件几乎占据了5月新闻的热搜榜,在此次热点中,在大家呼吁女性权益和人身安全的时候,也有阴谋论的声音出现。为探寻集中的某些原因,我爬取了弯弯__2016的第一条微博(包括其转发和评论的数据)。if you want it,click here. 1. 热点发酵的全过程 从第一条微博开始,我们来探寻整个事件发酵的全过程。所有数据的截止时间为2016-05-03,根据每小时内的转发和评论的数量绘制如上折线图。从中大致可以看出舆论大致可以分为三个...

使用dplyr包进行数据清理

定义: 数据结构 数据语义 整理杂乱的数据集: Case 1: 列名称是值,不是变量名 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29# > religion \<$10k $10-20k $20-30k $30-40k $40-50k $50-75k # > (chr) (int) (int) (int) (int) (int) (int) ...