使用Python的scikit-learn库实现回归预测，实战对房价的评估预测 - 好文

前言

自己动手，爬取58同城上的租房网站信息，然后用该数据预测未知的房源价格。爬虫部分不是我写的，我只是完成了其中的一部分预测功能。
预测主要是使用回归预测，预测结果比较简陋，但是也可以通过这个小项目，来简单地学习一下基于Python的回归预测。
在本文中，我实现了三种回归预测算法：
1. 支持向量回归(SVR)
2. logistic回归
3. 以及使用核技巧的岭回归(L2回归)

实现过程

数据准备

我们把项目上传到github中去，该部分的实现在这里：

https://github.com/TomorrowIsBetter/crawler/tree/master/price_prediction
<https://github.com/TomorrowIsBetter/crawler/tree/master/price_prediction>

在这个文件夹下的index.csv 文件就是爬出到的部分文件数据。我们可以直接来看下文件的格式：
_id,date,areas,square,methods,price,direction,type,houseAreas http://cc.58.com
/zufang/34009015301200x.shtml,1.53E+12,0,190,1,20000,0,4室2厅2卫,中信城(别墅) http://cc
.58.com/zufang/33977466998861x.shtml,1.53E+12,0,190,1,20000,0,4室2厅2卫,中信城(别墅)
http://cc.58.com/zufang/32214749419981x.shtml,1.53E+12,5,400,1,15000,0,4室3厅3
卫,融创上城http://cc.58.com/zufang/34129082983861x.shtml,1.53E+12,0,500,1,15000,0,5室3
厅2卫,中海莱茵东郡 http://cc.58.com/zufang/33587200250158x.shtml,1.53E+12,5,500,1,15000,
0,5室3厅4卫,融创上城(别墅) http://cc.58.com/zufang/34105507085903x.shtml,1.53E+12,1,320,1
,15000,1,1室1厅1卫,长江花园 http://cc.58.com/zufang/31241630941227x.shtml,1.53E+12,0,
143,1,12000,0,3室2厅2卫,融创上城

由于58同城在一线城市，例如笔者所在的北京，一般没有人在这上面租房和发布房源，数据大多数都是来源于中介。但是58在二三线城市的可用性还是可以的，所以，这里面的数据抓取的是国内某二三线城市中的数据。

在这里，我们可以注意到CSV文件的title,命名比较诡异，咳咳，就这样吧，不要吐槽哦~

模型训练

算法是统计学习方法，使用基于Python语言的scikit-learn库来实现。先看下代码我们再解释：
df = pandas.read_csv("index.csv") df = shuffle(df) df = shuffle(df) square =
df['square'].valuessquare = normalization(square) areas = df['areas'].values / 5
direction = df['direction'].values / 4 price = df['price'].values #price =
normalization(price) print(areas.shape,square.shape,direction.shape) data =
np.array([areas,square,direction])data = data.T train_fraction = .8 train_number
= int(df.shape[0] * train_fraction)X_train = data[:train_number] X_test =
data[train_number:]y_train = price[:train_number] y_test = price[train_number:]
print(np.max(price))# model clf = GridSearchCV(SVR(kernel='rbf',
gamma=0.1),{"C": [1e0, 1e1, 1e2, 1e3], "gamma": np.logspace(-2, 2, 5)},cv=5)
#clf =
GridSearchCV(LogisticRegression(),{"C":[1e0,1e1,1e2,1e3],"random_state":list(range(10))},cv=5)
#clf = GridSearchCV(KernelRidge(kernel='rbf', gamma=0.1), {"alpha": [1e0, 1e1,
1e2, 1e3], "gamma": np.logspace(-2, 2, 5)},cv=5) clf.fit(X_train,y_train) result
= clf.score(X_train,y_train)test = clf.score(X_test,y_test) c =
clf.best_params_y = clf.predict(X_test) x = list(range(len(y)))
plt.subplot(2,1,1) plt.scatter(x=x,y=y,color='r')
plt.scatter(x=x,y=y_test,color='g') print(clf.best_params_,result,test)deviation
= y - y_testdeviation = deviation.flatten() deviation = abs(deviation)
print(np.median(deviation)) plt.subplot(2,1,2) plt.hist(deviation,10)
joblib.dump(clf,"model.m") plt.show()
完整的代码在这个位置：

https://github.com/TomorrowIsBetter/crawler/blob/master/price_prediction/train.py

<https://github.com/TomorrowIsBetter/crawler/blob/master/price_prediction/train.py>

先说先这里代码的问题：

命名问题：归一化函数应该命名为动词词性；

当时命名的时候忘记这个了，代码都写出来了，懒得改了，大家知道就行了。

模型说明

代码主要分为这么几个部分：
1. 数据预处理：载入数据，打乱数据，数据的归一化
2. 数据集拆分：将数据集拆分为训练集和验证集
3. 训练模型：自动测试最佳超参数，使用训练集训练模型
4. 数据可视化：将预测结果和偏差分布情况可视化出来

归一化

模型的归一化遵循下面的公式来实现：

X^i=Xi−X¯Xmax−XminX^i=Xi−X¯Xmax−Xmin

其中，类别部分是使用标号{0,1,…,N}来标记的不通类别，归一化时，直接直接除以N即可。

数据集乱序

训练数据集必须要进行打乱，防止训练数据倾斜，造成的预测结果偏差。
如果大家想观察一下效果，可以将这两句代码注释掉：
df = shuffle(df) df = shuffle(df)
之后，大家就会直观地看到非乱序数据训练造成的模型预测结果(留给大家去操作一下，如果大家没有时间动手的话，只需要记住这个结论就好)。

数据集拆分

这使用的是交叉验证法，将数据集拆分为训练集和验证集两部分，其实对于深度学习这样数据集比较多的时候，一般拆分为训练集，测试集，验证集三部分，这里数据比较少，就拆分成这两个部分吧。
训练集和验证集的比例是 8:2

测试效果

如图所示，是该程序运行后的可视化图像：

从上图中可以看到，预测结果还是可以的；下图中显示的是预测结果与实际值之间的偏差，将该偏差以直方图的形式展现出来的结果。
可以看到，偏差整体呈现左偏分布，主要集中在[0,500]区间范围，表明该模型具有一定的预测效果。

总结

在此篇博文中，我们仅谈论具体的实现，在今后，我们会在博客中去介绍实现的一些原理，和对相关机器学习算法的讲解。

github中有训练集数据和其他实现部分，大家可以参考下：

https://github.com/TomorrowIsBetter/crawler
<https://github.com/TomorrowIsBetter/crawler>

其中，该部分内容位于price_prediction 目录中，其他部分是使用Node实现的爬虫以及使用AntDesign
实现的Web前段页面，由笔者美美哒女朋友实现(逃….)

热门工具换一换