在《TensorFlow机器学习项目实战》的4.4节,作者使用了skflow。skflow刚出来的时候火了一阵,但是接口变化非常频繁,所以后来用的人也越来越少,也导致4.4的程序不能运行了。
在《TensorFlow机器学习项目实战》的4.4节,作者使用了skflow。skflow刚出来的时候火了一阵,但是接口变化非常频繁,所以后来用的人也越来越少,也导致4.4的程序不能运行了。
但是最近发布的TensorFlow 1.4中,我们发现该模块已经集成到了核心模块,意味着接口基本稳定下来,并有推广使用的趋势。所以我把4.4的程序重新用Estimator写了一下,变量名基本保持不变,代码如下:
# -*- coding: utf-8 -*- import tensorflow as tf from sklearn import datasets, metrics, preprocessing import numpy as np import pandas as pd import os df = pd.read_csv("data/CHD.csv", header=0) print( df.describe()) X=df['age'].astype(float) feature_columns = [tf.contrib.layers.real_valued_column("X", dimension=1)] classifier = tf.estimator.LinearClassifier(feature_columns=feature_columns, model_dir=os.path.join(".","tmp","logistic")) #classifier = tf.estimator.LinearClassifier(feature_columns=feature_columns) input_fn_train= tf.estimator.inputs.numpy_input_fn( x={"X" : np.array(X)}, y=np.array(df['chd']), batch_size=2, num_epochs=None, shuffle=True) classifier.train(input_fn=input_fn_train,steps=2000) #模型的准确度 score = classifier.evaluate(input_fn=input_fn_train,steps=50)["accuracy"] print("Accuracy: %f" % score)
注:这段程序可以在Ubuntu和MacOS下面跑,但是Windows下面还不行,是路径的问题。这应该是Estimator的一个BUG,在contrib.learn下也是一样的不行。如果想在windows下,一定要用注释掉的部分。
这里面最难写的是input_fn函数,也是最重要的函数,我在这段程序中直接使用了numpy_input_fn来构建。[1]中除了这个方法还给出了从pandas构建的方法,大家可以自己尝试。
input_fn带来了一个好处,就是可以按照生产者消费者模式读取数据,具体的解释可以参考[2]。简单的解释,就是IO一般都比较慢,我们需要在数据处理的过程中进行读取数据,那样就可以充分的节省时间,这样就设计多线程在后台不断的取数据。
feature_colums的构建需要一定的技巧,这个主要参考[3]
另外的一个变化就是模型的准确度不再是用metric模块,而是Estimator自带的模块。
如果大家有什么问题欢迎留言
Reference
[1] 为Estimator构建输入函数