Я пытаюсь написать очень простой код, используя Spark в Pycharm, и моя операционная система — Windows 8. Я столкнулся с несколькими проблемами, которые каким-то образом удалось исправить, за исключением одной. Когда я запускаю код с помощью pyspark.cmd, все работает плавно, но мне не повезло с тем же кодом в pycharm. Возникла проблема с переменной SPARK_HOME, которую я исправил с помощью следующего кода:
import sys
import os
os.environ['SPARK_HOME'] = "C:/Spark/spark-1.4.1-bin-hadoop2.6"
sys.path.append("C:/Spark/spark-1.4.1-bin-hadoop2.6/python")
sys.path.append('C:/Spark/spark-1.4.1-bin-hadoop2.6/python/pyspark')
Итак, теперь, когда я импортирую pyspark, и все в порядке:
from pyspark import SparkContext
Проблема возникает, когда я хочу запустить остальную часть моего кода:
logFile = "C:/Spark/spark-1.4.1-bin-hadoop2.6/README.md"
sc = SparkContext()
logData = sc.textFile(logFile).cache()
logData.count()
Когда я получаю следующую ошибку:
15/08/27 12:04:15 ERROR Executor: Exception in task 0.0 in stage 0.0 (TID 0)
java.io.IOException: Cannot run program "python": CreateProcess error=2, The system cannot find the file specified
Я добавил путь Python в качестве переменной среды, и он правильно работает с использованием командной строки, но я не мог понять, в чем моя проблема с этим кодом. Любая помощь или комментарий приветствуются.
Спасибо
