impworks / lens Goto Github PK

View Code? Open in Web Editor NEW

88.0 88.0 9.0 5.83 MB

Language for Embeddable .NET Scripting

License: MIT License

C# 100.00%

compiler dotnet dotnetcore embeddable language scripting-language

lens's People

Contributors

Stargazers

Watchers

Forkers

djcomandos trickycat nikom87 menozz taekun matrixdekoder vplemyannik c3nb uamhforever

lens's Issues

Названия классов InversionOperator, NegationOperator

Эти классы нужно переименовать в *Node, я думаю.

Написать ресолвер типов для TypeSignature

Написать рабочую версию TypeSignature.resolveType и тесты к ней.

Ключевые слова

При написании парсера следует учесть, что ключевые слова формально являются идентификаторами. Нужно поставить проверку на то, чтобы они таковыми не считались.

using
record
type
of
fun
let
var
while
if
else
try
catch
throw
new
not
typeof
default
as
ref
out
true
false
null

Также в языке будут разрешены классические object, string, int, float, long, double - но в качестве алиасов для имен типов, а не в качестве ключевых слов.

Ключевые слова являются регистро-зависимыми. Синтаксиса типа @keyword не предполагается. Идентификатор может начинаться с ключевого слова, т.е. types - валидное имя для переменной.

Парсинг Get\SetMemberNode

Посмотрел в *MemberNode, а там только название member'а и присваиваемое значение в set-варианте. Когда разбирается выражение типа (a + b).mbr, куда записывается (a + b)?

Приделать метод Prepare

Требуется дополнительный обход дерева, предшествующий компиляции. Этот обход должен выполнять следующий действия:

Регистрировать Assembly Entities для типов и функций
Заносить все локальные переменные и константы в Scope.
Обнаруживать и регистрировать в виде AE замыкания.
Обнаруживать и регистрировать в виде AE каррированные методы.

Имена идентификаторов

Не нашёл в документации, как правильно формируются имена переменных и типов. Считаю, это нужно обязательно где-то описать, а также сообщить мне для парсера.

Сейчас я использую такое определение:

identifierRef         := regex "[a-zA-Z_][0-9a-zA-Z_]*" >>=?
                            fun s -> if List.exists (fun k -> k = s) keywords then
                                         pzero
                                     else
                                         preturn s

Что означает:

Имя должно начинаться с английской буквы или знака _.
Имя должно соответствовать минимум из одного символа.
Имя может содержать английские буквы, цифры и знак _.
Имя не может совпадать с ключевым словом языка.

Возвращаемые значения из конструкций

Сейчас у нас в языке предусмотрено, что if или while могут стоять по правую сторону от знака присваивания и результатом такого действия будет последняя выполненная команда \ строка. Однако такой подход сопряжен с определенными неудобствами.

Во-первых, если каждая строка будет оставлять что-то на стеке в надежде, что кто-то этим воспользуется, байткод получится неоптимальным и будет изобиловать операторами pop.

Во-вторых, система вывода типов не позволит сделать такое условие:

if(a)
    do_something 1 2
else
    do_nothing

Если у функций do_something и do_nothing разный возвращаемый тип. В данном случае очевидно, что мы не присваиваем ничего и нам нахрен не нужно их возвращаемое значение.

Видимо, в метод Compile() помимо указателя на CompilerContext придется передавать еще и флаг, оставлять ли значение на стеке или нет.

UnitNode

Класс Lens.SyntaxTree.SyntaxTree.Literals.UnitNode почему-то оказался internal.

Именование узлов синтаксического дерева

Классы пространства имён Lens.SyntaxTree.Literals названы как-то непоследовательно: у нас тут, например, и DoubleLiteral, и IntNode. Нужно назвать как-нибудь одинаково: или везде Node, или везде Literal. Лучше Node - так будет больше походить на соседние пространства имён (все имена из Lens.SyntaxTree.* заканчиваются на Node).

Равенство узлов синтаксического дерева

В тестах возникла задача сравнивать узлы синтаксического дерева. Для этого у них, наверное, придётся перегрузить метод Equals.

Нормально ли это?

Не пригодится ли где-нибудь ещё?

Если не пригодится (или будет мешать) - можно для тестов написать какую-нибудь фигню, которая бы сравнивала объекты рефлекшоном.

Баги парсера, выявленные тестами

Здесь буду отписываться по мере появления багов в парсере, ради которых не хочется создавать отдельные тикеты.

На парсятся дробные числа. Тест NewObjectDeclaration проходится, если 13.37 заменить на 13.

CatchNode: нет поля для хранения типа и имени перехватываемого исключения

В CatchNode нужно хранить тип исключения и имя объекта, под которым это исключение будет доступно внутреннему коду.

Флаг mustReturn

Недавно ввел в интерфейс NodeBase.Compile() флаг mustReturn. По сути, он нужен был для такого случая:

fun log str:string ->
    Console.WriteLine str
    str

fun log val:int ->
    Console.WriteLine val
    val

if (Math.RandomBool ())
    log "hello"
else
    log 1

По сути, разные ветки выражения if будут иметь разный тип, и если бы его результат присваивался в переменную, это было бы недопустимо. Однако в теле метода такой код вполне имеет право на жизнь и не хотелось бы уродовать его таким образом:

if (Math.RandomBool ())
    log "hello"
    () 
else
    log 1
    ()

В таком случае CodeBlockNode вызывал бы все ноды, кроме последней, со значением false, а например LetNode вызывала бы Value.Compile() со значением true.

Вроде выглядит удобно и понятно, но меня смущает тот факт, что у механизма, проходящего через все без исключения ноды, есть только одна точка применения - и все. Не является ли это оверкиллом?

LENS и Fluid Style а-ля LINQ

Поскольку параметры в функции передаются без скобок, LINQ-вызов на LENS получится довольно громоздким и неудобным:

(((Enumerable.Range 1 100).Where x:int -> x > 10).Select x:int -> x * 2

В F# для этого используется оператор |>, и код выглядит так:

let data = Emumerable.Range 1 100
let res = data
|> IEnumerable.filter (fun x -> x > 10)
|> IEnumerable.map (fun x -> x * 2)

У нас же оператор |> сейчас используется для обратной цели - перед ним стоит функция, а после него - аргумент, не поместившийся на строку.

Возможно, есть смысл пересмотреть эту концепцию. Для передачи многих параметров в функцию использовать <|, а для передачи значения по цепочке функций использовать оператор |>? Тогда linq-вызов выглядел бы так:

var data = Enumerable.Range 1 100
let res = data
|> IEnumerable.Where x:int -> x > 10
|> IEnumerable.Select x:int -> x * 2

А передача - так:

var result = somefx
<| param1
<| param 2

Среда разработки

Нужно утвердить ряд вопросов, связанных со средой разработки.

Visual Studio 2010 или 2012?
.NET 4 или 4.5?
Пишем ли мы unit-тесты.
Если пишем, то будем ли делать CI-сервер?
Каков порядок внесения изменений в проект. Будем ли делать код-ревью?

Я бы предпочёл использование VS2012, .NET4 с unit-тестами и интеграцией. Для интеграции можно использовать Jenkins, у меня есть минимальный опыт его использования с .NET-проектами.

Вообще, вопросы 3, 4 и 5 у меня возникли после того, как я понаблюдал за разработкой scala - там у ребят все серьёзно, и, как мне кажется, такой подход приносит ощутимые результаты как в плане развития проекта, так и в плане общей осведомлённости разработчиков о том, как идут дела в соседних компонентах.

Облагородить сообщения об ошибках парсинга

Нашего препода безумно интересует адекватность сообщений об ошибках. В этой связи нужно сделать так, чтобы выдавался не список возможных лексем, а какие-то человекопонятные сообщения.

Желательно сделать этот способ расширяемым и легко дописываемым, потому что по мере тестирования вылезет много случаев, в которых было бы логично видеть кастомизированное сообщение об ошибке.

Проблемы грамматики

Решил завести одну задачу для грамматики, и все проблемы писать сюда.

Итак, номер первый. Есть такой вот пример кода:

a = (1 + 2).someShit

В соответствии с текущей грамматикой, он не может быть распарсен. .someShit - это accessor_expr, а в соответствии с грамматикой, accessor_expr идёт только после статических или локальных идентификаторов:

lvalue              = ( type "::" identifier | identifier ) { accessor_expr }
accessor_expr       = "." identifier | "[" line_expr "]"

Сходу не могу придумать, как решить эту проблему.

Вопросы, связанные с параметрами функций

Дефолтные значения для параметров?
Следует ли позволять пользователю объявлять ref и out параметры? Как в этом случае быть с частичным применением?
Как хранить переменные при описании функции? Каждая переменная - это модификатор, само имя и тип. Ошибка может быть вызвана любой из этих трех частей, стоит ли подсвечивать сразу всё или выделить три лексемы?

Заполнение параметров StartLocation, EndLocation

Нужно что-то придумать для того, чтобы заполнить свойства StartLocation, EndLocation объектов NodeBase.

Null

Нет узла синтаксического дерева для обозначения значения null.

Тест ManyParameters

На мой взгляд, тестовый код какой-то кривой:

test 1337 true "hello" new(13.37; new [1; 2])

Я предлагаю такое исправление:

test 1337 true "hello" (new(13.37; new [1; 2]))

(после такого фикса тест начинает худо-бедно работать)

Должно ли быть возможным использование аргумента функции в таком контексте без скобок? F#, например, этого не позволяет, и грамматика у нас составлена соответствующим образом.

Написать парсер

Полагаю, можно уже понемножку начинать работы в ветке parser.

Написать метод, определяющий расстояние между типами

Расстояние между типами - это метрика, которая позволяет определить наиболее подходящий оверрайд метод для вызова. Чем меньше расстояние - тем больше метод "подходит".

Для вычисления расстояний используются следующие правила:

dist(T, T) = 0
dist(T1, T2) = 1 + dist(T1, T2.Parent)
dist(object, T(value)) = 1
dist(IType, Type(IType)) = 1
dist(X<in T1>, X<in T2>) = dist(T2, T1)
dist(T1[], T2[]) = dist(T1, T2)
dist(X<out T1>, X<out T2>) = dist(T1, T2)

Есть также особые случаи:

Для генериков с N аргументами расстояние считается как сумма N расстояний между соответствующими типами.
Для базовых типов расстояние считается по цепочке расширений типа: byte -> short -> int -> long -> decimal, single -> double. Переходы с int на single и с long на double также считаются за единицу.

RecordDefinitionNode: не хватает поля Name

Непонятно, куда записывать имя record'а в узел RecordDefinitionNode.

Тесты

Нужно написать тесты, покрывающие все возможности LENS:

Как минимум по 1 тесту на каждую ноду для независимой проверки.
Собирательные тесты для проверки взаимодействия нод.

Эти тесты можно будет впоследствие представить в дипломе в качестве доказательства работоспособности программы: там есть отдельный раздел "отладка и тестирование".

Многострочные аргументы функции

Есть такой тест:

test
    <| true
    <| (a:double) ->
        logger.log a
        a ** 2
    <| false

Он не проходит из-за того, что аргументы функции должны быть в скобках (обсуждалось в #37).

Взял лямбду в скобки - парсинг стал проходить. Результат таков:

test
    <| true
    <| ((a:double) ->
        logger.log a
        a ** 2)
    <| false

Является ли это поведение правильным? Прошу учесть, что на текущий момент любого рода сложные выражения (например, 2 + 2) тоже не будут работать без скобок даже при многострочной передаче параметров.

Не забыть включить в парсер изменения в грамматике

Добавлена поддержка default(T)
Добавлена возможность вызова Enumerable.Empty()
Исправлены параметры типов при описании его имени

Все это необходимо не забыть учесть в парсере.

Бага: парсер не воспринимает литерал Unit

Строка () не парсится, хотя должна выдавать UnitNode. Заведен тест в ParserTest.cs.

Продумать взаимодействие с host-стороной

Скрипт должен иметь возможность взаимодействовать с вызывающей его стороной. Для этого интерпретатору перед исполнением должны скармливаться типы и методы, которыми скрипт сможет манипулировать.

Необходимо продумать то, как сгенерированная с помощью Reflection.Emit сборка сможет получать к ним доступ.

Хотелось бы, например, сделать вот так:

script.AddType(typeof(System.Math));
script.AddMethod("log", (string s) => Console.WriteLine(s));

Выдавать сообщение о некорректном ident при парсинге

Хотелось бы иметь корректное сообщение о том, что в скрипте поехал identing.

Тесты для парсера

Парсер уже скоро будет готов. Для того, чтобы побыстрее его допинать, я отложил написание unit-тестов. Но написать их будет нужно обязательно, потому что есть много мелочей, которые я мог не заметить (например, перепутать узлы синтаксического дерева).

Один я буду слишком долго писать тесты, так что, @impworks, мне потребуется твоя помощь.

Когда закончу парсер - залью его в ветку master, и отдельно уведомлю о начале этапа активной разработки тестов.

Непонятные узлы

Непонятно, зачем нужны узлы NewDictionaryNode, NewListNode - в грамматике ничего такого нет (по крайней мере, я не нашёл).

Если и правда не нужны - предлагаю пока удалить.

Пустые строки в исходном коде

Для большей наглядности я написал в тестах код таким образом:

var src = @"
type hello
    | tag1
    | tag2";

И все тесты моментально попапали.

Следует ли использовать :: в качестве разделителя namespace?

Вопрос возник из следующей проблемы: допустим, есть выражение:

alpha.beta.gamma.delta.eps = 1

В данном случае, из-за рекурсивного подхода оно будет воспринято парсером так:

(((alpha.beta).gamma).delta).eps = 1

Что верно, если это всё объекты, но с другой стороны, alpha.beta.gamma может вполне оказаться неймспейсом, а delta - именем класса. Или же alpha.beta - неймспейс, gamma - класс, delta - имя свойства типа X, у которого в свою очередь есть свойство eps.

Разрешение таких идентификаторов становится вопросом нетривиальным. Причем разрешение должно начинаться с верхнего уровня, где выражение выглядит как X.Y = Z и мы пытаемся узнать, что такое X, спускаясь постепенно вниз и вниз.

Насколько я знаю, неймспейс - штука неделимая. Объявление namespace alpha.beta.gamma не гарантирует создания базовых неймспейсов alpha и alpha.beta, поэтому как нода, представляющая собой alpha будет разруливать, что она - часть неймспейса - одному богу ведомо. Даже если я и ошибаюсь, алгоритм все равно получается жутко рекурсивный.

Отсюда вариант: записывать доступ к неймспейсам так:

alpha::beta::gamma::delta.eps = 1
alpha::beta::gamma.delta.eps = 1

Плюсы:

Упрощение парсера
Визуальная наглядность

Минусы:

Несоответствие неймспейса его "каноническому виду", несущественно
На 1 символ длинее

@ForNeVeR, что скажешь? Я пока что за.

Как пользоваться алгебраическими типами данных без pattern matching?

Никак не могу придумать, что делать с алгебраическими типами данных. @ForNeVeR, может быть, у тебя есть какие-то мысли?

Возьмем, например, такой тип:

type Multitude
    | Integer of int
    | Fractional of double
    | None

А потом мы делаем так:

var some1 = Integer 1
var some2 = Fractional 1.337

Но что теперь с ними делать? Какие поля будут у переменных some1 и some2? Как проверить их тип?

Варианта я вижу два:

Сделать расово верную поддержку pattern matching хотя бы для алгебраических типов. Если останется время, можно будет вкорячить туда также разбор IEnumerable и Tuple. Для него понадобится дополнительный синтаксис, ноды, правки в парсере и тесты.
Эмулировать недостающее существующими возможностями:
1. К каждому алгебраическому типу SomeType будет прилагаться enum вида SomeTypeKind.
2. У объекта типа SomeType будет поле Kind типа SomeTypeKind для проверки типа.
3. Также для каждого поля Label, имеющего тег, будет доступно поле типа LabelTag.

Что скажешь?

Узел для using

Для выражения using на данный момент не существует узла синтаксического дерева. Вероятно, нужно его добавить.

Ошибка в парсере - любая константа считается вызовом функции

Вот что происходит, когда я парсю строчку:

var v = 1

Оно думает, что 1 - это вызов функции с 0 параметрами. O_O

typeof и sizeof

Нужны ли нам эти операторы?
Если typeof нужен, то придется также допускать специальный формат записи типа - generic-тип без опциональных параметров, как то:

var tupleGeneric = typeof(Tuple<,,,>); // кортеж из 4 элементов

Вопросы, связанные с совместимостью с .NET

Внезапно выяснилось несколько неоднозначных моментов, связанных с совместимостью с фреймворком .NET:

Мы поддерживаем только одномерные массивы или массивы массивов. Критично ли отсутствие поддержки для объявления N-мерных массивов?
Нужно ли поддерживать функции с out и ref-параметрами?
Нужно ли поддерживать атрибуты? (полагаю что нет)
Что делать с подписями типов? Мне пока не приходит на ум нормального способа узнать на уровне парсера, что такое A<B - выражение "а меньше б", или же часть подписи типа A<B> ?

Синтаксис record

В документации приведён такой пример для record:

record Student =
    Name : string
    Age : int

Однако в файле Grammar.txt нет упоминаний о знаке равенства:

recorddef           = "record" identifier NL recorddef_stmt { recorddef_stmt }

Нужно или исправить документацию, или исправить грамматику.

Изменения в грамматике

Здесь буду описывать изменения в грамматике, которые требуется синхронизировать с кодом парсера. Не хочется плодить массу тикетов.

Пробелы в грамматике

Нигде в грамматике не обнаружил мест, в которых разрешены (или запрещены) пробелы, табуляции и прочий вайтспейс. Нужно обсудить этот вопрос. Вижу возможность ввести обработку двумя способами:

Уточнить грамматику, дополнив вайтспейсом в нужных местах. Недостаток этого способа: грамматика станет слишком уж переполнена ненужными и неинтересными описаниями вайтспейса.
Сделать допущение, что каждый узел грамматики может содержать любое количество вайтспейса после себя. Это легко будет внедрить в коде на глобальном уровне.

И ещё - что мы считаем вайтспейсом? Есть какие-то формальные определения?

Частичное применение функций

Только мозг дошел до того, чтобы обдумать конкретным образом частичное применение функций в LENS. Пока ничего путного не приходит.

Основная проблема в сочетании ЧПФ и полиморфизма. Допустим, есть код:

fun test a:int b:int -> print a+b
fun test a:int b:long -> print a+b
fun test a:string b:string -> print a+b

var a1 = test
var a2 = test 1

Должна ли такая ситуация обрабатываться? Если да, то какого типа будут эти переменные и можно ли будет на их основе делать дальнейшее ЧПФ?

Пока есть идея, как сделать ЧПФ со следующими ограничениями:

Можно делать ЧП-версии только глобально объявленных функций по их имени
У функции с таким именем не должно быть оверрайдов с другими типами параметров
Следствие пункта 1: ЧП-версия функции не может быть повторно использована в новом ЧПФ.

@ForNeVeR: Стоит ли оно того при таком раскладе? Или пока отложить весь механизм до следующих версий?

Разузнать насчет генераторов парсеров

Использовать готовый, или снова писать парсер ручками?

invoke_list

Нашёл в Grammar.txt потенциально опасную конструкцию:

invoke_list         = { value_expr } | ( { NL "<|" value_expr } NL )

Она опасна тем, что под форму { value_expr } подходит пустая строка - следовательно, эта форма будет матчиться вечно (на самом деле, fparsec просто бросит исключение, обнаружив такой парсер). Необходимо чем-то укрепить эту ветвь, чтобы она не могла сматчиться на пустом месте.

Добавить промежуточный слой абстракции между контекстом и сборкой

Сейчас класс Context представляет собой сборную солянку, которая чуть-чуть повышает уровень абстракции:

Отделяет типы, записи и функции в отдельные хранилища
Ресолвит типы и кеширует результаты
Хранит указатели на Assembly Entities - сборку, модуль, основной тип и точку входа
Выполняет другие служебные функции

Такой подход прост, но по мере того, как Lens обрастает функционалом, в нем будет все проще и проще запутаться. Например, существуют следующие проблемы:

Типы ресолвятся и кешируются в Dictionary, как полагается, а поля и методы нет
Нет удобного и очевидного способа генерировать встроенные методы в записи и типы
Непонятно, как и где учитывать дополнительные методы и типы, создаваемые в результате обнаружения замыканий и каррированных функций
Во встроенных типах появляется иерархия (Type > Label), но мы вынуждены использовать костыль для ее учета в методах поиска подходящих типов для аргументов и т.д.

Для исправления ситуации предлагается создать честную модель системы типов, описанных в скрипте, заменяющую собой неработающие методы Reflection'а у классов, получаемых через Emit.

Костяк будет состоять примерно из следующих классов:

Context
   TypeReference (name, parent)
       MethodReference (name, args, return)
       ConstructorReference (args)
       FieldReference (name, type)
       PropertyReference (name, type)

Соответственно, Context теперь будет работать следующим образом:

Создается пустой контекст
В контексте сохраняется дерево Node'ов
Выполняется первый проход (Structurize)
1. TypeNode, RecordNode и TypeLabel превращаются в TypeReference
2. RecordEntry превращаются в FieldReference
3. FunctionNode превращаются в MethodReference
4. LambdaNode превращаются в хитроназванные TypeReference и MethodReference в них
Выполняется второй проход (Expand):
1. Обнаруживаются замыкания, создаются FieldReference, в MethodReference.Context отмечаются замкнутые переменные
2. Обнаруживаются каррированные функции, создаются MethodReference.
Выполняется третий проход (Prepare), в который для всех элементов дерева наконец-то создаются Assembly Entities
Выполняется заключительный четвертый проход (Compile), в который собственно генерится код.

Используя такой подход, мы получаем следующие преимущества:

Можно использовать Node'ы для описания логики встроенных методов, не придется шпарить их на голом MSIL'е.
Кеширование простое и однозначное на всех уровнях. Для поиска типа нужен один dictionary lookup, для поиска поля - два, для метода - чуть сложнее, но все равно просто и универсально.
Поиск подходящих типов для аргументов будет работать универсально и без костылей.

Ничего я не упустил? Может быть, осталась какая-то неоднозначность?

Продумать способ передачи контекста компиляции

Многие методы в ходе своей работы требуют обращения к "контексту компиляции" - некой структуре, хранящей в себе различную информацию, в частности:

Список объявленных типов, методов, полей
Указатель на тело текущего метода для того, чтобы знать куда emit'ить код
Контекстную информацию (например, текущий блок try для того, чтобы определить допустимость rethrow)
Прочие интересности

В проекте Mirelle это называлось Emitter и передавалось в каждый метод Compile и GetExpressionType, что не очень удобно. Есть вариант хранить его статически, но он накрывает возможность создания двух экземпляров интерпретатора и использование его в многопоточной среде. Нужно подумать о том, насколько это важно.

Продумать схему реализации замыканий

Нужно подумать на тему того, как лучше реализовать замыкания. Пока видится два варианта:

Иметь специальный класс, который перестраивает дерево, заменяя обращения к локальной переменной на обращения к полю объекта специального класса.
Иметь специальный класс, который обходит блок кода и помечает переменные как замкнутые, а в коде обращения к переменной будет прописано специальное условие, проверяющее этот флаг.

Первый более общий и более правильный - иметь гибкие механизмы перестраивания дерева кода открыло бы огромные возможности для всяких штук типа yield return или async, второй же вариант проще, хотя класс, отвечающий за обращение к переменным сильно замусорится.

Написать БНФ

Extension Methods

По тексту задачи #9 я заметил, что ты планируешь использовать LINQ в Lens. Для этого придётся поддерживать Extension Methods. В курсе ли ты, как это вообще реализуется?