garrrikkotua / text_generator Goto Github PK

View Code? Open in Web Editor NEW

0.0 4.0 0.0 15 KB

Simple text generator with bigrams

Python 100.00%

python bigrams text-generation

text_generator's Issues

Убрать start

text_generator/train.py

Lines 63 to 66 in 9d2d037

 b1 = '*start*' 

 for b2 in words: 

 yield (b1, b2) 

 b1 = b2

Идея твоя понятна в принципе, но она порождает неверное поведение генератора, который на seed *start* генерирует текст. Подумай как решить эту проблему

Ускорить генерацию слов

text_generator/generate.py

Lines 36 to 42 in 9d2d037

 total = sum(w for w in model[current_word].values()) 

 r = random.uniform(0, total) 

 upto = 0 

 for c, w in model[current_word].items(): 

 if upto + w >= r: 

 return c 

 upto += w

Цикл - это медленно, особенно если у тебя для слова есть много вариантов следующего, переделай на numpy.random.choice. Получится в два раза меньше кода и работать будет быстрее.

Добавить with или обработку исключения

text_generator/train.py

Lines 29 to 31 in b865074

 file = open(input_dir, 'r') 

 yield file 

 file.close()

Нужно обернуть место работы с файлом в with блок, чтобы даже в случае генерации исключения все файлы закрылись + неплохо бы написать предупреждение, что все файлы будут закрыты после итерирования по генератору (иначе пользователь может случайно наткнуться на исключение при попытке обернуть генератор листом и использовать после этого файлы)

Убрать проверку на расширение

text_generator/train.py

Line 28 in 9d2d037

if filename.endswith('.txt'):

Строго говоря, в задаче не было сказано, что на вход подаются файлы в формате txt. Тебе могут прийти json, xml, csv и прочие форматы файлов, которые содержат текст и которые можно прочитать без трудностей (ну то есть xlsx или doc не придет и это гарантируется)

Убрать копирования кода

text_generator/train.py

Lines 39 to 46 in 9d2d037

 if lowercase: 

 for file in files: 

 for line in file: 

 yield line.lower() 

 else: 

 for file in files: 

 for line in file: 

 yield line

Копипаст - это плохо. Если ты потом захочешь чуть-чуть изменить логику, то придется ее менять в двух местах сразу. Лучше условие внести внутрь цикла, например, так:
yield line.lower() if lowercase else line

Создать main

text_generator/train.py

Lines 104 to 112 in 9d2d037

 parse = ap.ArgumentParser(description='Train on some text') 

 parse.add_argument('-i', '--input-dir', help='Input directory', 

 default='', required=True) 

 parse.add_argument('-m', '--model', 

 help='Path to the file where model will be saved', 

 required=True) 

 parse.add_argument('--lc', action='store_true', help='Make text lowercase') 

 args = parse.parse_args() 

 train(args.input_dir, args.model, args.lc)

Весь этот кусок кода лучше вынести в main, чтобы можно было использовать потом отдельные методы из твоего скрипта в других

Можно убрать else

text_generator/generate.py

Lines 23 to 28 in 9d2d037

 if seed == '': 

 return random.choice(list(model.keys())) 

 else: 

 if seed not in model.keys(): 

 raise ValueError('Invalid seed') 

 return seed

У тебя в условии возвращается значение, то есть нет смысла писать else (тем более ты же этого не делаешь в следующей проверке)

Исправить обработку завершающего слова

Если в тексте встретится слово, после которого ничего не идет, то твой генератор будет вести себя странно. Есть два варианта как это адекватно обрабатывать, выбрать можно любой: либо остановиться, либо выбрать произвольное слово и продолжить

Использовать стандартные способы сериализации

text_generator/train.py

Lines 79 to 82 in 9d2d037

 with open(model, 'w') as file: # writing model to file 

 for bigram in d: 

 w1, w2 = bigram 

 file.write('{} {} {}\n'.format(w1, w2, d[bigram]))

Вместо записи в своем собственном формате лучше использовать csv, json или pickle (лучше одно из двух последних). Во-первых, это избавит тебя от необходимости обрабатывать запись модели циклами. Во-вторых, использование готовых библиотек избавит от возможных ошибок и позволит другим проще пользоваться сохраненными тобой моделями.

Поправить отступы

text_generator/generate.py

Lines 31 to 35 in 9d2d037

 def get_next_word(model, current_word): 

 """ 

  :param model: dict containing model 

  :param current_word: last outputted word in text 

  """

Выравнивание поправь

Описание скрипта

text_generator/train.py

Line 1 in 9d2d037

import argparse as ap

Нужно добавить небольшое описание всего скрипта, включая автора, версию и все в этом духе. Аналогично во втором файле.

Заменить format на параметр write

text_generator/generate.py

Lines 66 to 68 in b865074

 output.write('{}\n'.format(current_word)) 

 else: 

 output.write('{} '.format(current_word))

У write есть специальный параметр, который позволяет не городить тут столько текста с format

Убрать чтение из модели в train.py

text_generator/train.py

Line 76 in 9d2d037

d = previous_bigrams(model)

В условии сказано, что передается путь, куда сохранить модель, и есть алгоритм как эту модель получать. Если тебе передали файл, в котором какая-то модель уже есть, не надо ее использовать, по условию ее надо просто перезаписать.

Правильно читать постановку задачи - это важно. Если есть какие-то вопросы, то их нужно задавать до того как делать что-то, и главное просто из головы ничего не брать, потому что заказчик (постановщик задачи) обычно не просто так формирует требования, а собирается исходя из них (и больше не из чего) использовать результат.

Перенести описание функций

text_generator/train.py

Line 9 in 9d2d037

def previous_bigrams(model): # loads current mode if file is not empty

Так как описание какой-то функции может быть объемным его выносят не в inline комментарий, а ниже, перед описанием аргументов

Завершать вывод переносом строки

text_generator/generate.py

Lines 54 to 56 in 9d2d037

 for i in range(length): 

 output.write('{} '.format(current_word)) 

 current_word = get_next_word(model, current_word)

Хороший тон: завершать вывод в консоль переносом строки, а не пробелом

garrrikkotua / text_generator Goto Github PK

text_generator's Issues

Убрать start

Ускорить генерацию слов

Добавить with или обработку исключения

Убрать проверку на расширение

Убрать копирования кода

Создать main

Можно убрать else

Исправить обработку завершающего слова

Использовать стандартные способы сериализации

Поправить отступы

Описание скрипта

Заменить format на параметр write

Убрать чтение из модели в train.py

Перенести описание функций

Завершать вывод переносом строки

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

	total = sum(w for w in model[current_word].values())
	r = random.uniform(0, total)
	upto = 0
	for c, w in model[current_word].items():
	if upto + w >= r:
	return c
	upto += w

	if lowercase:
	for file in files:
	for line in file:
	yield line.lower()
	else:
	for file in files:
	for line in file:
	yield line

	parse = ap.ArgumentParser(description='Train on some text')
	parse.add_argument('-i', '--input-dir', help='Input directory',
	default='', required=True)
	parse.add_argument('-m', '--model',
	help='Path to the file where model will be saved',
	required=True)
	parse.add_argument('--lc', action='store_true', help='Make text lowercase')
	args = parse.parse_args()
	train(args.input_dir, args.model, args.lc)

	if seed == '':
	return random.choice(list(model.keys()))
	else:
	if seed not in model.keys():
	raise ValueError('Invalid seed')
	return seed

	with open(model, 'w') as file: # writing model to file
	for bigram in d:
	w1, w2 = bigram
	file.write('{} {} {}\n'.format(w1, w2, d[bigram]))

	def get_next_word(model, current_word):
	"""
	:param model: dict containing model
	:param current_word: last outputted word in text
	"""

	output.write('{}\n'.format(current_word))
	else:
	output.write('{} '.format(current_word))

	for i in range(length):
	output.write('{} '.format(current_word))
	current_word = get_next_word(model, current_word)