Есть ли у Google функция транскрипции
Транскрибция в Google Docs: аудио для текстовой транскрипции
Используйте фрагмент кода ниже, чтобы преобразовать видеофайл в аудиофайл с помощью FFMPEG .
Транскрибировать звук из видеофайла с помощью речи в текст
В этом учебном пособии показано, как транскрибировать аудио-трек из видеофайла с помощью речи в текст.
Аудиофайлы могут поступать из разных источников. Аудиоданные могут поступать с телефона (например, голосовой почты) или саундтрека, включенного в видеофайл.
Речь в тексте может использовать одно из нескольких машинного обучения модели Чтобы транскрибировать свой аудиофайл, чтобы лучше всего соответствовать исходному источнику аудио. Вы можете получить лучшие результаты от своей речевой транскрипции, указав источник исходного звука. Это позволяет речи в текст обрабатывать ваши аудиофайлы с помощью модели машинного обучения, обученной для данных, аналогично вашему аудиофайлу.
Цели
- Отправить запрос на транскрипцию аудио.
Расходы
- Речи к тексту
Для получения оценки затрат на основе вашего прогнозируемого использования, используйте калькулятор ценообразования. Новые пользователи Google Cloud могут иметь право на бесплатную пробную версию.
Прежде чем вы начнете
В этом уроке есть несколько предпосылок:
- Вы настроили проект речи к тексту в консоли Google Cloud Console.
- Вы настроили среду, используя учетные данные по умолчанию приложения в консоли Cloud Google.
- Вы создали среду разработки для выбранного вами языка программирования.
- Вы установили клиентскую библиотеку Google Cloud для выбранного вами языка программирования.
Подготовьте аудиоданные
Прежде чем вы сможете расшифровать аудио из видео, вы должны извлечь данные из видеофайла. После извлечения аудиоданте.
Примечание: Если вы используете клиентскую библиотеку для транскрипции, вам не нужно хранить или преобразовать аудиоданные. Вам нужно только извлечь аудиодата из видеофайла перед отправкой запроса на транскрипцию.
Извлеките аудиоданные
Вы можете использовать любой инструмент преобразования файлов, который обрабатывает аудио и видеофайлы, например, FFMPEG.
Используйте фрагмент кода ниже, чтобы преобразовать видеофайл в аудиофайл с помощью FFMPEG .
ffmpeg -i-файл видео-файл
Хранить или преобразовать аудиоданные
Вы можете расшифровать аудиофайл, хранящийся на локальной машине или в облачном хранилище.
Используйте следующую команду, чтобы загрузить ваш аудиофайл в существующее ведро облачного хранилища, используя инструмент GSUTIL.
GSUTIL CP Audio-Oppet-файл хранилище Bucket-Uri
Если вы используете локальный файл и планируете отправить запрос с помощью инструмента Curl из командной строки, сначала необходимо преобразовать аудиофайл в данные BASE64-кодируемых.
Используйте следующую команду, чтобы преобразовать аудиофайл в текстовый файл.
Base64 Audio-Oppet-file -W 0> Аудио-дата-текст
Отправить запрос на транскрипцию
Используйте следующий код, чтобы отправить запрос на транскрипцию в речь в тексте.
Локальный запрос на файл
Протокол
См. Речь: распознайте конечную точку API для получения полной информации.
Чтобы выполнить синхронное распознавание речи, сделать запрос на почту и предоставить соответствующий орган запроса. На следующем показан пример запроса поста с помощью curl . В примере используется токен доступа для учетной записи службы, настроенной для проекта с использованием Google Cloud Google Cloud CLI. Для получения инструкций по установке CLI GCLOUD, настройке проекта с учетной записью службы и получении токена доступа, см. QuickStart.
curl -s -h "" Content-type: Application/json "\ -h" Авторизация: носитель $ (gcloud auth application-default print-access-token) "\ https: // Речь.Googleapis.com/v1/речь: распознавать \ -data ' < "config": < "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "Модель": "Видео" >, "Audio": < "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" >> '
См. Справочная документация incomectonfig для получения дополнительной информации о настройке корпуса запроса.
Если запрос успешно, сервер возвращает код состояния HTTP 200 OK и ответ в формате JSON:
Идти
Для аутентификации в речи в тексте настройте учетные данные по умолчанию. Для получения дополнительной информации см. Настройку аутентификации для местной среды разработки.
Func Modelselection (w io.Автор, строка пути) ошибка {ctx: = контекст.Founal () клиент, err: = речь.NewClient (ctx), если ошибка != nil {return fmt.Errorf ("newClient: %w", err)} отложить клиент.Close () // path = "../testdata/Google_gnome.Wav "Data, err: = ioutil.Readfile (path), если ошибка != nil {return fmt.Errorf ("readfile: %w", err)} req: = & speechpb.Признание {config: & speechpb.NassionConfig {кодирование: речь.Nacingconfig_lineear16, Sampleratehertz: 16000, LanguageCode: «en-us», модель: «Видео»,}, Audio: & Speerpb.Признание {audiosource: & speechpb.UncomnitionAudio_content,},} resp, err: = client.Распознавать (ctx, req), если Err != nil {return fmt.Errorf ("распознавать: %w", err)} для i, result: = range resp.Результаты {fmt.Fprintf (w, "%s \ n", строки.Повторите ("-", 20)) FMT.Fprintf (w, "result %d \ n", i+1) для j, альтернатива: = результат диапазона.Альтернативы {fmt.Fprintf (w, "Альтернатива %D: %s \ n", J+1, альтернатива.Стенограмма)}} возвращать ноль}
Джава
Для аутентификации в речи в тексте настройте учетные данные по умолчанию. Для получения дополнительной информации см. Установите U
Транскрибция в Google Docs: аудио для текстовой транскрипции
Используйте фрагмент кода ниже, чтобы преобразовать видеофайл в аудиофайл с помощью FFMPEG .
Транскрибировать звук из видеофайла с помощью речи в текст
В этом учебном пособии показано, как транскрибировать аудио-трек из видеофайла с помощью речи в текст.
Аудиофайлы могут поступать из разных источников. Аудиоданные могут поступать с телефона (например, голосовой почты) или саундтрека, включенного в видеофайл.
Речь в тексте может использовать одно из нескольких машинного обучения модели Чтобы транскрибировать свой аудиофайл, чтобы лучше всего соответствовать исходному источнику аудио. Вы можете получить лучшие результаты от своей речевой транскрипции, указав источник исходного звука. Это позволяет речи в текст обрабатывать ваши аудиофайлы с помощью модели машинного обучения, обученной для данных, аналогично вашему аудиофайлу.
Цели
- Отправить запрос на транскрипцию аудио.
Расходы
- Речи к тексту
Для получения оценки затрат на основе вашего прогнозируемого использования, используйте калькулятор ценообразования. Новые пользователи Google Cloud могут иметь право на бесплатную пробную версию.
Прежде чем вы начнете
В этом уроке есть несколько предпосылок:
- Вы настроили проект речи к тексту в консоли Google Cloud Console.
- Вы настроили среду, используя учетные данные по умолчанию приложения в консоли Cloud Google.
- Вы создали среду разработки для выбранного вами языка программирования.
- Вы установили клиентскую библиотеку Google Cloud для выбранного вами языка программирования.
Подготовьте аудиоданные
Прежде чем вы сможете расшифровать аудио из видео, вы должны извлечь данные из видеофайла. После извлечения аудиоданте.
Примечание: Если вы используете клиентскую библиотеку для транскрипции, вам не нужно хранить или преобразовать аудиоданные. Вам нужно только извлечь аудиодата из видеофайла перед отправкой запроса на транскрипцию.
Извлеките аудиоданные
Вы можете использовать любой инструмент преобразования файлов, который обрабатывает аудио и видеофайлы, например, FFMPEG.
Используйте фрагмент кода ниже, чтобы преобразовать видеофайл в аудиофайл с помощью FFMPEG .
ffmpeg -i видео-файл Аудио-выпускной файл
Хранить или преобразовать аудиоданные
Вы можете расшифровать аудиофайл, хранящийся на локальной машине или в облачном хранилище.
Используйте следующую команду, чтобы загрузить ваш аудиофайл в существующее ведро облачного хранилища, используя инструмент GSUTIL.
GSUTIL CP Аудио-выпускной файл Хранилище Бэкет-Ури
Если вы используете локальный файл и планируете отправить запрос с помощью инструмента Curl из командной строки, сначала необходимо преобразовать аудиофайл в данные BASE64-кодируемых.
Используйте следующую команду, чтобы преобразовать аудиофайл в текстовый файл.
База64 Аудио-выпускной файл -W 0>
Отправить запрос на транскрипцию
Используйте следующий код, чтобы отправить запрос на транскрипцию в речь в тексте.
Локальный запрос на файл
Протокол
См. Речь: распознайте конечную точку API для получения полной информации.
Чтобы выполнить синхронное распознавание речи, сделать запрос на почту и предоставить соответствующий орган запроса. На следующем показан пример запроса поста с помощью curl . В примере используется токен доступа для учетной записи службы, настроенной для проекта с использованием Google Cloud Google Cloud CLI. Для получения инструкций по установке CLI GCLOUD, настройке проекта с учетной записью службы и получении токена доступа, см. QuickStart.
curl -s -h "" Content-type: Application/json "\ -h" Авторизация: носитель $ (gcloud auth application-default print-access-token) "\ https: // Речь.Googleapis.com/v1/речь: распознавать \ -data ' < "config": < "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "Модель": "Видео" >, "Audio": < "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" >> '
См. Справочная документация incomectonfig для получения дополнительной информации о настройке корпуса запроса.
Если запрос успешно, сервер возвращает код состояния HTTP 200 OK и ответ в формате JSON:
Идти
Для аутентификации в речи в тексте настройте учетные данные по умолчанию. Для получения дополнительной информации см. Настройку аутентификации для местной среды разработки.
Func Modelselection (w io.Писатель, строка пути) ошибка < ctx := context.Background() client, err := speech.NewClient(ctx) if err != nil < return fmt.Errorf("NewClient: %w", err) >отложить клиент.Close () // path = "../testdata/Google_gnome.Wav "Data, err: = ioutil.Readfile (path), если ошибка != nil < return fmt.Errorf("ReadFile: %w", err) >req: = & speechpb.Признание< Config: &speechpb.RecognitionConfig< Encoding: speechpb.RecognitionConfig_LINEAR16, SampleRateHertz: 16000, LanguageCode: "en-US", Model: "video", >, Audio: & SpeechPB.Признание< AudioSource: &speechpb.RecognitionAudio_Content, >, > RESP, ERR: = клиент.Распознавать (ctx, req), если Err != nil < return fmt.Errorf("Recognize: %w", err) >для i, результат: = Range Resp.Полученные результаты < fmt.Fprintf(w, "%s\n", strings.Repeat("-", 20)) fmt.Fprintf(w, "Result %d\n", i+1) for j, alternative := range result.Alternatives < fmt.Fprintf(w, "Alternative %d: %s\n", j+1, alternative.Transcript) >> вернуть ноль>
Джава
Для аутентификации в речи в тексте настройте учетные данные по умолчанию. Для получения дополнительной информации см. Настройку аутентификации для местной среды разработки.
/*** Выполняет транскрипцию данного аудиофайфа синхронно с выбранной моделью. * * @param filename Путь к аудиофайлу для транскрибирования */ public static void transcribemodelselection (String filename) бросает исключение < Path path = Paths.get(fileName); byte[] content = Files.readAllBytes(path); try (SpeechClient speech = SpeechClient.create()) < // Configure request with video media type RecognitionConfig recConfig = RecognitionConfig.newBuilder() // encoding may either be omitted or must match the value in the file header .setEncoding(AudioEncoding.LINEAR16) .setLanguageCode("en-US") // sample rate hertz may be either be omitted or must match the value in the file // header .setSampleRateHertz(16000) .setModel("video") .build(); RecognitionAudio recognitionAudio = RecognitionAudio.newBuilder().setContent(ByteString.copyFrom(content)).build(); RecognizeResponse recognizeResponse = speech.recognize(recConfig, recognitionAudio); // Just print the first result here. SpeechRecognitionResult result = recognizeResponse.getResultsList().get(0); // There can be several alternative transcripts for a given chunk of speech. Just use the // first (most likely) one here. SpeechRecognitionAlternative alternative = result.getAlternativesList().get(0); System.out.printf("Transcript : %s\n", alternative.getTranscript()); >>
Узел.младший
Для аутентификации в речи в тексте настройте учетные данные по умолчанию. Для получения дополнительной информации см. Настройку аутентификации для местной среды разработки.
// Импорт клиентской библиотеки Google Cloud для бета-версии API/** * TODO (разработчик): обновить импорт клиентской библиотеки для использования новой * версии API, когда станут доступны желаемые функции */const speech = require ('@google-cloud/sherp').v1p1beta1; const fs = require ('fs'); // создает клиент Const Client = новая речь.SpeechClient (); /*** todo (разработчик): понаправляться следующими строками перед запуском образца. */ // const filename = 'локальный путь к аудиофайлу, e.г. /path/to/audio.сырой'; // const model = 'Модель для использования, e.г. phone_call, видео, по умолчанию '; // const incoding = 'кодирование аудиофайла, e.г. Linear16 '; // const smaperherehertz = 16000; // const languageCode = 'BCP-47 Языковой код, E.г. en-us '; const config = < encoding: encoding, sampleRateHertz: sampleRateHertz, languageCode: languageCode, model: model, >; const audio = < content: fs.readFileSync(filename).toString('base64'), >; const запрос = < config: config, audio: audio, >; // обнаруживает речь в аудиофайле const [response] = ждать клиента.Признать (запрос); Const Transcription = ответ.Результаты .карта (результат => результат.альтернативы [0].стенограмма) .join ('\ n'); консоль.log ('транскрипция:', транскрипция);
Питон
Для аутентификации в речи в тексте настройте учетные данные по умолчанию. Для получения дополнительной информации см. Настройку аутентификации для местной среды разработки.
def Transcribe_model_selection (sherce_file, model): "" "транскрибировать заданный аудиофайл синхронно с выбранной моделью."" "Из Google.облачный импорт речи клиент = речь.SpeechClient () с Open (speech_file, "rb") как audio_file: content = audio_file.read () audio = речь.Распознавание Audio (content = content) config = речь.Признаниеконфиг (кодирование = речь.Признаниеконфиг.Аудиокодирование.Linear16, sample_rate_hertz = 16000, rangue_code = "en-us", model = model,) response = client.распознавать (config = config, audio = audio) для i, привести к перечислению (ответ.результаты): альтернатива = результат.Альтернативы [0] print ("-" * 20) print (f "первая альтернатива результата") print (f "Transcript:")
Дополнительные языки
C#: Пожалуйста, следуйте инструкциям по настройке C# на странице клиентских библиотек, а затем посетите справочную документацию речи к тексту .СЕТЬ.
PHP: Пожалуйста, следуйте инструкциям по настройке PHP на странице клиентских библиотек, а затем посетите справочную документацию речи к тексту для PHP.
Рубин: Пожалуйста, следуйте инструкциям по настройке Ruby на странице клиентских библиотек, а затем посетите справочную документацию речи к тексту для Ruby.
Удаленный запрос на файл
Джава
Для аутентификации в речи в тексте настройте учетные данные по умолчанию. Для получения дополнительной информации см. Настройку аутентификации для местной среды разработки.
/*** Выполняет транскрипцию удаленного аудиофайла асинхронно с выбранной моделью. * * @param gcsuri Путь к удаленному аудиофайлу для транскрибирования. */ public static void transcribemodelselectiongcs (string gcsuri) выбрасывает исключение < try (SpeechClient speech = SpeechClient.create()) < // Configure request with video media type RecognitionConfig config = RecognitionConfig.newBuilder() // encoding may either be omitted or must match the value in the file header .setEncoding(AudioEncoding.LINEAR16) .setLanguageCode("en-US") // sample rate hertz may be either be omitted or must match the value in the file // header .setSampleRateHertz(16000) .setModel("video") .build(); RecognitionAudio audio = RecognitionAudio.newBuilder().setUri(gcsUri).build(); // Use non-blocking call for getting file transcription OperationFutureresponse = speech.longRunningRecognizeAsync(config, audio); while (!response.isDone()) < System.out.println("Waiting for response. "); Thread.sleep(10000); >Список результатов = ответ.получать().getResultslist (); // просто распечатать первый результат здесь. РЕЗУЛЬТАЦИЯ РЕЗУЛЬТАЦИИ РЕЗУЛЬТАЦИИ.получить (0); // может быть несколько альтернативных транскриптов для данной куски речи. Просто используйте // первое (скорее всего) здесь здесь. Речеерирование, альтернатива = результат.getAlternativeList ().получить (0); Система.вне.printf ("Transcript: %s \ n", альтернатива.getTranscript ()); >>
Узел.младший
Для аутентификации в речи в тексте настройте учетные данные по умолчанию. Для получения дополнительной информации см. Настройку аутентификации для местной среды разработки.
// Импорт клиентской библиотеки Google Cloud для бета-версии API/** * TODO (разработчик): обновить импорт клиентской библиотеки для использования новой * версии API, когда станут доступны желаемые функции */const speech = require ('@google-cloud/sherp').v1p1beta1; // создает клиент Const Client = новая речь.SpeechClient (); /*** todo (разработчик): понаправляться следующими строками перед запуском образца. */// const gcsuri = 'gs: // my-bucket/audio.сырой'; // const model = 'Модель для использования, e.г. phone_call, видео, по умолчанию '; // const incoding = 'кодирование аудиофайла, e.г. Linear16 '; // const smaperherehertz = 16000; // const languageCode = 'BCP-47 Языковой код, E.г. en-us '; const config = < encoding: encoding, sampleRateHertz: sampleRateHertz, languageCode: languageCode, model: model, >; const audio = < uri: gcsUri, >; const запрос = < config: config, audio: audio, >; // обнаруживает речь в аудиофайле. const [ответ] = ждать клиента.Признать (запрос); Const Transcription = ответ.Результаты .карта (результат => результат.альтернативы [0].стенограмма) .join ('\ n'); консоль.log ('транскрипция:', транскрипция);
Питон
Для аутентификации в речи в тексте настройте учетные данные по умолчанию. Для получения дополнительной информации см. Настройку аутентификации для местной среды разработки.
def Transcribe_model_selection_gcs (gcs_uri, model): "" "транскрибировать заданный аудиофайл асинхронно с выбранной моделью."" "Из Google.облачный импорт речи клиент = речь.SpeechClient () Audio = речь.Признание Audio (uri = gcs_uri) config = речь.Признаниеконфиг (кодирование = речь.Признаниеконфиг.Аудиокодирование.Linear16, sample_rate_hertz = 16000, ranguage_code = "en-us", model = model,) aperice = client.long_running_recognize (config = config, audio = audio) print ("В ожидании операции. .Результат (тайм -аут = 90) для i, приводящий к перечислению (ответ.результаты): альтернатива = результат.Альтернативы [0] print ("-" * 20) print (f "первая альтернатива результата") print (f "Transcript:")
Дополнительные языки
C#: Пожалуйста, следуйте инструкциям по настройке C# на странице клиентских библиотек, а затем посетите справочную документацию речи к тексту .СЕТЬ.
PHP: Пожалуйста, следуйте инструкциям по настройке PHP на странице клиентских библиотек, а затем посетите справочную документацию речи к тексту для PHP.
Рубин: Пожалуйста, следуйте инструкциям по настройке Ruby на странице клиентских библиотек, а затем посетите справочную документацию речи к тексту для Ruby.
Убирать
Чтобы избежать внесения сборов в вашей учетной записи Google Cloud за ресурсы, используемые в этом уроке, либо удалите проект, который содержит ресурсы, либо сохраните проект и удалите отдельные ресурсы.
Удалить проект
Самый простой способ ликвидации выставления счетов – это удалить проект, который вы создали для учебного пособия.
- Все в проекте удалено. Если вы использовали существующий проект для этого учебника, когда вы его удаляете, вы также удаляете любую другую работу, которую выполнили в проекте.
- Пользовательские идентификаторы проекта потеряны. Когда вы создали этот проект, вы, возможно, создали пользовательский идентификатор проекта, который вы хотите использовать в будущем. Для сохранения URL -адресов, которые используют идентификатор проекта, такие как Appspot.Com URL, удалите выбранные ресурсы внутри проекта вместо удаления всего проекта.
Осторожность: Удаление проекта имеет следующие эффекты:
Если вы планируете изучить несколько учебных пособий и QuickStarts, повторное использование проектов может помочь вам избежать превышения пределов квоты проекта.
Удалить экземпляры
- В облачной консоли Google перейти к ВМ экземпляры страница. Перейти к экземплярам виртуальной машины
- Выберите флажок для экземпляра, который вы хотите удалить.
- Чтобы удалить экземпляр, нажмите More_vert Больше действий, нажимать Удалить, а затем следуйте инструкциям.
Удалить правила брандмауэра для сети по умолчанию
- В облачной консоли Google перейти к Брандмауэр страница. Перейти в брандмауэр
- Выберите флажок для правила брандмауэра, которое вы хотите удалить.
- Чтобы удалить правило брандмауэра, нажмите Удалить Удалить.
Что дальше
- Узнайте, как получить временные метки для аудио.
- Определите различные динамики в аудиофайле.
Попробуйте это сами
Если вы новичок в Google Cloud, создайте учетную запись, чтобы оценить, как выступает речь к тексту в реальных сценариях. Новые клиенты также получают бесплатные кредиты в размере 300 долларов США для запуска, тестирования и развертывания рабочих нагрузок.
Отправить отзыв
Кроме того, как указано, содержание этой страницы лицензируется в соответствии с Attribution 4 Creative Commons 4.0 лицензия и образцы кода лицензированы в соответствии с Apache 2.0 лицензия. Для получения подробной информации см. Политику сайта разработчиков Google. Java является зарегистрированным товарным знаком Oracle и/или ее филиалов.
Последнее обновление 2023-05-19 UTC.
Транскрибция в Google Docs: аудио для текстовой транскрипции
В этой статье будет рассмотрено, как транскрибировать в Google Docs, используя функцию голосового печати. Этот бесплатный инструмент для транскрипции полезен для многих задач, помимо обычного голосового печати: вы можете быстро доставить свои идеи в письменную форму, получить грубые заметки от встреч и создавать сценарии для речей. Транскрипты полезны по ряду причин: они доступны для поиска, вы можете использовать их для создания субтитров, и это’Легко сохранить их для будущей ссылки.
Могут ли Google Docs расшифровать аудиофайл?
Не многие люди знают, что вы можете использовать документы Google для транскрибирования аудиофайлов (хотя мы доново’это рекомендую это! Вместо этого используйте сторонний инструмент, такой как SPF.IO, чтобы получить точные и быстрые транскрипты из аудиофайлов). Помните, что использование инструмента для чего -то другого, кроме его основной цели, даст вам меньше идеальных результатов. .
Это некоторые преимущества для использования функции голосового тиска Google Docs:
-Бесплатно: Google Docs не требует сборов, чтобы начать.
-Редактируемый: текст в Google Doc легко изменить, комментировать и использовать с сотрудниками, которые помогают вам
-Легко общаться: так как вы’Повторная работа непосредственно в документах Google, вы можете использовать
“делиться” Функция, чтобы отправить стенограмму друзьям и коллегам
Недостатки с использованием бесплатных инструментов транскрипции, таких как Google Docs:
-Нет перевода
-Нет марки времени
-Нет автоматической пунктуации (вы можете сказать устно сказать “период” или “запятая,” Но документы не будут транскрибировать пунктуацией. Узнайте больше о голосовых командах здесь).
-Нет пользовательского словаря или автоматических исправлений орфографии (если вы хотите эту функцию, используйте SPF.IO и создайте свою собственную базу данных автоматического размещения)
Как использовать Google’S Текст-речь инструмент
После того, как у вас есть аудиофайл, выполните эти шаги, чтобы транскрибировать в Google Docs:
- Создайте новый документ:
Откройте новый файл Google DOC по адресу https: // docs.Google.com/документ/ - Включить текст в речь:
Под инструментами выберите “Голосовой набор” - Выберите язык транскрипции:
Когда появится микрофон, вы можете использовать выпадающую стрелку рядом с отображенным языком (в данном случае английский (США)), чтобы выбрать свой язык. Когда вы транскрибируете в Google Docs для двуязычной работы, вы’LL нужно сделать паузу и выключить микрофон, прежде чем переходить на новый язык каждый раз, когда вы хотите говорить по -разному. - Начните транскрибировать свой аудиофайл:
Начните играть свой аудиофайл в другом окне (убедитесь, что он воспроизводит ваши динамики, а не через гарнитуру!). Нажмите на микрофон в Google Docs как можно скорее, чтобы запечатлеть звук. Причина, по которой вам нужно сделать это в порядке, заключается в том, что если вы нажмете от окна Google Docs, транскрипция остановится. Недостатком в том, что вы’LL потерял первую часть вашего аудио или видеофайла, когда вы нажимаете в Google Docs, чтобы запустить транскрипцию. - Редактировать свою стенограмму:
Это самая трудоемкая часть этого процесса с тех пор, как вы выиграли’T получить пунктуацию добавлена автоматически при транскрипции в Google Docs. Обратите внимание, что вы можете’T Редактируйте текст в документе, когда ваше видео/аудио транскрибируется – голосовое печатание добавит текст, где бы вы ни ставили курсор.
Другие способы использования Google Docs Docs To-Text:
- Пишите быстрее
- Делать заметки с встречи
- Создать сценарий для речи
Простые и точные транскрипты аудио/видео с SPF.io
Хотя процесс транскрибирования в Google Docs бесплатный, это может занять много времени (что в конечном итоге может оказаться дороже!). Мы рекомендуем использовать сторонние инструменты, такие как SPF.IO для получения точных транскриптов, которые требуют меньше трудоемкого редактирования, чем потребуются бесплатные инструменты. Это особенно необходимо, если у вас есть много часов видео/аудио для транскрибирования.
С SPF.IO, вы даже можете использовать свою стенограмму для создания подписей и субтитров. Поскольку мы предлагаем много вариантов в нашем инструменте «Все в одном», у вас есть свобода переводить свой текст на более чем 60 языков! Мы также предлагаем живые подписания для большинства платформ, таких как Zoom, Streamyard, YouTube и многое другое.
Устал пытаться транскрибировать в Google Docs? Упростите свой процесс и получите цитату от SPF.IO для вашего проекта транскрипции!
Транскрибирование аудиоконтента: ресурсы и как это
Если вы хотите транскрибировать аудиоконтент, то вы’прийти в нужное место. Вы решите использовать стороннюю службу транскрипции или DIY (сделайте это самостоятельно), это’Важно взвесить плюсы и минусы и выбрать, какой вариант лучше всего подходит для вас.
Преимущества транскрибирования звука
- Создайте лучший пользовательский опыт
- Увеличьте свои шансы на то, что их цитируют и зачисляют
- Повышение поисковой оптимизации (SEO)
- Улучшение доступности для пользователей, которые являются D/глухими или услышанными
Кроме того, многие предприятия и организации юридически необходимо создавать стенограммы для их контента Основываясь на Законе об американцах с ограниченными возможностями и разделом 504 и 508 Закона о реабилитации. WCAG 2.0 – это набор руководящих принципов, созданных Всемирным консорциумом веб -сайта, чтобы сделать цифровой контент более доступным для пользователей, в том числе с ограниченными возможностями. WCAG 2.0 имеет три уровня соответствия: уровень A, AA и AAA. Раздел 508 был пересмотрен в соответствии с WCAG 2.0 Уровень A и AA. В соответствии с самым низким уровнем, уровень A, транскрипты рекомендуются для содержания только для аудио.
Мы’LL предоставит различные ресурсы, которые вы’Необходимо транскрибировать из аудиофайла и помочь вам определить наиболее жизнеспособный выбор в зависимости от вашего бюджета, времени и особых потребностей. Удачи и счастливая транскрибирование!
DIY Транскрипция
Вручную транскрибирование звука может быть сложной задачей, особенно если у вас есть более длинные формы контента. Обычно это требуется в 5-6 раз превышает фактическое время содержания. К счастью, есть много бесплатных и недорогих инструментов, доступных для упрощения процесса. Прежде чем начать транскрибировать, убедитесь, что вы захватить чистое и громкое аудио. Это поможет уменьшить красные флаги и неразборчивые звуки в вашей стенограмме.
YouTube
Если вы размещаете свой звуковой контент на YouTube, вы можете использовать бесплатный инструмент автоматического транскрипта видео. Этот инструмент автоматически транскрибирует аудио в текст, но имейте в виду, что он поставляется с множеством ошибок. Стенограммы, произведенные YouTube’S Инструмент слишком неточный, чтобы их можно было использовать самостоятельно. Следовательно, это’настоятельно рекомендуется очистить их, так как они могут Поврешите доступность к видео и рейтинг на страницах результатов поисковой системы (SERP).
Здесь’S, как использовать YouTube’S Автоматическая транскрипция видео:
- В видео менеджере выберите видео и нажмите Редактировать> субтитры и CC. Выбирать Добавить субтитры или CC и выберите свой язык.
- Выбирать Транскрибировать и установить время, и введите стенограмму в предоставленном пространстве. YouTube автоматически приостановит видео при вводе, чтобы вы могли бы быстрее и точно транскрибировать транскрибировать.
- Как только вы будете удовлетворены, выберите Установить время. Это синхронизирует вашу транскрипцию с видео.
Точно так же вы можете создать стенограмму заранее и загрузить ее на YouTube:
- Во -первых, создать стенограмму с YouTube’S рекомендации по форматированию.
- Перейдите к видео менеджеру на YouTube и нажмите Редактировать> субтитры и CC. Выберите добавить субтитры или CC и выберите свой язык.
- Выбирать Загрузить файл, выбирать Транскрипт, и выберите свой .TXT -файл для загрузки.
- Как только ваша стенограмма будет загружена, нажмите Установить время синхронизировать вашу стенограмму с видео и создать закрытые подписи.
Вы также можете загрузить файл стенограммы позже с временем в качестве файла подписи:
- Перейдите на видео, с которого вы хотели бы загрузить стенограмму. Нажать на Больше действий Кнопка (3 горизонтальные точки). Подсказка: это’S расположен рядом с кнопкой Share.
- Выберите Транскрипт вариант.
- Стенограмма закрытых подписей с кодами времени автоматически генерирует.
ASR Software
Автоматическое распознавание речи, иначе известное как ASR, представляет собой технологию, которая поднимает человеческую речь и превращает ее в текст. Вы можете загрузить свой носитель в программное обеспечение ASR, и он автоматически транскрибит аудио в текст. Этот метод все еще поставляется со многими ошибками, но он’S намного проще и быстрее для очистки неточной транскрипции, чем начать с нуля.
Есть много вариантов для программного обеспечения для транскрипции, которые бесплатны или доступны для небольших затрат, таких как Express Scribe, Eurscribe и Dragon, естественно.
Гугл документы
Google предлагает потрясающую функцию, которая позволяет вам превратить документы в бесплатное программное обеспечение для транскрипции. Если ты не ДОН’T есть учетная запись Gmail, вы можете зарегистрироваться бесплатно. Если у вас есть существующая учетная запись, у вас уже есть доступ к функции под названием Гугл документы; Google Docs – это инструмент обработки текстов, который позволяет создавать текстовые документы в вашем веб -браузере. Использование голосового набора, транскрипция Google Voice может создавать текстовые транскрипты из аудио. Как и многие другие инструменты ручной транскрипции, будут ошибки, поэтому обязательно очистите их перед тем, как использовать.
Следуйте этим шагам, чтобы создать вашу транскрипцию:
- Используя любой браузер по вашему выбору, перейдите на веб -сайт Google Docs и Начать новый документ.
- Нажмите на Инструменты и выберите Голосовой набор. Это позволит распознать голоса.
- Нажмите Микрофон значок слева, чтобы активировать Голосовой набор. Google будет расшифровать все, что говорится в документе Word.
iOS/Android
Еще один способ транскрибирования аудиоконтента – это использование смартфона. Подобно Google Docs, микрофон будет подхватывать звук и транскрибировать его в текст. Транскрибирование на вашем смартфоне имеет тенденцию работать немного лучше, чем документы Google, поскольку микрофон на вашем телефоне поднимает меньше фонового шума; Однако это все еще не’по сравнению с высококачественным микрофоном. Запись на вашем смартфоне выиграна’t обеспечить высокую точность, поэтому вам придется очистить окончательный транскрипт.
Вот пошаговые инструкции о том, как транскрибировать аудио в текст со смартфоном:
- Откройте Приложение обработки слов на вашем смартфоне.
- На клавиатуре вашего смартфона выберите Микрофон кнопка, и начнет запись.
- Держите телефон рядом с компьютером или другим устройством и Воспроизводить видео. Ваш телефон автоматически превратит аудио в текст.
Плюсы против. Минусы транскриптов DIY
Плюс
- Более бюджетный
- Хорошо для более короткого содержания
Минусы
- Много времени для создания
- Трудоемкий
- Низкий уровень точности
Транскрипционные услуги
Еще один вариант транскрибирования аудиоконтента в текст-использовать стороннюю службу транскрипции. Если вы’Повторный поиск высококачественных, точных транскриптов, это определенно путь, чтобы пойти!
3-ступенчатый процесс транскрипции который использует как технологии, так и транскрипционисты человека, обеспечивая 99.. Когда аудиофайл состоит из сложного содержания, имеет фоновый шум или содержит акценты, скорость точности снижается. ASR обычно обеспечивает точность 60-70%, поэтому использование транскрипционистов человека отличает 3PLE от других вариантов транскрипции.
Наша запатентованная технология использует ASR для автоматического производства грубой транскрипта, что полезно для создания точных времен, даже если слова и грамматика неверны. Используя проприетарное программное обеспечение, наши транскрипционные транскрипции проходят и редактируют стенограмму. Все наши транскрипции проходят строгий процесс сертификации и имеют сильное понимание английской грамматики, что важно для понимания всех нюансов вашего контента. После процесса редактирования ваш файл проходит окончательный обзор под названием обеспечение качества. Ваш файл проверяется нашими ведущими редакторами, которые гарантируют, что ваша стенограмма практически безупречна.
Одна функция, которую мы также предлагаем, – это 3play Interactive Transcript. Эта функция позволяет пользователям взаимодействовать с вашим видео, выполнив поиск в видео, навигация, нажав на любое слово, и читая вместе с аудио. Интерактивные транскрипты делают ваш контент более доступным и улучшает пользовательский опыт.
Плюсы против. Минусы использования службы транскрипции
Плюс
- Высокий уровень точности
- Более надежный
- Обрабатывает большое количество содержания
- Доступ к уникальным инструментам
- Доступ к опытным персоналу
Минусы
- Более дорогой
Лучшие практики транскрипции
Теперь, когда у вас лучшее понимание ручной транскрипции по сравнению с службой транскрипции, вы можете принять обоснованное решение. Независимо от того, какой вариант вы выберете, это’важно знать, как максимально извлечься из своих стенограмм.
- Грамматика и пунктуация: Убедитесь, что в вашей стенограмме нет ошибок, так что его легко прочитать.
- Идентификация спикера: Используйте этикетки динамиков, чтобы определить, кто говорит, особенно когда есть несколько динамиков.
- Звуки без речи: Сообщите звуки, не речи в стенограммах. Они обычно обозначены [квадратными скобками].
- Дословно: Транскрибировать содержание как можно ближе к дословно. Опустите слова наполнителя, такие как “гм” или “нравиться” если они’повторно включен в аудио.
Хочу узнать больше?
Этот пост был первоначально опубликован Самантой Саулд 30 августа 2018 года и с тех пор была обновлена.
Транскрибция речи в текст с помощью Cloud Console Google
Этот QuickStart знакомит вас с облачной консоли речи к тексту. В этом QuickStart вы создадите и усовершенствоваете транскрипцию и узнаете, как использовать эту конфигурацию с помощью API речи к тексту для ваших собственных приложений.
Чтобы узнать, как отправлять запросы и получить ответы, используя API REST вместо консоли, см. Перед началом страницы.
Прежде чем вы начнете
Прежде чем начать использовать консоль речи к тексту, вы должны включить API на консоли облачной платформы Google. Шаги ниже проводят вас по следующим действиям:
- Включить речь к тексту в проекте.
- Убедитесь, что выставление счета включено для речи в текст.
Настройте свой Google Cloud Project
- Войдите в Cloud Console Google
- Перейдите на страницу селектора проектов, вы можете выбрать существующий проект или создать новый. Более подробную информацию о создании проекта, см. Документацию Google Cloud Platformation.
- Если вы создадите новый проект, вам будет предложено связать биллинговую учетную запись с этим проектом. Если вы используете ранее существовавший проект, убедитесь, что у вас есть выставление счетов. Узнайте, как подтвердить, что выставление счета включено для вашего проектаПримечание: Вы должны позволить выставлению счетов использовать API речи в тексте, однако вам не будет взиматься плата, если вы не превышаете бесплатную квоту. Смотрите страницу ценообразования для получения более подробной информации.
- После того, как вы выбрали проект и связали его с биллинговой учетной записью, вы можете включить API речи к тексту. Перейти к Поиск продуктов и ресурсов бар в верхней части страницы и введите “речь”.
- Выберите Облачный речь в тексте API Из списка результатов.
- Чтобы попробовать речь к тексту, не связывая его с вашим проектом, выберите Попробуйте этот API вариант. Чтобы включить API речи к тексту для использования с вашим проектом, нажмите ДАВАТЬ ВОЗМОЖНОСТЬ.
Создать транскрипцию
Используйте Cloud Console Google, чтобы создать новую транскрипцию:
Аудио конфигурация
- Открой Речи к тексту Обзор.
- Нажимать Создать транскрипцию.
- Если вы впервые используете консоли, вам будет предложено выбрать, где в облачном хранилище для хранения ваших конфигураций и транскрипций.
- в Создать транскрипцию страница, Загрузите аудиофайл источника. Вы можете выбрать файл, который уже сохраняется в облачном хранилище или загрузить новый в указанное место в облачном хранилище.
- Выберите загруженный аудиофайл Тип кодирования.
- Укажите его частота дискретизации.
- Нажимать Продолжать. Вас будут взяты Параметры транскрипции.
Параметры транскрипции
- Выберите языковой код вашего исходного звука. Это язык, говорящий на записи.
- Выбрать транскрипционная модель Вы хотели бы использовать в файле. Опция по умолчанию предварительно выбрана и, как правило, никаких изменений не требуется, но соответствие модели с типом аудио может привести к более высокой точности. Обратите внимание, что затраты на модель различаются.
- Нажимать Продолжать. Вас будут взяты Модель адаптация.
Адаптация модели (необязательно)
Если ваш исходный звук содержит такие вещи, как редкие слова, собственные имена или проприетарные термины, и вы испытываете проблемы с признанием, адаптация модели может помочь.
- Проверять Включите адаптацию модели.
- Выбирать Единственный адаптационный ресурс.
- Добавить актуально фразы и дайте им повышение значения.
- В левом столбце нажмите Представлять на рассмотрение Чтобы создать вашу транскрипцию.
Просмотрите свою транскрипцию
В зависимости от размера вашего аудиофайла, транскрипция может занять от нескольких минут до часов, чтобы создать. Как только ваша транскрипция будет создана, она готова к обзору. Сортировка таблицы по временной метке может помочь вам легко найти ваши недавние транскрипции.
- Нажать на Имя о транскрипции, которую вы хотели бы просмотреть.
- Сравнить Транскрипция текст в аудиофайл
- Если вы хотите внести изменения, нажмите Повторное использование конфигурации. Это приведет вас к Поток с теми же параметрами, предварительно выбранными, позволяя вам изменить несколько вещей, создать новую транскрипцию и сравнить результаты.
Что дальше
- Практика транскрибирования коротких аудиофайлов.
- Узнайте, как оставлять длинные аудиофайлы для распознавания речи.
- Узнайте, как транскрибировать потоковое аудио, как из микрофона.
- Начните с речи к тексту на выборе по вашему языку, используя клиентскую библиотеку речи в текст.
- Пройти через примерные приложения.
- Для достижения наилучшей производительности, точности и других советов см. Документацию «Лучшие практики».
Отправить отзыв
Кроме того, как указано, содержание этой страницы лицензируется в соответствии с Attribution 4 Creative Commons 4.0 лицензия и образцы кода лицензированы в соответствии с Apache 2.0 лицензия. Для получения подробной информации см. Политику сайта разработчиков Google. Java является зарегистрированным товарным знаком Oracle и/или ее филиалов.
Последнее обновление 2023-05-16 UTC.